您的当前位置:精优范文网 > 专题范文 > 范文大全 >

行人再识别技术研究进展

时间:2023-08-03 18:20:03 来源:精优范文网
导读: 张永飞,杨航远,张雨佳,豆朝鹏,廖胜才,郑伟诗,张史梁,叶茫,晏轶超,李俊杰,王生进*1 北京航空航

张永飞,杨航远,张雨佳,豆朝鹏,廖胜才,郑伟诗,张史梁,叶茫,晏轶超,李俊杰,王生进*

1.北京航空航天大学计算机学院,北京 100191;
2.北京航空航天大学虚拟现实技术与系统全国重点实验室,北京 100191;
3.清华大学电子系,北京 100084;
4.北京信息科学与技术国家研究中心,北京 100084;
5.起源人工智能研究院,阿布扎比 5151,阿拉伯联合酋长国;
6.中山大学计算机学院,广州 510006;
7.北京大学计算机学院,北京 100871;
8.武汉大学计算机学院,武汉 430072;
9.上海交通大学人工智能研究院教育部人工智能重点实验室,上海 200240

监控视频由于其实时性强、信息量大和直观等特点,在智慧城市、智慧社区以及智慧公安等诸多领域发挥着无可替代的重要作用。近年来,我国监控摄像机安装数量持续稳定增长(仅2020 年国内安防摄像机出货量就达到了4.1 亿台,预计到2025 年将突破8 亿台)。对于海量的监控视频数据,得益于人工智能研究热潮的再度兴起和计算机视觉技术的迅猛发展,图像与视频中的目标检测、跟踪、分类和识别等技术为监控视频的智能化处理与应用提供了新的契机。

传统的人员识别与关联主要以人脸识别、指纹识别等技术为主,并已广泛应用。然而,随着应用场景的不断扩大和应用需求的不断提升,特别是在新冠疫情发生后,人脸识别、指纹识别等技术由于需要目标的配合,其应用范围受到极大限制。例如人脸识别技术需要提取人员的正面脸部特征信息,在戴口罩、灯光黑暗、拍摄角度不佳以及帽子遮挡等情况下,人脸识别技术难以发挥效用。针对这些问题,行人再识别应运而生。

行人再识别(person re-identification,re-ID),也称为行人重识别、行人再辨识或“跨镜追踪”,旨在基于行人的穿着、体态、发型和携带物等信息,实现大时空范围内人脸等生物特征失效情况下的跨摄像机的目标行人图像的检索与匹配,并借助摄像机的地理位置和拍摄时间,确定该行人出现的时间和地点,最终形成行人的运动轨迹。行人再识别作为人脸识别、指纹识别等生物特征识别的补充手段,特别是开放环境、非配合场景中上述识别技术失效时的替代手段,已成为智能视频监控系统的关键环节和支撑技术,在智慧公安、智慧城市等国民经济建设中发挥了重要作用。例如,在智慧公安领域,借助行人再识别可实现嫌疑人员长时间、大范围的追踪定位和轨迹还原功能,快速筛查嫌疑人员并进一步锁定出行区域,辅助精准预防和打击;
在智慧城市与智慧治理领域,通过行人识别技术,不仅可以实现人流信息的统计,甚至可以实现大场景的人流轨迹还原以及人员的比对与查询,为各种资源的实时管理和优化配置提供支撑;
在疫情防控方面,基于行人再识别技术,可以还原行人活动轨迹并关联追踪到密接、次密接人群,在减轻基层工作人员负担的同时,以最快速度锁定传播范围,极大提升疫情追踪、防控效率;
在智能园区和智能交通领域,行人再识别可用于陌生人员的轨迹分析,有效保障园区安全;
在人流密集的机场、车站、公园和商场等大型公共场所,行人再识别能够帮助迅速查找不慎走失的儿童、老人;
在智能商业领域,行人再识别可以实时动态跟踪顾客的行为轨迹,以此了解用户在商场的兴趣所在,帮助商家挖掘更多的商业价值,同时优化用户体验。此外,行人再识别在智能交通、自动驾驶等领域也已应用或具有重要应用前景。

随着智慧社会治理、智慧公安等国家战略、需求的推进,特别是深度学习和计算机视觉理论与方法的不断深入,行人再识别技术吸引了越来越多的关注。经过10 多年从多摄像机追踪到再识别的起步阶段、基于传统特征的再识别以及基于深度学习的再识别3 个主要阶段,取得了快速发展与进步(Ye等,2022)。但在实际应用场景仍面临遮挡、标注成本高、训练样本不足、跨场景跨模态差异大以及跨域泛化性能差等诸多挑战,导致当前行人再识别算法在实际应用场景的性能还比较低,距离实际可用还有很长的距离。基于此,本文面向行人再识别的技术发展和落地应用需求,总结整理遮挡行人再识别、无监督行人再识别、虚拟数据生成、域泛化行人再识别、换装行人再识别、跨模态行人再识别和行人搜索等方面的前沿进展,归纳其发展现状、存在问题和发展趋势。这对推动行人再识别技术进步,进而提升视频监控分析的智能化水平和实用性具有积极意义和重要作用。其中,遮挡行人再识别是现有再识别问题的一种特殊和挑战场景;
而无监督行人再识别、虚拟数据生成、域泛化行人再识别则是主要缓解行人再识别数据收集与标注成本高的挑战;
在此基础上,换装和跨模态行人再识别是面向长时间尺度、可能存在白天(可见光)、黑夜(红外)以及行人换装等实际场景下的行人再识别挑战;
最后,行人搜索则旨在将行人检测和再识别统一到同一个端到端的框架中,以提升系统的性能和效率。

本文首先对行人再识别技术进行简介,然后从遮挡行人再识别、无监督行人再识别、虚拟数据生成、域泛化行人再识别、换装行人再识别、跨模态行人再识别和行人搜索等方面系统地总结和分析行人再识别前沿进展,最后对行人再识别技术的发展趋势进行展望。

1.1 行人再识别的引入

图1 给出了一个典型的智能视频监控系统应用示意图。对于嫌疑人员追踪或走失人员找回等实际应用,需要采集所有摄像机的原始监控视频,基于目标检测算法检测原始监控视频中的行人,并框选截图,形成行人图像库(也称为注册图(gallery))。然后,对于要追踪的嫌疑目标或要找回的人员,即可利用其在某个监控摄像机下的图像作为查询图像(probe 或query),基于行人再识别技术,在保存的海量行人图像库中检索到同一个人的其他图像,并借助摄像机的地理位置和拍摄时间,确定该行人出现的时间和地点,最终形成行人的运动轨迹以及最后出现的时间地点,从而实现嫌疑目标追踪或走失人员找回。

图1 典型智能视频监控系统应用示意图Fig.1 Illustration of a typical intelligent video surveillance system

行人再识别算法的一般技术流程通常包括数据集构建、模型训练和行人检索3 个步骤,如图2 所示。1)数据集构建。在校园等一定可控的场景下收集目标行人的监控视频,并基于YOLO(you only look once)或Fast R-CNN(fast region convolutional neural network)等目标检测算法进行行人检测和是否同一行人目标的标注,形成带标注的行人图像数据集;
2)模型训练。构建行人相似性判别模型,并基于1)中得到的行人图像数据集进行训练,得到合适的衡量行人图像之间相似性/距离的判别方法;
3)行人检索。最后,对一个摄像机拍摄的某个目标行人的图像,将其与其他摄像机拍摄的大量行人图像进行匹配,找到与其相似性最高或距离最小的行人图像,从而实现目标行人的再识别。

1.2 行人再识别技术发展历程

纵观行人再识别的发展历程,主要经历了从多摄像机追踪到再识别的起步阶段、基于传统特征的再识别、基于深度学习的再识别3个主要阶段。

早在1996、1997 年,就有学者关注行人或车辆的再识别问题(Cai 和Aggarwal,1996;
Huang 和Russell,1997)。2005 年,荷兰阿姆斯特丹大学的Zajdel等人(2005)提出行人再识别的概念。2006 年,Gheissari等人(2006)在计算机视觉和模式识别会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上首次将依靠行人的外观特征进行行人目标匹配的问题定义为行人再识别,标志着行人再识别成为一个独立的视觉任务。Gray 和Tao(2008)提出一个对于行人再识别的研究具有重大意义的数据 库VIPeR(viewpoint invariant pedestrian recognition)。此后,越来越多的学者开始关注行人再识别的研究,相关的研究成果也不断涌现。

在2014 年以前,行人再识别主要利用颜色、纹理(Farenzena 等,2010;
Xiang 等,2014;
Zhao 等,2013;
Yang 等,2014)、形状特征如方向梯度直方图(histogram of oriented gradients,HOG)(Oreifej 等,2010)、SIFT(scale-invariant feature transform)特征等局部不变量描述符(Kai 等,2011;
Zhao 等,2016)、Haar(haar-like feature)和DCT(discrete cosine transform feature)特征(Bak 等,2010)等手工设计的传统底层特征来描述行人的表观信息,结合度量学习方法(Köstinger 等,2012;
Xiong 等,2014),对行人图像的特征距离加以学习。2012 年,Layne 等人(2012)首次提出将15 种手工标注的基于底层特征的行人属性特征用于行人再识别的方法。这一阶段还有行人再识别技术发展进程中的两个标志性事件,其一是在2012 年的领域顶会欧洲计算机视觉国际会议ECCV(European Conference on Computer Vision)上召开了第1 个行人再识别研讨会(First International Workshop on Re-Identification,http://profs.sci.univr.it/~cristanm/ reid2012/);
其二是2013 年英国伦敦大学玛丽皇后学院的Gong 等人(2014)出版了第1 本行人再识别的专著,分别从学术交流和研究方面为行人再识别提供了坚实的基础和更大的舞台,有效促进了行人再识别技术的快速发展。然而,由于行人姿态变化大,人体表观特征光照以及复杂背景等因素影响,如图3 所示,仅靠传统特征无法覆盖所有情况,手工特征无法满足大规模、复杂场景的行人再识别应用需求。

图3 行人再识别面临的挑战Fig.3 Challenges faced by person re-identification

2014 年之后,随着AlexNet(Alex network)(Krizhevsky 等,2017)的出现,以卷积神经网络为代表的深度学习以其高效精准的特征提取能力和强大的端到端学习能力,在图像分类等计算机视觉任务上取得了远超传统方法的精度。香港中文大学团队的相关工作DeepReID(deep person re-identification)(Li等,2014)是最早使用深度学习的行人再识别的工作之一,标志着行人再识别进入了基于深度学习的新的发展阶段,基于深度学习的行人再识别也成为了学界研究的主流方向,并迎来了井喷式的增长。同时,相关行人再识别数据集也在不断扩充,有效促进了行人再识别的广泛研究和快速发展。在各大计算机视觉会议中出现了动辄几十篇相关论文的现象,行人再识别技术迅猛发展,日新月异,在各个数据集上的结果也获得很大提升。图4是2008—2022年间计算机视觉三大顶级会议CVPR、ICCV(IEEE International Conference on Computer Vision)和ECCV 上接收的行人再识别论文情况。此外,在TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence),TIP(IEEE Transactions on Image Processing),IJCV(International Journal of Computer Vision),TMM(IEEE Transactions on Multimedia),TCSVT(IEEE Transactions on Circuits and Systems for Video Technology)等相关国际顶级刊物上,也发表了大量行人再识别的研究成果。行人再识别技术快速发展,已成为计算机视觉的一个热点方向。

图4 计算机视觉三大顶级会议上的行人再识别论文情况Fig.4 Number of re-ID papers on three top conferences of computer vision

根据前期综述论文(Ye 等,2022)和最新调研,结合已有总结(赵才荣 等,2021)等,2017 年前的行人再识别研究主要集中在行人的特征表达和相似性度量上,2018—2020 年结合注意力的研究促进了行人再识别性能的提升。近年来,面向大规模复杂实际应用场景,遮挡、跨域、换装、跨模态、无监督、虚拟数据生成和行人检索等研究逐渐成为开放域行人再识别的趋势。

1.3 行人再识别数据集

行人再识别面临着光照、视角、姿态、摄像参数、遮挡和背景变化等诸多因素影响。为了更好地模拟这些因素、训练更好的行人再识别模型以及评估不同行人再识别算法的性能,从2008 年,Gray 和Tao(2008)提出第1 个仅包含2 个摄像头、分别率为128×48 像素的632个行人的1 264幅图像的行人再识别数据集VIPeR,再到第1个足以支撑深度学习的行人重新识别数据集CUHK03(Li 等,2014),不断有研究者构建出考虑更复杂场景因素、更大规模的数据集,极大促进了行人再识别技术的发展。鉴于多篇参考文献(赵才荣 等,2021;
Ye 等,2022;
Gou,2022)中已对行人再识别数据集进行了较为详尽的介绍,本节重点介绍目前最常用的3 个行人再识别数据集,即Market-1501(Zheng 等,2015a)、DukeMTMC-reID(Duke multi-target,multi-camera for person re-identification)(Ristani 等,2016)和MSMT17(multi-scene multi-time)(Wei等,2018)。

1)Market-1501 数据集(Zheng 等,2015a)是清华大学研究团队在2015 年发布的行人再识别数据集,由6 台摄像机采集,包括5 台高分辨率摄像机和1 台低分辨率摄像机。该数据集共包含1 501 个行人的32 668 幅行人图像,其中训练集包含751 个行人类别和12 936 幅行人图像,测试集包含750 个行人类别和19 732 幅行人图像。在测试集中,查询图像采用人工标注的检测边界框,而候选图像采用DPM(deformable parts model)生成的检测边界框,行人检测器的框不对齐、遮挡情况等更加严重。之后,为了模拟大规模检索,加入了约50 万幅干扰图像,包含了失败的检测框、不在测试集当中的行人等,使该数据集更贴近真实场景。

2)DukeMTMC-reID 数据集(Ristani 等,2016)是用于多目标跨镜头跟踪的数据集,由美国杜克大学研究团队在2016年构建并发布。研究者使用8台摄像机拍摄了8 段85 min 的高分辨率视频。基于这些视频,构造了规模与Market-1501相似的行人再识别数据集DukeMTMC-reID,其中的行人图像是手动框选出来的。DukeMTMC-reID 数据集包含来自8 台摄像机的1 812 个行人的36 411 幅图像,其中有702个行人的图像用于训练,702 个行人的图像用于测试。

3)MSMT17数据集(Wei等,2018)是北京大学研究团队于2017 年构建,并在CVPR 2018 正式发布的行人再识别数据集,是目前规模最大、最接近真实场景的基于图像的行人再识别数据集。其原始数据由15 台摄像机采集,包含12 台户外摄像机和3 台室内摄像机。为了提高数据集的多样性,该数据集拍摄的时间跨度大,在1 个月内采集了4 天,分别拍摄上午、中午、下午3 个时间段的行人视频,每天拍摄3 h,所有视频数据的总时长为180 h。该数据集有复杂的场景和丰富的光照变化,即在不同的天气、不同的光照条件下拍摄采集。行人框使用Faster R-CNN(Ren 等,2017)检测器产生。最终收集的数据集包含了4 101个行人类别和126 441幅行人图像。其中,训练集包含1 401个行人类别和32 621幅行人图像,测试集包含3 060 个行人类别和93 820 幅行人图像。

表1 比较了这3 个行人再识别数据集的发布时间、图像数量、行人身份数量和摄像机数量等信息。

表1 行人再识别三大常用数据集信息统计表Table 1 Statistics of the three most commonly used re-ID datasets

1.4 行人再识别评测指标

行人再识别任务的常用评测指标主要有Rank-N指标、累计匹配性能曲线(cumulated matching characteristics,CMC)(Moon 和Phillips,2001)、平均精度均值(mean average precision,mAP)(Zheng 等,2015a)和平均逆负样本惩罚率(mean inverse negative penalty,mINP)(Ye等,2022)等。

1)Rank-N。Rank-N指按照查询图与所有注册图间的特征距离对检索得到的图像从小到大进行排序后,前N幅排序结果中包含正确目标行人图像的概率,概率越大表示再识别算法的效果越好。Rank-N是一个最直观的指标,常用的有Rank-1、Rank-5、Rank-10 和Rank-20,分别代表在第1 幅、前5 幅、前10 幅和前20 幅注册图图像中包含正确目标行人图像的概率。

2)累计匹配性能曲线(CMC)。虽然Rank-N简单直观,但是每个Rank-N指标只能体现在给定N值情况下的性能。为此,Moon和Phillips(2001)提出了累计匹配性能曲线(CMC),同时表示不同N值情况下的性能。CMC 曲线首先使用再识别模型对查询图和注册图提取特征,计算特征之间距离,并按照特征距离从小到大对注册图进行排序;
然后,取排在前K幅的注册图作为查询结果,如果该结果中包含正确的目标行人图像,则设置结果概率为1,否则设置结果概率为0;
最后,对所有查询图的结果概率计算平均值。因此,随着K值的增大,CMC曲线呈上升趋势,它反映了不同长度候选列表中被检索的目标出现的概率。CMC 是行人再识别领域最常用的性能评估方法之一。

3)平均精度均值mAP。CMC 曲线可以有效表示不同查询下的精确率(precision)性能,但是难以反映查询结果的召回率(recall)性能。因此,引入了平均精度均值mAP。mAP 中的AP 即平均精度(average precision)(Zheng 等,2015a),通过计算每个查询的精确率—召回率曲线(precision-recall curve,PRC)下的面积,同时兼顾了精确率和召回率性能。而mAP 通过计算多个查询图像的平均准确率的均值来综合评价算法的性能,因此,mAP 是一个比CMC曲线更全面的评价指标。具体计算为

式中,m为查询集中查询图像的数量,APi为第i个查询图像的平均精度。

4)平均逆负样本惩罚率(mINP)。理想的re-ID算法应该使针对所有查询集图像的检索到的图像排得尽可能靠前,而CMC 和mAP 都无法体现这一点。为此,Ye 等人(2022)提出了平均逆负样本惩罚率(mINP)指标,其定义和计算为

式中,m为查询集中查询图数量,指最困难正样本在匹配列表中的索引rank 值,即最后一个正确匹配结果的索引位置,|Gi|指正确匹配样本的总数。

通过考虑正确匹配样本,特别是最难匹配正样本在匹配列表中的索引rank值,mINP能够弥补CMC和mAP 难以衡量模型在最难匹配正样本上性能的问题。

需要说明的是,自从Market-1501 等含有多个摄像机数据的大型数据集提出后,研究者基本上都只关注跨摄像机再识别的准确性,因此在计算上述指标时会忽略来自同一台摄像机的正确匹配图像。

由1.2 节可知,面向大规模复杂实际应用场景,跨域、遮挡、换装、跨模态、无监督、虚拟数据生成和行人检索等研究逐渐成为开放域行人再识别的趋势。因此,本节面向行人再识别的技术发展和落地应用需求,遮挡行人再识别、无监督行人再识别、从虚拟数据生成、域泛化行人再识别、换装行人再识别、跨模态行人再识别和行人搜索等方面,梳理总结行人再识别技术的前沿进展,归纳其发展现状、存在问题和发展趋势。

2.1 遮挡行人再识别

在现实视频感知场景中,镜头下的行人图像普遍存在遮挡问题,严重影响了现有行人再识别算法在实际场景中的性能。很多学者开始关注遮挡行人再识别算法研究。已有研究通过提取可见的行人特征、特征配准和补全缺失行人信息等手段有效地降低了遮挡问题的影响,提升了遮挡行人再识别的性能。本节首先介绍遮挡行人再识别常用的数据集,然后重点阐述近几年遮挡行人再识别研究取得的进展和结果。

2.1.1 遮挡行人再识别数据集简介

为了更全面地检验遮挡行人再识别方法的有效性,除了1.3 节介绍的Market-1501、DukeMTMCreID 等全身数据集外,常用的遮挡行人再识别数据集有两大类共4 个,即遮挡数据集Occluded-Duk(Miao 等,2019)和Occluded-REID(occluded person re-identification)(Zhuo 等,2018);
部分成像数据集Partial-REID(partial person re-identification)(Zheng等,2015b)和Partial-iLIDs(partial international logistic identification)(Zheng等,2011)。

1)遮挡数据集。Occluded-Duke是从DukeMTMCreID数据集中重构出来的,删除了DukeMTMC-reID中的一些重复图像,并挑选受遮挡的行人图像作为查询图像。Occluded-Duke 包含15 618 幅训练图像,2 210 幅查询图像(query)以及17 661 幅数据库的图像(gallery),是目前遮挡行人再识别问题中最大且最具挑战的遮挡数据集。Occluded-REID 包含来自于200个行人的2 000幅图像。每个行人有5幅全身图像和5幅被遮挡图像。其中,被遮挡图像作为查询图像,全身图像作为数据库的图像。由于Occluded-REID 数据集规模较小,且没有训练集,一般在Market-1501上训练,在Occluded-REID上进行测试。

2)部分成像数据集。除了以上两个遮挡数据集之外,由于部分成像行人再识别和遮挡行人再识别面临的核心问题相近,部分成像数据集Partial-REID和Partial-iLIDs 也常用来测试遮挡行人再识别方法的性能。Partial-REID 包含来自60 个人的600 幅图像。每个行人有5 幅全身图像和5 幅部分成像图像。其中,部分成像图像作为查询图像,全身图像作为数据库图像。Partial-iLIDs包含从机场拍摄的119个行人的238 幅图像。每人有2 幅图像,1 幅作为查询图像,1幅作为数据库图像。同样地,Partial-REID和Partial-iLIDs 没有训练集,一般在Market-1501 上进行训练。

2.1.2 遮挡行人再识别研究进展

在遮挡行人再识别问题中,待查询图像中的目标行人通常受到遮挡,造成目标行人表观信息缺失问题。该问题给遮挡的行人再识别带来了两个主要挑战。一是遮挡物给提取的特征中引入了噪声,影响检索过程中的特征配准和相似性计算;
二是被遮挡区域的行人信息缺失,使得提取的行人特征鉴别性降低。为了应对以上两种挑战,针对遮挡行人再识别问题,人们提出了两种解决方法,即基于可见区域的遮挡行人再识别方法和基于补全的遮挡行人再识别方法。

1)基于可见区域的遮挡行人再识别方法。这类方法的主要思路是,精确定位图像中的行人可见区域,仅依靠可见的行人部分进行再识别,忽略遮挡物和背景的影响。Miao 等人(2019)提出一种基于行人关键点信息的特征对齐方法。首先利用一个额外的人体关键点检测网络,得到图像中人体关键点的位置以及关键点是否被遮挡的信息。然后,提取关键点的特征作为行人的特征表示。在检索过程中,仅考虑未被遮挡的关键点特征之间的距离,从而实现了特征对齐。He 等人(2018)提出一种基于特征重建的方法,在求解重建矩阵的过程中隐式地实现了特征对齐。然而,求解重建矩阵需要的计算复杂度高,不适用大规模的再识别场景。史维东等人(2020)通过擦除空间注意力高响应对应的区域而仅保留低响应的特征区域,模拟行人遮挡样本,改善了网络对遮挡样本的能力。Wang等人(2020b)将行人的关键点特征看做图中节点,利用图卷积网络学习关键点之间的高阶关系和拓扑信息,进而提取鉴别力强的特征表示。田维怡(2021)借助额外的行人解析模型在遮挡环境下精确定位行人图像的前景,并且建模像素特征不确定性来提高网络的抗遮挡能力。李吉林(2021)借助注意力机制,根据人体姿态信息计算行人图像的注意力图,用于指导网络过滤背景遮挡信息的干扰,并借助特征金字塔缓解了行人图像尺度差异较大的问题。任雪娜等人(2021)以行人的语义掩膜作为监督信息,通过全局和局部的语义引导来提取行人的全身和局部特征,推理时仅考虑共享的可见人体区域特征,提高了模型对遮挡的容忍能力。Zheng 等人(2022)借助关键点特征,提出一种基于知识蒸馏的特征引导学习方法来学习不同身体部位的对齐表征。受益于知识蒸馏和交互学习,在该方法中,关键点检测器可以在测试时丢弃,从而提高检索效率。这几种方法需要借助于额外的关键点检测模型或姿态估计模型,由于这些模型的训练数据和行人再识别的数据之间存在着一定的域差异,导致在行人再识别数据上提取的关键点信息容易出错,影响最终的行人再识别性能。考虑到这个问题,Yang 等人(2021b)提出将姿态信息离散化为身体部位的可见性标签,以减轻噪声姿态信息在关键点特征提取过程中以及特征配准过程中的影响。Cheng 等人(2022)通过集成多个在不同数据上训练的行人解析模型来生成更可靠的行人语义信息,帮助提取更准确的行人特征。Chen 等人(2021b)提出了遮挡感知掩码网络(occlusion-aware mask network,OAMN),通过给图像中人为地添加遮挡物,对训练数据进行增强,同时得到遮挡物精确位置标签。基于该标签,OAMN 学习一个注意力模块,关注行人的可见区域,有效减小了遮挡物带来的影响。Jia 等人(2022b)提出一个基于Transformer 的解耦表示网络DRL-Net(disentangled reinforcement learning-network)来解决遮挡行人再识别问题,该网络不需要严格的特征对齐和额外的信息。基于Transformer 架构,DRL-Net 通过对被遮挡行人的局部特征进行全局推理来实现无需对齐的检索方法。在学习过程中,Transformer 的queries 启发式地解耦了抽象的语义部件。在检索过程中,直接利用queries 来计算图像的相似性,无需进行精确的特征对齐。Dou 等人(2022)受到人类视觉系统中“自顶向下”的处理机制的启发,提出了为行人提取多粒度特征的方法,将行人的特征表示拓展到像素级别,并给不同粒度的特征设计了基于对齐的相似性度量方式,有效解决了检索过程中的特征配准的问题。Tan等人(2022)提出一个多头自注意力网络来剪枝图像中不重要的信息以及捕获行人关键的局部信息,有效减小了遮挡物的影响。

2)基于补全的行人再识别方法。这类方法的主要思路是,利用时空上下文来补全图像中遮挡区域缺失的行人信息,提高特征的鉴别性。Iodice 和Mikolajczyk(2018)提出部分匹配网络PMN(partial matching network),可以检测人体关键点,对齐部分视图并且根据视频帧中的可见行人信息和特有的行人模型来幻觉出行人缺失的部分,然后将对齐的视图和重建的视图组合成一个联合表示用于图像匹配。Hou 等人(2019)提出STCnet(spatio-temporal completion network),利用视频中的空间连续性和时间连续性来补全某一帧被遮挡的行人区域,从而提高特征的鉴别力。然而这种方法仅适用于视频行人再识别,在图像行人再识别中,时序信息是无法获得的。为了解决这个问题,Xu 等人(2022a)提出了补全图像中缺失部件特征的方法。给定一幅待检索的查询图像,首先为其提取部件特征,然后进行检索,得到图像库中与待查询图像最相似的前k幅图像。然后用这k幅图像的部件特征来恢复遮挡图像中缺失的部件特征,实现进一步检索。Hou 等人(2022)设计了一种即插即用的模块,利用非遮挡区域的空间上下文信息来补全遮挡区域的行人特征,同时利用时间序列的上下文来进一步提纯补全的特征。该方法可以同时适用于视频行人再识别和图像行人再识别问题。

遮挡行人再识别问题受到越来越多的关注,在具有挑战性的遮挡数据集Occluded-Duke上,Rank-1指标已经由最开始提出时的51.4%不断提升,目前已经达到70%以上。基于可见区域的方法和基于补全的方法均取得了相当的结果。具体来说,目前性能最好的基于可见区域的方法是Cheng 等人(2022)提出的MSDPA(multi-source dynamic parsing attention),在Occluded-Duke 上的Rank-1 指标为70.4%。性能最好的基于补全的方法是Xu 等人(2022a)提出的FRT(feature recovery transformer),在Occluded-Duke上的Rank-1指标为70.7%。

2.2 无监督行人再识别

利用人工在多路视频中查找和标注相同行人难度高、效率低,严重制约了有监督行人再识别方法的应用。针对该问题,近3年很多学者开始关注无监督行人再识别算法研究。相关方法通过引入预训练模型、数据增强策略以及设计伪标签生成方法等方式显著降低了人工标注需求,提升了无监督行人再识别性能,推进了行人再识别系统的落地应用。本节对无监督行人再识别领域的进展进行分类和总结。

1)基于伪标签生成的方法。很多无监督行人再识别方法首先在无标注数据上利用标签预测算法来获取每个数据的伪标签,然后利用这些伪标签来训练模型。当前获取伪标签的主要方法包括基于K近邻的方法(Zhong 等,2019,2021;
Yu 等,2019b)、基于K 均值聚类的方法(Ge 等,2020;
Huang 等,2019a;
Zhai 等,2020)以及基于密度空间聚类(density-based spatial clustering of applications with noise,DBSCAN)的方法(Ester等,1996;
Fu 等,2019;
Dai等,2023)等。例如,Zhong等人(2019)使用KNN(K-nearestneighbor)方法获取正样本,即每个样本的前K 个近邻样本作为其正样本,其余样本为负样本。Zhong 等人(2021)进一步利用图神经网络优化特征距离远近关系,获得更准确的K 近邻正样本。Yu 等人(2020)提出在使用特征间欧氏距离之外,额外使用对目标图像的分类预测得分来共同计算样本间相似度,提升了K近邻正样本的准确率。也有研究者设计了新的聚类算法来预测正负样本(Ding 等,2019;
Lin 等,2019)。例如,Lin 等人(2019)提出了一种自底向上的聚类方法(bottom-up clustering,BUC),首先将每个单独的样本看做一个簇,然后逐渐融合相近的簇为同一个簇。融合过程中,使用两个簇内最小的样本距离作为两个簇的距离,并融合距离最近的簇。此外,还设计了簇内样本个数的正则化项以优先融合样本个数较少的簇,从而平衡不同簇内的样本数量,并最终较好地平衡了簇内样本的相似性和差异性。Ding 等人(2019)则进一步优化了BUC 中簇间距离计算方式,提升了簇内样本的准确性。这些聚类方法都有助于在无标注数据上获取更为准确的伪标签,用于监督模型的学习。

在对无标注数据预测伪标签的基础上,可以使用分类损失函数训练网络。为提升特征的判别力,也有工作在特征空间引入三元组损失函数共同训练模型(Fu 等,2019;
Lin 等,2020)。但是,基于伪标签训练模型会受到伪标签中噪声的干扰,因此直接使用伪标签作为分类或三元组损失难以达到较高的性能。为应对伪标签中噪声的影响,研究者提出了多种方法来提升训练过程对标签噪声的鲁棒性,主要手段为模型协同训练。这类方法(Yu等,2019a;
Han等,2018;
Ke 等,2019)使用多个模型协同训练以提升对噪声的鲁棒性。例如,Han 等人(2018)提出使用两个网络互相为对方选择训练样本并预测伪标签以降低噪声标签的影响。Tarvainen 和Valpola(2017)提出了均值教师模型用于模型协同训练,并应用于半监督训练任务。均值教师模型是指在训练中利用动量更新的方式累加各次梯度更新后的模型参数,并将其作为教师模型,指导当前模型的训练。

在Tarvainen 和Valpola(2017)工作的基础上,Jiang 等人(2018)发现均值教师模型能够减小噪声标签对训练的影响。He等人(2020)将均值教师模型用于自监督特征学习,并有研究者做了许多改进工作(Grill等,2020)。在此启发下,Ge等人(2020)提出了相互均值学习方法(mutual mean-teaching,MMT),将均值教师模型和双模型协同训练方法相结合,使用两个均值教师模型同时监督模型训练,并应用于无监督目标再识别任务。Zhai等人(2020)则在MMT的基础上进一步拓展,提出了多模型训练方法(multiple expert brainstorming network,MEB-Net),使用多个不同网络结构的3个均值教师模型联合训练。

2)基于域迁移的方法。为解决目标场景无标注数据的问题,另一些方法试图利用其他场景的标注数据,并将其中的信息迁移到目标场景之中。有研究者尝试利用生成对抗网络(generative adversarial network,GAN)模型将有标注的其他场景图像迁移到目标场景所在的数据分布之中,从而减小光照、背景等图像分布差异,以辅助目标场景的模型训练(Wei 等,2018;
Chen 等,2019;
Liu 等,2019a)。例如,Wei等人(2018)提出的行人图像风格迁移模型(person transfer GAN,PTGAN)将有标注的行人图像迁移到无标注行人图像的风格之中,并提出行人目标的前景一致性约束来提高生成图像的质量。图5 展示了4 组PTGAN 方法生成的迁移风格后的图像,每组第1 列为来自CUHK03 数据集的原始标注图像;
第2 列为将其风格迁移到PRID 数据集所在场景之后的图像。另一类域迁移的方法(Mekhazni 等,2020;
Liu等,2021)通过拉近不同场景数据在特征空间的分布距离,使模型在标注图像上学习到的表达能力可以更有效地推广到无标注场景。例如,Liu和Zhang(2020)提出基于对抗训练的场景不变映射,要求不同场景的数据在判别器层面是不可分的,从而拉近特征空间中不同场景下特征的分布。

图5 行人目标图像风格迁移效果举例(Wei等,2018)Fig.5 Illustration of results by person transfer GAN(Wei et al.,2018)

3)其他方法。行人再识别任务一般针对于监控摄像机数据,在数据收集的过程中,除了图像本身,还可以得到对应图像的时间戳信息、摄像机的编号等信息。一些方法通过使用这些额外信息,进一步提高了无监督行人再识别方法的性能。

Li 和Zhang(2020)在常规行人外观特征的基础上,根据对应图像的时间戳信息,提出了基于视觉时空一致性相似度的聚类方法。该方法通过对不同图像间的时间采样间隔进行分布建模,并根据分布模型对基于行人外观特征的图像相似度进行修正,从而生成更加准确的伪标签。为了优化网络,Li 和Zhang(2020)进一步提出了局部和全局分类损失函数。局部分类损失函数将每个训练批次中的图像看做不同类别,并拉开它们特征间的距离。全局分类损失函数根据视觉相似度和时空一致性相似度对整个训练集进行聚类的结果,通过多类别分类损失函数将同一类别图像的特征拉近,将不同类别图像的特征推远。除了训练阶段,所提出的时空一致性相似度可以用于一般行人再识别方法的后处理来进一步提高模型性能。

与大多数直接使用样本相似度进行聚类来生成伪标签的方法不同,Xuan 和Zhang(2021)根据图像拍摄摄像机的标签,将相似度计算划分为摄像机内部和跨摄像机两个阶段。摄像机内部阶段通过计算摄像机内部样本间的相似度进行聚类生成伪标签来训练网络,从而提高网络对于摄像机内部样本外观差异的鲁棒性。跨摄像机阶段为了减少摄像机差异所引起的相似度降低,提出了基于域无关相似度的跨摄像机相似度计算方法,并使用跨摄像机相似度进行聚类生成伪标签训练网络,提高了网络对于样本间跨摄像机外观差异的鲁棒性。

2.3 虚拟数据行人再识别

数据匮乏一直制约着行人再识别的发展,除了标注困难之外,近年来对监控视频数据隐私敏感性和伦理问题的关注更使得这个问题雪上加霜,已有一些公开数据集因此下架,如DukeMTMC-reID(duke multi-target,multi-camera for person reidentification)(Ristani 等,2016)、MS-Celeb-1M(Guo等,2016)和TinyFace(Cheng等,2018)等数据集。与之相反,虚拟数据几乎无需标注、没有隐私敏感问题,且能够弥补现实世界的不足,创造出全新、独立的图像。为此,研究人员开始探索通过游戏引擎产生虚拟数据以辅助行人再识别。并且,一些方法通过生成大规模虚拟数据库,证明了其能显著提升可泛化行人再识别的能力。本节全面阐述近些年行人再识别虚拟数据的构建方法和取得的进展和结果。表2 展示了虚拟行人再识别数据集的总结,其中Rank-1 和mAP 是跨库泛化到MSMT17 数据集上的测试结果,PersonX 和SOMAset 的结果来自RandPerson,SyRI 的结果来自UnrealPerson。数据集示例图像如图6所示。

表2 虚拟行人再识别数据集的总结Table 2 Summary of the virtue re-ID datasets

图6 已有虚拟数据库示例Fig.6 Illustration of existing virtue datasets((a)SOMAset(Barbosa et al.,2018);
(b)SyRI(Bak et al.,2018);
(c)PexsonX(Sun and Zheng,2019);
(d)RandPerson(Wang et al.,2020c);
(e)UnrealPerson(Zhang et al.,2021b);
(f)ClonedPerson(Wang et al.,2022);
(g)Weperson(Li et al.,2021a))

SOMAset(somatotype networks)(Barbosa 等,2018)是最早创建虚拟数据辅助行人再识别的工作,其使用Makehuman 3 维人物模型和Blender 渲染引擎创建了一个有50 名行人、11 种布料、8 套服装和250个姿势的虚拟Re-ID 数据集,如图6(a)所示。但为了专注前景,将合成行人放置在单个场景中,缺少了场景的多样性。此外,Bak 等人(2018)提出了一个包含100 个虚拟行人的数据集SyRI(synthetic person re-identification)。通过采集140 万幅各种光照的HDR(high dynamic range)环境图、使用Adobe Fuse CC 制作3 维人体、Unreal Engine 4 渲染3 个步骤,构建了包含100个虚拟行人的数据集,如图6(b)所示。但SyRI 只有100 个行人,背景和人物外貌多样性有限。进一步地,Sun 和Zheng(2019)首先基于Unity 创建了一个包含1 266 个3 维人体模型的灵活的合成数据引擎PersonX,可以根据输入的3 维人物模型随意调节参数合成各种行人图像,如图6(c)所示。在此基础上,该方法定量分析了摄像头角度对于re-ID准确率的影响。

然而,以上工作主要采用的是公开获取的或手工制作的3 维人物模型,因此其人物数量很难增长到一定的量级,很难再进行扩展。例如,上述虚拟行人数据集中最大的是PersonX,但也仅有1 266 人。此外,这些数据集都是每个人物独立导入场景并在同一时刻仅1 台摄像机进行拍照或录像的,这与真实监控场景下多摄像机同时拍摄一个大场景下所有人的活动有很大区别,最明显的区别是缺乏人与人之间的遮挡和摄像机之间的转移规律。

为了解决上述问题,Wang 等人(2020c)提出一种通过随机组合颜色和纹理产生大量UV 纹理图的方法,并由此创建了大量的3 维衣服模型。随后,针对MakeHuman 的人物格式,提出一种通过Python 代码随机自动产生大量3 维人物模型的方法,使创建的3 维人物在数量上具有很好的可扩展性,且在身高、肤色、衣服颜色和纹理、配饰等方面具有丰富的多样性。其次,该工作在Unity3D 的多个室内外场景下定制了多摄像机环境、光照、视角、视距和行走路径等,并导入大量3 维人物同时进行行走穿插和多摄像机录像。在一定程度上模拟了真实监控,使产生的数据在背景、光照、分辨率、视角、姿态和遮挡等方面也具有丰富的多样性,有力地支持了训练出可泛化的行人再识别模型。最终得到一个包含全自动标注的虚拟行人数据集,称为RandPerson,包含8 000 个虚拟人物,11 个场景,19 台摄像机,38 段密集行人的视频,1 801 816 幅切好的行人图像,示例如图6(d)所示。通过训练行人再识别模型并直接跨库测试泛化性能,首次证明了虚拟数据上训练的行人再识别模型可以更好地泛化到未知场景的真实图像。与其他数据集进行对比,RandPerson 超越了 CUHK03、Market-1501、DukeMTMC-reID 和MSMT17在内的4大主流行人再识别数据集。

然而,RandPerson 的随机纹理图与真实衣服纹理相比还有较大差别,且场景规模不够大,背景不够丰富。在此启发下,Zhang等人(2021b)进一步构建了一个包含3 000个行人(实际6 799人)和120 000个实例的包含真实衣服纹理的虚拟数据集UnrealPerson。根据RandPerson 修改UV 纹理图的方法,首先采用clothing-co-parsing 和DeepFashion 数据集生成来自真实图像的人体服装纹理,从而通过Makehuman 直接替代UV 纹理图,生成大量3 维人体。其次,在虚幻引擎(unreal engine)4 上模拟场景,采用UnrealCV为虚拟相机捕获的每幅图像收集像素级实例分割标注,最后生成UnrealPerson 数据集,如图6(e)所示。实验表明,当直接跨库到MSMT17测试时,该方法的Rank-1精度达到了38.5%。

虽然UnrealPerson 和RandPerson 数据集比以前的数据集更加灵活多样,取得了更好的模型训练效果,但是RandPerson 的随机颜色和纹理组合生成虚拟人物的策略使其人物偏卡通化。而UnrealPerson尽管使用了真实衣服纹理来生成人物,由于衣服纹理的尺寸问题,生成的虚拟人物和真实人物依然有较大差异,且未考虑上下半身的协调穿搭。

有鉴于此,Wang等人(2022)进一步提出一种自动从单角度人物照片中克隆整套衣服穿搭并产生3 维人物模型的方案,在游戏环境里模拟真实监控进行渲染,得到一个更真实的大规模虚拟行人数据集ClonedPerson,最终提升了行人再识别模型的泛化表现。不同于已有的通过视频或多视角照片重建的方法,该方法立足于克隆单张照片中的整套衣服生成虚拟人物。这样可以使用互联网上大量人物照片进行服装克隆,由此具有很低的限制条件达到规模化。另外,由于该方法将照片中人物的整套衣服克隆到虚拟人物身上,有效解决了现有虚拟数据库服装搭配与现实生活不匹配的问题。具体地,该方法设计了衣服配准映射和均匀布料扩展两种方法来克隆衣服纹理。衣服配准映射主要针对目标UV 纹理图衣服结构清晰的人物模型,根据正面人物照片和模型纹理图中衣服对应关键点的位置进行投影变换,从而保留衣服纹理的清晰度和纹理结构。均匀布料扩展则主要针对人物背面(在正面照片中背面纹理不可见)和不规则的UV 纹理图,通过找到并扩展衣服区域面积最大的同质纹理实现自动填充人物背面纹理和不规则的UV 纹理图。除此之外,该方法提出一个相似性—多样性人物扩展策略,通过聚类的方法使生成的虚拟人物既具有相似性,又具有多样性,从而形成最大效用的大规模虚拟行人数据集。该方法通过克隆同一聚类的人物照片生成相似人物,同时通过克隆不同聚类的人物照片生成多样性的人物。最后,通过在Unity3D 的场景下进行渲染得到一个包含自动标注的虚拟行人数据集,称为ClonedPerson,如图6(f)所示。它包含5 621 个虚拟人物,6 个场景,24 台摄像机,168 段密集行人的视频,887 766幅切好的行人图像。该方法通过实验证明了ClonedPerson 虚拟数据集可以应用在多个任务中,如行人再识别及其跨域泛化、无监督域适应、无监督学习和人体关键点检测。其中,跨库泛化性测试显著超越了三大主流行人再识别数据集(CUHK03,Market-1501 和MSMT17)及当前流行的虚拟行人再识别数据集(RandPerson 和UnrealPerson),在MSMT17数据集上的Rank-1达到了51.6%。

除上述工作外,Li等人(2021a)也探索了利用已有游戏引擎产生re-ID 虚拟数据的方法,主要解决的是天气环境的多样性。该方法建立在热门游戏GTA5(grand theft auto V)引擎的基础上,其中包含了数字城市、天气和照明模拟系统,以及各种角色模型与多方面的装扮。该方法提出了一个Weather Person 的生成流程,可以自动生成具有不同天气、场景和自然光照条件的合成re-ID 数据集。WePerson 数据集中有400 万幅1 500 个行人的图像,同时包含比已有工作更多的环境因素,如图6(g)所示。实验结果表明,在具有挑战性的MSMT17数据集上,WePerson 将Rank-1 精确度从38.5%提高到了46.4%。然而,虽然因为GTA5 是个商业引擎,从而其人物质量非常高,但因为它是个闭源系统,无法导入自定义的人物,因此其人物数量是固定的,无法实现规模化构建虚拟数据。

另外,虚拟数据毕竟与真实数据有较大的差别。因此,在利用虚拟数据方面,Wang 等人(2021)提出了一个更具有实际应用价值的行人再识别任务“A+B→C”。即如何利用大规模有标签的合成数据集A和无标签的真实数据集B 训练出能泛化到未知场景C 的模型。该任务不再依赖于对真实数据的手工标注,因此可以扩展到更大规模、更多样化的真实数据上,从而提高模型的泛化能力。在实现“开箱即用”的行人再识别方法中,该任务是更具潜力且成本低廉的方案。针对该任务,Wang等人(2021)提出了一个新的方法,即DomainMix。所提出的方法可以很好地从有标签的虚拟数据和无标签的真实数据中学习。实验表明,这种完全不需要人工标注的方法可以在泛化能力上与需要手工标注的方法相媲美。具体而言,首先对未标记的真实世界图像进行聚类,并选择可靠的聚类。在训练过程中,针对两个域之间存在较大域差的问题,提出了一种域不变特征学习方法,该方法引入了一种新的损失,即域平衡损失,在域不变特征学习和域判别之间进行对抗性学习,同时学习一个判别特征用于行人再识别模型。

此外,针对现有虚拟行人图像数据生成方法未考虑目标域数据特点、跨域性能有待提升的问题,蔡益武等人(2022)提出了一种面向跨域行人再识别的虚拟数据生成与选择算法。首先利用目标域前景信息,如行人着装颜色分布指导虚拟人体模型生成以及部分替换目标域背景信息达到在像素级上提高数据质量,然后根据Wasserstein distance 做分布度量,在特征级上挑选与目标域最接近的源域训练子集用以模型训练。实验结果表明,该方法可以提升行人再识别模型的跨域泛化性能。

然而,以上工作都是将虚拟数据作为大规模和多样化的训练数据源来提升行人再识别的泛化能力。为了完全摆脱隐私敏感问题的影响,采用大规模虚拟数据集作为测试集来对行人再识别算法进行基准测试也同样重要和有价值。由此,引出另一个关键问题:虚拟数据集是否能可靠地用于行人再识别算法基准测试。换句话说,在虚拟数据上测试得到的结果,其算法排序是否与在真实数据库上测试得到的结果一致。为了解决这个问题,Kang(2022)设计了一种称为PRA(pairwise ranking analysis)的方法来定量测量排序相似性,并进行了是否独立同分布的统计检验。具体地,采用Kendall秩相关系数来评估不同数据集上的算法排名之间的相似度值。然后,采用了一个非参数二样本检验方法KS(Kolmogorov-Smirnov)用于判断虚拟数据集与真实数据集之间的算法排名相关性与那些仅在真实数据集之间的算法排名相关性是否是独立同分布的。该方法对10种代表性算法在3个主流的真实世界行人再识别数据集以及3 个最近发布的大规模虚拟数据集上进行了实验。得出的结论是,最近的一个大规模虚拟数据集ClonedPerson 可以可靠地用于可泛化行人再识别的基准测试,其上得到的结果与用真实数据集测试在统计意义上是完全一致的。因此,该研究保证了虚拟数据集(至少是ClonedPerson)既可以用于作为训练集,也可以作为测试集,因此行人再识别的研究完全可以摆脱真实世界的监控数据,从而完全没有隐私问题。此外,该研究也可能会启发未来虚拟数据集的设计。

2.4 域泛化行人再识别

行人再识别随着深度学习的发展取得了很大的进步,但已有模型在不同场景下的泛化能力依然较差。这一方面是因为该任务本身的复杂性,涉及很多的变化因素和困难;
另一方面,当前也缺乏大量的有标签训练数据。很多研究人员很早就意识到了跨场景这个问题,为此提出了迁移学习(或无监督域适应)作为解决方案,用于增强模型在新场景下的适应性,目前已经发展成为行人再识别的一个主流研究方向。但是这种应用模式需要在每个应用场景都采集数据进行深度学习训练,虽然无需人工标注数据,但仍然是费时费力的。

针对上述问题,受人脸识别应用实践的启发,Yi等人(2014)最先考察了深度学习行人再识别模型的泛化性问题,并发现在一定的训练数据条件下,通过深度度量学习能训练出泛化性更好的模型,超越了迁移学习的结果。Hu 等人(2014)专门研究了行人再识别的跨库测试和泛化问题,并发现即使训练数据集人数不多,但只要摄像机数量足够多,即场景和光照环境足够丰富,仍然能训练出泛化性更好的行人再识别模型。

然而,上述研究取得的跨库泛化结果仍然是比较低的。为此,面向实际应用迫切需要进一步研究开箱即用(ready-to-use)的行人再识别,即域泛化行人再识别。本节根据域泛化行人再识别算法思路的不同,分别从批归一化和实例归一化方法、域不变特征学习方法、显式深度图像匹配方法、多专家混合方法和元学习方法等方面阐述域泛化行人再识别的前沿进展与发展趋势。

2.4.1 批归一化和实例归一化方法

批归一化(batch normalization,BN)和实例归一化(instance normalization,IN)及其组合是研究人员最先关注的影响和改进深度模型泛化能力的模块。

Jia 等人(2019)提出一个基于归一化的域泛化行人再识别方法,通过批归一化和实例归一化的结合,减轻了域间风格和内容偏差,从而促进了行人再识别深度模型的泛化性和可移植性。随后,Jin 等人(2020)提出样式归一化和补偿(style-normalization and restitution,SNR)模块,利用实例归一化的优点,过滤掉来自样式变化的干扰,并恢复被实例归一化丢弃的身份相关特征。此外,进一步设计了双重因果损失约束,以实现身份相关和不相关特征的解耦。

Zhou 等人(2022)提出一种轻量级的CNN(convolutional neural network)体系结构OSNet(omniscale network),用以学习行人再识别的全尺度特征表示。与现有的行人再识别CNN 网络相比,OSNet可以明确学习每个构件内部的多尺度特征,并通过统一聚合门动态融合多尺度特征,生成全尺度特征。为了改进跨域泛化,该方法进一步通过可微架构搜索为OSNet 配备了实例归一化,设计了一个称为OSNet-AIN(omni-scale network instance normalisation)的域自适应变体。

Choi等人(2022)提出一个称为元批量实例正则化(meta batch-instance,MetaBIN)的re-ID 框架,通过在元学习流程中预先模拟不成功的泛化场景来泛化归一化层,将可学习的批处理实例归一化层与元学习相结合,并通过元序列丢失和循环内部更新方式使虚拟仿真多样化以提高泛化能力。

Jiao 等人(2022)提出动态转换实例归一化(dynamically transformed instance normalization,DTIN)方案。该方法使用动态卷积来允许非归一化特征控制归一化特征到新表示的转换,从而确保网络具有足够的灵活性,并在消除不相关特定域特征和适应单个域或实例之间取得适当的平衡。此外,该方法进一步利用多任务学习策略来训练模型,自适应地生成任意域的鉴别特征表示。

Liu 等人(2022)提出一种通过高斯过程的去偏批量归一化(Gaussian debiased batch normalization,GDNorm)方法,将来自特定域的BN层的特征统计估计(参数)建模为动态自精炼的高斯过程,以适应域的真实超分布,从而提高对未知目标域的泛化能力。该方法采用自优化机制进一步优化源域的域特定BN 层的学习参数,并通过它们估计更准确的高斯过程作为回报,从而趋向于真实的数据分布。此外,GDNorm 直接利用高斯过程的平均路径作为未见目标域的最佳BN 估计,与集成学习相比,不需要额外的计算成本。

针对不同数据集图像明暗变化风格对模型泛化能力的影响,于明等人(2022)设计了一种由一个实例归一化层(即IN 层)和一个修正线性单元(rectified linear units,ReLU)层构成的风格归一化模块(style nomalization module)。具体地,首先由IN层计算归一化统计量。然后,通过ReLU 函数来增加特征的非线性。区别于跨样本在单通道上计算归一化统计量的BN 层和在单样本上跨通道计算归一化统计量的LN(layer nomalization)层,风格归一化模块中的IN 层通过在单通道单样本数据上计算归一化统计量,因此可以避免通道数和批大小的影响。此外,该方法还通过叠加卷积层的瓶颈层设计,实现了对包含不同视野域的多尺度特征的提取,并利用特征融合注意力模块,实现了对多尺度特征的加权动态融合,从而提升了域泛化行人再识别性能。

2.4.2 域不变特征学习方法

域泛化最直观的一个目标是学习所有源域之间的域不变特征。除了归一化特征外,研究人员还采用各种方式进行域不变特征学习。例如,Lin 等人(2021)将人员再识别定义为一个多数据集域泛化问题,提出了一种多数据集特征泛化网络(multidataset feature generalization network,MMFA-AAE)。该网络基于对抗性自动编码器,以学习具有最大平均差异(maximum mean discrepancy,MMD)度量的广义域不变潜在特征表示,能够从多个标记数据集学习通用的域不变特征表示,并将其推广到“看不见”的摄像机系统。

Chen 等人(2021a)提出了一个端到端双分布对齐网络(dual distribution alignment network,DDAN)来学习域不变特征。该方法具有两个约束条件,即域智能对抗特征学习和身份智能相似增强。在域层面,将外围域对准中心域,以最小的分布偏移减少域差异。在身份级别,通过跨域的身份(identification)池捕获身份方面的相似性,从而减少了域偏移。该方法实现了一个理想的场景,即任何一组视觉上相似的ID(尽管来自不同的域)都比来自同一域的不相似的ID更接近。

Ang 等人(2021)提出了域嵌入扩展(domain embedding expansion,DEX)模块。DEX 在训练过程中基于人员和领域标签动态操作和增强深度特征,显著提高了行人再识别模型对不可见域的泛化能力和鲁棒性。此外,Ang 等人(2021)还开发了DEX 的轻量级版本DEXLite,应用负样本采样技术扩展到更大的数据集,并减少多分支网络的内存使用。Ang 等人(2021)提出的DEX 和DEXLite 可以以即插即用的方式与许多现有的方法相结合,如BagofTricks、多粒度网络(multiple granularity network,MGN)和基于部分的卷积基线(part-based convolutional baseline,PCB)。

杨晓峰等人(2021)提出一种基于深度胶囊网络的跨域行人再识别方法,通过视角分类训练任务,模型可以学习图像中行人的有效特征,这些特征可以直接迁移到行人再识别任务中,缓解了行人再识别泛化能力不足的问题。

沈贤文(2021)提出了一种基于前景特征学习的行人再识别方法FFL(foreground feature learning),利用人体解析算法生成的掩膜图像对行人区域和背景区域加以区分,使用掩膜图像可以使网络在学习过程中更加侧重于学习行人本身的特征,从而减少域之间行人图像背景差异带来的影响,进一步提高了模型的跨域泛化能力。

2.4.3 显式深度图像匹配方法

已有基于深度学习的行人再识别方法主要关注单幅图像的特征学习,但其训练好的模型是固定的,因此在面对未见过场景时缺乏自适应性。对于图像分类来说,它只涉及单幅输入图像,因此分类可以看做是输入图像与学到的模型之间的一个匹配,而模型仅能判断已知的类别。但是图像匹配任务不一样,它涉及一对输入图像,而且通常是开放类别的问题,即测试的图像通常是新的未知类别,如人脸识别或行人再识别。然而,大部分已有方法并不直接考虑待匹配的两幅图像之间的关系,它们依然将图像匹配当做图像分类,将每幅图像独立对待,只不过抛弃了分类器,应用学到的模型从中提取一个固定的特征表达。然后,图像匹配就变成对两个特征向量简单地应用传统的距离度量,如欧氏距离或余弦距离,而忽略两幅图像的实际内容之间的直接关系。然而,一旦在一个数据集上训练完成,CNN 的卷积核就是固定的,它只能代表对训练数据固化的记忆。如果应用场景与训练场景不一样,CNN 学到的固定卷积核就有可能对没见过的图像模式缺乏响应,从而导致泛化性不够好。

鉴于此,在特征学习之外,Liao 和Shao(2020)重点研究了在两幅待匹配图像的深度特征图上直接进行点对点图像匹配,以提升行人再识别泛化性能。具体地,提出一种查询图自适应的卷积(queryadaptive convolution,QAConv),通过查询图的深度特征图实时生成新的卷积核,并在注册图的深度特征图上进行卷积和全局最大池化实现图像对应点匹配。这样,这种匹配过程和结果是可解释的,而且这种显式匹配也比特征学习更容易泛化到未知场景,如未知的错位、姿态或视角变化等。为了有效地端到端训练QAConv,该方法进一步提出一个类别记忆模块用来缓存每个类别新近样本的深度特征图,从而计算图像匹配的损失函数进行度量学习。

然而,在大规模数据上学习深度图像匹配的效率尚未得到充分研究。虽然使用分类参数或类别记忆模块进行学习是一种流行的方式,但它会产生大量的内存和计算成本。相比之下,小批量(mini batch)的成对深度度量学习将是更好的选择。然而,主流的随机采样方法,如PK采样器,对于深度度量学习来说,样本过于平凡因此学习效率不高。虽然在线难例挖掘在一定程度上提高了学习效率,但在随机采样后的小批量内做难例挖掘仍然是有限的。为此,Liao 和Shao(2022)进一步提出了一种高效的小批量采样方法,称为图采样(graph sampling,GS),用于大规模深度度量学习。其基本思想是在每个epoch 开始时为所有类别构建最近邻关系图。然后,每个小批量由随机选择的锚类及其最近的相邻类组成,以便为学习提供信息丰富且具有挑战性的示例。由此,GS 可以仅在小批量内部做成对匹配的度量学习,而不再需要低效的类别记忆模块。实验表明,该方法大幅提升了可泛化行人再识别的性能,同时,在具有8 000 个类别的RandPerson 数据集上训练时,训练时间显著减少,从25.4 h减少到2 h。

GS 方法的提出赋能了更多更复杂的深度图像匹配方法。例如,Liao 和Shao(2021)提出了一种新的基于Transformer 的深度图像匹配方法,称为TransMatcher,用于可泛化的行人再识别。具体地,该方法简化了Transformer 的解码器,移除了基于softmax 加权的原始的Transformer 注意力模块,而只保留其中的查询—键值相似度计算。此外,该方法进一步采用了全局最大池化和多层感知器(multilayer perceptron,MLP)用于解码匹配结果。这样,简化的解码器在计算上更高效,同时对图像匹配更有效。

2.4.4 多专家混合方法

训练多专家系统(模型)并以一定的方式进行融合也是提高模型泛化能力的一种方法。

Dai 等人(2021)提出关联感知专家混合(relevance-aware mixture of experts,RaMoE)方法,使用一种基于投票的混合机制来动态地利用源域的多样性特征来提高模型的泛化性能。具体而言,该方法提出了一种去相关损失,以使源域网络(专家)保持各个域特征的多样性和可辨别性。其次,设计了一个投票网络,将所有专家的特征自适应地集成到具有域相关性的更通用的聚集特征中。考虑到目标域在训练过程中的不可见性,进一步提出了一种新的学习—学习算法,结合关系对齐损失来更新投票网络。

Xu 等人(2022b)提出一种自适应聚合的模拟嵌入方法(mimic embedding via adaptive aggregation,META)用于可泛化的行人再识别。为了避免模型规模过大,META 专家不为每个源域采用分支网络,而是共享除批量归一化层之外的所有参数。除多个专家外,META 还利用实例归一化,并将其引入到一个全局分支中,以实现跨域不变的特性。同时,META 通过归一化统计来考虑未知目标样本和源域的相关性,并开发了一个聚合模块,以自适应地集成多个专家来模拟未知目标域。

余世杰(Yu,2022)提出一种多域专家协同学习算法。该算法中每个源域拥有一位独有的域专家以及共享同一位全面专家,并通过域专家间协同学习以及全面—域专家协同学习两种方式使域专家和全面专家相互学习促进。

2.4.5 元学习方法

采用元学习进行模型学习,关键思想是在训练期间模拟源—目标域转移,并引入元知识提高模型泛化能力。

Song等人(2019)提出一种新的域不变映射网络(domain-invariant mapping network,DIMN)。DIMN设计用于学习人物图像与其身份分类器之间的映射,即使用单个样本生成分类器。为了使模型域保持不变,该方法遵循元学习流程,并在每个训练集期间对源域训练任务的子集进行采样。

Bai 等人(2021)提出一个双元泛化网络(dualmeta generalization network,DMG-Net),以利用元学习在训练过程和度量空间学习中的优点。具体而言,设计了一个“先学习后概括评估”的元训练过程和一个元判别损失,以增强模型的概括和判别能力。

Zhao等人(2021a)提出一个基于记忆的多源元学习(memory-based multi-source meta-learning,M3L)框架,用于多源训练的可泛化行人再识别。所提出的元学习策略使模型能够在训练过程中模拟DG的训练测试过程,从而有效地提高了模型在未知域上的泛化能力。此外,还引入了一个基于内存的模块和MetaBN,以充分利用元学习的优势并获得进一步的改进。

然而,Zhao等人(2022)认为元学习的重复小段训练会导致过学习问题。为此,提出了两种随机行为,即从数据分布的角度提出的随机分裂滑动采样器和从优化过程的角度提出的方差变化的梯度丢失。提出的采样器在两个相邻的训练集中保持各种源优势,提出的梯度下降帮助模型走出局部最小值并通过不断改变其梯度方差来搜索最优解。该方法可以提高在相对平衡或极度不平衡的源域上的泛化能力。

2.5 换装行人再识别

在现实监控场景中,在长期监控中或逃犯通过伪装躲避追捕等情况下,行人目标可能换装,这就打破了面向短期监控场景的行人再识别方法对于行人衣服不变的假设。与行人不更换服装的再识别相比,换装场景下的行人衣服颜色和纹理失去身份判别性,换装再识别对细粒度特征提取的难度更大,因而现有方法的精度仍不理想。本节对换装行人再识别数据集进行简介并全面阐述近几年换装行人再识别的前沿进展与发展趋势。

2.5.1 换装行人再识别数据集简介

自2019 年起,为促进换装行人再识别的发展,研究者针对换装场景采集了多个公开数据集。现有的主流标准数据集是从短期监控中采集的,并不适用于换装行人再识别的研究。代表性的换装行人数据集如表3 所示。PRCC(person re-id under moderate clothing change)(Yang 等,2021c)数据集在真实的室内监控场景中采集,包含3个摄像头下221个行人的33 698 幅图像,其中换装后的衣服厚度没有太大变化。LTCC(long-term cloth-changing)(Qian 等,2020)数据集也是在室内场景中采集,包含12 个摄像头下152 个行人的17 138 幅图像,其中光照、姿态和遮挡的变化比PRCC 的数据更多。Celeb-reID(Huang 等,2019b)是从谷歌、必应和百度网站上获得的名人街拍,包含1 052 个行人的34 036 幅图像。VC-Clothes(virtually changing-clothes)(Wan 等,2020)是用游戏引擎渲染的虚拟数据集,从4个角度渲染得到512个行人的19 060 幅图像。2021 年至今,公开换装数据集的数据规模进一步增大。DeepChange(Xu和Zhu,2022)是目前规模最大的真实监控场景换装行人数据集,包含17 个摄像头下1 121 个行人的178 407 幅图像,比较接近实际应用场景。LaST(large-scale spatio-temporal person re-identification)(Shu 等,2022)数据集是从电影和电视剧中捕获的不同角色的截图,包含10 862 个人物超过228 000 幅图像。CCVID(clothes-changing video person re-id)(Gu 等,2022)是视频换装行人数据集,包含226 个行人2 856段序列的数据。

表3 换装行人再识别数据集信息统计表Table 3 Statistics of the cloth-changing re-ID datasets

2.5.2 换装行人再识别研究进展

在换装行人数据集的支持下,换装行人再识别方法主要有两类。第1 类方法通过显式引入特定的衣物无关线索来提取细粒度特征,如利用行人的3维信息或行人的轮廓提取身体形状特征;
第2类方法通过解耦行人图像的衣服信息和身份信息提取换衣不变特征,如设计对抗学习损失分离衣服相关特征与衣服无关特征。

1)显式引入衣服无关线索的特征提取方法。与一般场景中的跨摄像头视角变化和光照变化相比,服装变化是难以直接建模的。因此,这类方法通过引入不受服装变化影响的行人外观线索,来引导服装无关特征的提取。Yang 等人(2021c)对行人的轮廓图使用空间极坐标变换,然后对极坐标下的轮廓图使用可学习的采样方式提取轮廓图中最具判别性的部位,以此学习与人体形状有关的特征。3DSL(3D shape learning)(Chen 等,2021c)在缺乏3D 真实数据的情况下,通过辅助的3维重建任务,从单幅2D图像重建了人体的3D 网格形态,将3D 形状信息与视觉纹理解耦,获得容易受服装等纹理影响辨别的人的可靠且易区分的3D形状特征,从而根据人体的3D 形状判定行人身份。FSAM(fine-grained shapeappearance mutual)(Hong 等,2021)提出了一个细粒度的形状—外观互学习框架,分为形状分支与外观分支。形状分支中,在身份的指导下学习细粒度的鉴别掩膜,并通过一个明确姿态的多分支网络提取细粒度的体型特征。为了补充外观分支中与衣服无关的体型知识,通过在低级和高级特征之间执行密集的交互式互学习,将形状分支中的体型知识转移到外观分支中,以补充外观特征中衣物无关的知识。推理时,外观分支能够独立使用。Qian 等人(2020)则使用人体的关键点蒸馏出人体形状特征,以此减少颜色信息的影响。Wan等人(2020)则在检测出人脸后提取人脸特征,因为人脸同样是在衣服改变情形下仍然不变的信息。Yu 等人(2020)使用自注意力机制,鼓励网络去聚焦于行人的人体形状和脸部等这些与衣服无关的信息。CC-ReID(clotheschanging person re-identification)(Jin 等,2022)利用步态信息来协助基于图像的换衣行人再识别表示学习。Li 等人(2022b)提出利用衣服模板提取额外特征与行人特征进行融合。Jia 等人(2022c)提出一种互补数据增强策略模拟行人换衣的换衣行人再识别方法。另外,细粒度特征的提取方法也对衣服高度相似场景下的行人再识别有所帮助。Yin 等人(2020)提取两种彼此互补的局部动态姿态特征进行融合,以此提取具有身份判别性的细粒度特征。陈坤峰等人(2022)采取双目叠加效应的仿生思想,提出一个自注意力孪生网络提取同一行人不同衣着的图像利用孪生架构实现叠加效应。

显式引入衣服无关线索可有效利用人对于判别换装行人的先验知识,但在一些方法中也容易使特征学习受限于人为指定的因素,如身体形状等,而忽略其他细粒度特征的提取。

2)针对衣服信息和身份信息的特征解耦方法。特征解耦方法希望通过隐式学习方式将衣物特征与身份信息独立表示,从而使模型能够获得换衣不变的判别特征。特征解耦方法包括两类方式。

第1 类特征解耦方式希望模型学习到行人身份相关的模式从而间接排除换衣的影响。ReIDCaps(re-identification capsules)(Huang 等,2019b)利用胶囊网络发掘特征之间的关系且不同维向量蕴含不同模式的特性进行行人特征提取。刘乾等人(2021b)在ReIDCaps 的基础上引入软嵌入注意力机制和特征系数表示加强换衣不变特征的学习。RCSANet(regularization via clothing status awareness network)(Huang 等,2021)利用外观特征指导相同身份的特征聚类,使不同身份的特征能在高维中分离。UCAD(universal clothing attribute disentanglement)(Yan 等,2022c)构建了一个服装相关—服装过滤的两分支网络,通过将服装相关分支学习到的知识从服装过滤分支过滤来学习服装无关的身份特征。CAL(clothes-based adversarial loss)方法(Gu 等,2022)提出了一种基于服装的对抗损失函数,通过惩罚服装分类模型的判别能力,从原始RGB 图像中挖掘与服装无关的特征。CAL在PRCC、LTCC、LaST和DeepChange 上达到当前的领先性能,Rank-1 准确率分别为55.2%、40.1%、73.7%和54.0%。

第2 类特征解耦方式希望模型能将特征中的衣服相关信息去除。CASE-Net(clothing agnostic shape extraction network)(Li 等,2021b)提取灰度图和RGB图相似的特征以排除颜色的干扰,并在模型中嵌入一个循环生成对抗网络结构,通过不同姿势的相同身份行人RGB 图像和原灰度图的特征重建原RGB图像,以达到特征解耦的目的。CASE-Net 在CelebreID 数据集上达到当前的领先性能,Rank-1 准确率为66.4%。AFD-Net(adversarial feature disentanglement network)(Xu 等,2021)发展了CASE-Net 的工作,不仅通过类内重建加强了特征关于行人身份的鲁棒性,还加入了类间对抗,重建不同身份行人互换衣物的图像,使服装特征与身份特征的分离更加彻底。Yang 等人(2022)提出一种采样独立的特征解耦方法 SirNet(sampling independent robust feature representation network),从随机选择的样本中学习换衣无关特征。SirNet 在VC-Clothes 上达到当前的领先性能,Rank-1精度为92.3%。

2.6 跨模态行人再识别

跨模态行人再识别旨在探索可见光图像与其他异构数据间的行人检索问题。该任务可以有效弥补可见光行人再识别技术在实际复杂场景下的不足。本节针对可见光图像与红外图像、素描图像、文本描述和深度图等各类数据异构场景,总结近年跨模态再识别的数据集、研究进展和难点,同时讨论未来复杂多变场景下的多模态行人再识别任务的发展趋势和方向。

2.6.1 跨模态行人再识别数据集

跨模态行人再识别常用数据集按模态不同可分为可见光—红外行人再识别数据集、文本—图像行人再识别数据集、素描—照片行人再识别数据集和深度图—可见光行人再识别数据集等,常用跨模态行人再识别数据集的信息统计如表4所示。

表4 跨模态行人再识别数据集信息统计表Table 4 Statistics of the cross-modal re-ID datasets

1)可见光—红外行人再识别数据集。主要有SYSU-MM01(SYSU multiple modality Re-ID)数据集(Wu等,2017)和RegDB数据集(Nguyen等,2017)。

SYSU-MM01 数据集是目前最大和最具挑战性的可见光—红外跨模式人像识别数据集,由491 个身份的29 033幅可见光图像和15 712幅红外图像组成,这些图像由4台可见光相机和2台红外相机从室内和室外采集。训练集包含395 个身份的22 258 幅可见光图像和11 909 幅红外图像。测试集包含96个身份的3 803幅红外图像。对应于单次拍摄或多次拍摄的设置,随机选取每个可见光相机下的每个身份的1 或10 幅图像形成注册图。此外,还有全搜索和室内搜索两种测试模式。全搜索模式是用室内和室外图像进行评估,而室内搜索模式只用室内图像进行评估。

RegDB 数据集是由双对齐的可见光和远红外相机收集的,包括412 个身份的图像。每个身份有10 幅可见光图像和10 幅远红外图像。数据集随机分为训练和测试两部分,其中206 个身份的图像用于训练,其余206个身份的图像用于测试。

2)文本—图像行人再识别数据集。主要有CUHK-PEDES 数据集(Li 等,2017)、ICFG-PEDES 数据集(Ding 等,2021)和RSTPReid(real scenario textbased person re-identification)数据集(Zhu等,2022)。

CUHK-PEDES 包含40 206 幅图像和80 412 个文字描述,涉及13 003个身份,每幅图像有两个说明和两个标题,对13 003个身份进行描述,每个文本描述平均有23.5 个字。该数据集分成3 个子集,分别用于训练、验证和测试,不存在同一人的ID 重叠。训练集包括11 003 人、34 054 幅图像和68 108 句描述。验证集和测试集分别包含3 078 和3 074 幅图像,都有1 000人。所有的实验都是基于这个训练—测试分割进行的。

ICFG-PEDES 数据集包含了更多以身份为中心的、细粒度的文字描述,有4 102 个身份的54 522 幅行人图像。所有的图像都是从MSMT17数据库中收集的。每幅图像有1 个标题,每个描述平均有37.2个字,该数据库共包含5 554 个独特的词。与原始MSMT17 数据库的协议类似,ICFG-PEDES 分为训练集和测试集。前者包括3 102 人的3 4674 个图像—文本对,后者包含其余1 000人的19 848个图像—文本对。

RSTPReid 数据集包含20 505 幅来自15 个摄像头的4 101 人的图像。每个人都有5 幅由不同相机拍摄的相应图像,每幅图像都有2 个文本描述的注释。对于数据划分,分别利用3 701、200 和200 个身份进行训练、验证和测试。每个句子不短于23 个字。剔除出现少于两次的单词后,单词数为2 204。

3)素描—照片行人再识别数据集。主要有PKU-Sketch(Peking University sketch re-ID)数据集(Pang 等,2018)。该数据集包含200 个人,每个人都有1 张素描和2 张照片。为了确保创建的数据集能够用于现实的监控系统,每个人的照片都是在白天由两个交叉视角的摄像机拍摄的。原始图像(或视频帧)经过了手工裁剪,以确保每张照片都包含一个特定的人。

4)深度图—可见光行人再识别数据集。主要有BIWI 数据集(Munaro 等,2014)和RobotPKU 数据集(Liu等,2017)。

BIWI 数据集包含78 个实例,有22 038 幅RGB和深度模式的图像。随机选择32 个实例进行训练,8个实例进行验证,38个实例进行测试。

RobotPKU数据集由90个行人组成,有16 512幅深度和RGB模式的图像。随机分为40人进行训练,10人进行验证,其余40人进行测试。

2.6.2 跨模态行人再识别研究进展

1)可见光—红外行人再识别。在低光照条件(夜晚)下,监控系统中的摄像设备通常自动启用红外模式,拍摄行人的红外图像。因此,有研究者提出可见光—红外行人再识别,旨在实现白天可见光图像和夜间红外图像之间的交叉模态匹配。由于成像原理的不同,两种模态间存在巨大模态差异。现有的可见光—红外行人再识别算法可以大致分为以下两类:基于域不变表征学习的方法(Wu 等,2017;
Ye等,2018,2020b;
Ye 等,2021a;
Zhu 等,2020;
Liu 等,2021a;
王凤随等,2023)和基于图像生成的方法(Wang 等,2019a;
Wang 等,2019b;
Choi 等,2020)。其中,域不变特征学习方法又从特征表示学习(Wu等,2017;
Ye 等,2018,2020b)和度量学习(Zhu 等,2020;
Liu 等,2021;
Ye 等,2021a)两个方面来挖掘跨模态共享表征。Wu 等人(2017)首次尝试解决这个问题,提出了一个深度零填充框架,以自适应地学习模态可共享表征。Ye 等人(2020b)设计了一种双流网络,以对模态共享和模态特定信息进行建模,同时解决模态内和模态间的变化。Zhu 等人(2020)设计了一种异构中心损失用来约束可见光模态中心和红外模态中心间的距离,从而缩小类内差异。Ye 等人(2021a)提出一种双向指数角度三元组损失,该损失函数通过学习角度可分离的共享表征空间来减轻模态差异的影响。Ye 等人(2020a)提出了一种双注意聚合学习方法,以捕捉多级关系。Chen 等人(2022b)提出利用不同模态下的行人结构信息来指导跨模态共享表征的学习。Zhang 和Lu(2018)首次提出利用属性信息来弥合不同模态间的信息差异,设计一种粒度语义信息与全局信息融合网络,通过建模模态属性间关系,增强模态特征判别力。基于图像生成的方法可以具体分为模态转换(Wang 等,2019a;
Wang 等,2019b;
Choi 等,2020)和中间模态生成(Ye 等,2021b)。Wang 等人(2019a)和Wang 等人(2019b)采用生成对抗技术生成跨模态人物图像,以减少图像和特征级别的跨模态差异。Choi 等人(2020)对分层交叉模态解缠结因子进行了建模。吴岸聪等人(2022)提出利用易获取的可见光图像进行单模态自监督学习,从而学习先验知识指导跨模态表征提取。

2)文本—图像行人再识别。在真实场景中,有时会出现无法获得待查询目标行人的视觉图像情况,工作人员通常利用目击者的文本描述来实现目标搜索,即文本—图像行人再识别。现有方法主要可以划分为非注意力的跨模态方法(Zheng,2020;
Zhang 和Lu,2018;
莫承见,2022)和基于注意力的跨模态方法(Li 等,2017;
Chen 等,2018;
Liu 等,2019b)。前者主要通过设计网络结构和损失函数来实现两种模态在共享空间中的对齐,计算过程高效;
后者则侧重于利用注意力方法挖掘区域块—单词、区域块—短语间的对应关系,实现了较高的检索性能。具体地,Li 等人(2017)提出利用带有递归神经网络的门控神经注意模型来学习文本描述和人物图像之间的共享特征,实现了文本到图像行人检索的端到端训练。Chen 等人(2018)提出了一种全局识别图像语言关联学习方法,在重建过程中捕获身份识别信息和局部重建图像语言关联。Liu 等人(2019b)利用图关系挖掘设计了一个深度对抗图注意力卷积网络。最近,Shao 等人(2022)首次分析了特征粒度上的模态差异,即相似但不同的图像区域可能共享相同的文本描述,提出一种粒度统一的表示学习算法。然而,文本描述和视觉图像之间的巨大语义差距仍使得该项任务颇具有挑战性。陈琳等人(2022)提出利用不同模态的行人属性信息来减轻文本和图像模态间差异影响,提取语义共享的跨模态表征。姜定和叶茫(2022)基于语言—图像预训练双流Transformer模型实现仅全局特征的图像文本语义特征对齐,设计一种温度缩放跨模态投影匹配损失函数进行图像文本跨模态特征匹配,其实验结果大幅度超过现有基于局部特征学习的方法。

3)素描—照片行人再识别。考虑到文本描述的粗粒度性,有研究者提出利用行人的素描图像实现目标人物检索,即素描—照片行人再识别。有谚语说“一图胜千言”,相比于文本描述,素描图像更加直观,且包含丰富的行人细节信息。Pang 等人(2018)提出一种域相关对抗框架,使用全身专业素描图像作为查询集,收集域敏感信息并学习域不变特征。Yang 等人(2021a)试图通过结合领域自适应来提高草图—照片模型的泛化能力。Gui 等人(2020)探索了草图和照片的多层次特征,并使用梯度反向层来弥补域差异。与上述方法不同,Chen 等人(2022a)设计了一种新的解纠缠原型和动态合成学习方法来处理跨模态差异,在辅助素描模态的指导下,将照片表征分为素描相关线索和素描无关线索,并利用知识迁移技术补充素描模态中缺失信息,形成信息对称的交叉模态空间。黄勃淳等人(2023)考虑了真实场景中素描—照片匹配的跨模态身份不一致问题,设计一种基于交叉分类的素描行人重识算法。

为了充分利用文本描述和素描表述的优势,如何将文本与手绘素描图像相结合也是未来值得研究的问题。

4)深度图—可见光行人再识别。深度图表示摄像设备到场景中各点距离,可以描述行人的身体形态和骨骼信息。与可见光图像相比,深度图对光照变化和行人衣着变化具有较强的鲁棒性。随着激光雷达技术的发展,微软Kinect摄像机拍摄的深度图像可以更方便地获取。研究者提出深度图—可见光行人再识别,旨在实现深度图与可见光图像间的跨模态匹配。由于深度图仅包含行人的结构信息,缺失行人颜色和纹理信息,该跨模态任务也极具有挑战。Zhang 等人(2020)利用传统手工模态特征来实现两种模态间的匹配。Hafner 等人(2019)借助蒸馏的思想设计一种两阶段训练模式来减轻模态差异的影响,提高跨模态识别的精度。不同于这些方法,Wu等人(2022)提出一种全局和局部特征联合学习网络,通过挖掘行人外观细节和空间关系,增强深度网络中的特征表达能力。

2.7 行人搜索

行人搜索技术旨在将行人检测和再识别统一到同一框架中,在确定行人位置的同时提供其身份特征,以提升系统的性能和效率。近年来,行人搜索方法不仅探索了新的网络结构,而且更加注重开放世界的实际需求,涌现出基于文本的多模态行人搜索、仅使用位置标签的弱监督行人搜索、域自适应的行人搜索等一系列探索工作。本节首先介绍行人搜索常用的数据集,然后总结分析行人搜索方向的最新进展和发展趋势。

2.7.1 行人搜索常用数据集简介

Zheng 等人(2017)建立了首个专门面向行人搜索的数据集PRW(person re-identification in the wild),并在此基础上评估了不同行人检测模型组合行人再识别模型的性能表现。PRW 数据集从6台固定位置的摄像机中采集,训练集共有5 704 幅图像,包括482个行人的18 048个实例。

Xiao等人(2017)从街景照片和电影视频中抽取图像,建立的CUHK-SYSU 数据集拥有更大的数据规模、更加复杂的场景,并涵盖了视角变化、光照变换、多分辨率以及遮挡等复杂场景。CUHK-SYSU总计有18 184 幅图像,包括8 432 个不同身份行人的96 143个不同实例。

Qin 等人(2023)从MovieNet 数据集中采样制作了用于行人搜索的MovieNet-PS(MovieNet-person search)数据集,包含3 087 个不同身份人物的160 816 幅图像和274 274 个实例,是现有的最大规模行人搜索数据集。

行人搜索数据集信息统计如表5所示。

表5 行人搜索数据集信息统计表Table 5 Statistics of the person search datasets

2.7.2 行人搜索研究进展

从模型结构上来讲,目前主流的行人搜索框架可以分为单阶段模型和两阶段模型两类。

两阶段模型将行人检测和再识别两个子任务分开执行,先进行目标检测,再将检测结果裁剪,并对剪裁的图像进行再识别。这一类框架的主流研究工作致力于解决检测结果和再识别模型所需要的区域不匹配、不对齐的问题。Lan 等人(2018)分析了行人搜索任务中普遍存在的多尺度匹配问题,从这一角度出发提出了跨层级的语义对齐方法。Han 等人(2019)将再识别子任务作为主任务,从再识别任务的需求出发,设计了感兴趣区域(region of interest,ROI)变换层对检测器提取的边界框进行二次优化,以获得更可靠的边界框用于后续的再识别模型。Wang 等人(2020a)设计了一种任务连贯的两阶段行人搜索框架,通过引入目标身份信息来过滤检测结果,同时设计自适应的再识别模型使其匹配检测器输出的结果,该方法在两个子任务的评价指标上都取得了较好的性能。

单阶段的行人搜索模型在一个端到端的框架中联合完成行人检测和再识别子任务,因为其相比于两阶段模型更加简单,且在效率上存在明显优势,目前受到了越来越多研究者的关注。Xiao等人(2017)提出了首个基于Faster R-CNN(Ren等,2017)的单阶段行人搜索框架,通过在检测特征之后加入一个并行的再识别特征层,并使用在线实例匹配损失来约束识别任务,使检测和再识别任务能够在同一个框架中进行端到端的训练。目前的大部分单阶段行人搜索工作都在此框架的基础上进行改进。如Kim 等人(2022)指出了行人搜索中普遍存在姿势等不对齐的情况,并使用动态更新原型的方式学习更有辨识度的行人特征。Chen 等人(2020a)考虑了联合框架中检测和再识别任务的关系和优化过程中的内在矛盾,通过改进模型结构解耦二者使用的特征,使两个子任务能更好地配合。Li和Miao(2021)则考虑了两个任务间存在的顺序性依赖关系,指出单阶段模型中低质量的检测中间结果可能会对再识别产生负面影响,在此基础上设计了一种优化行人检测中间结果的单阶段模型。

2.7.3 行人搜索的前沿动态

主流的单阶段行人搜索方法在模型设计上涌现出一些基于DETR(detection transformer)(Carion 等,2020)和FCOS(fully convolutional one-stage)(Tian等,2019)等新型检测器的探索性工作。Yan 等人(2021)提出了一种不需要锚点的单阶段行人搜索模型,这种设计减小了Faster R-CNN 中大量提取候选框带来的计算开销,该方法在两个子任务上都取得了比此前方法更高的性能,进一步提升了行人搜索模型的效率。Cao 等人(2022)提出了一种基于DETR 的端到端行人搜索模型,通过在DETR 中引入一个再识别解码器,并结合使用不同层级的主干网络和检测解码器的输出来提供多层次监督。该方法在不同的主干网络上都取得了目前最优的性能表现,并在推理效率上领先于基于Faster R-CNN 的单阶段行人搜索方法。Yu 等人(2022a)基于Transformer 在行人再识别领域中的成功经验,提出了使用3 层级联的Transformer 作为识别分支,并通过特征混淆的方式来模拟行人搜索中的遮挡场景,该方法有效地提高了识别分支特征的鲁棒性。

除了模型结构设计,一些研究者探索如何使行人搜索模型在开放环境下也能满足实际场景的需求。在实际使用中,行人的位置和身份标签的获取难度是存在差异的,获取行人位置框标注的难度明显低于获取身份标签的难度。因此,一些研究者探索了只依赖行人位置框标签的弱监督行人搜索任务。Yan 等人(2022b)通过聚类方法为再识别子任务提供动态更新的身份伪标签,并且充分利用图像中的环境上下文、记忆上下文等信息来辅助行人身份特征学习,该方法在性能上甚至超过了一些全监督的行人搜索方法。Han 等人(2021)按聚类产生身份伪标签这一思路,通过设计一个孪生网络来对齐实例的特征表示,以提高弱监督设定下的行人特征的鲁棒性。Jia 等人(2022a)利用环境上下文来辅助身份特征学习和聚类,并将聚类产生的大量长尾孤例作为训练负例以提升特征的鲁棒程度。

此外,考虑到现有的行人搜索方法大多基于单一场景设定,直接将现有模型迁移到新场景往往会导致性能不佳,而在实际使用中针对每个场景都采集大量带有标注的训练数据成本高昂。因此,Li 等人(2022a)提出一种具有域自适应能力的行人搜索方法,在目标场景上仅使用图像数据,无需任何行人位置和身份的标注。该工作对齐了不同域的特征表示,并随着训练过程动态地生成行人检测实例和对应的身份伪标签,通过这些设计,该工作在没有标注的目标域上取得了接近弱监督甚至部分全监督方法的性能。

还有研究者考虑到开放世界中使用非图像输入进行检索的可能,提出一种基于文本的多模态行人搜索设定。这一设定中,推理时的输入不再是给定行人的图像,而是关于该行人的文字描述。Zhang等人(2021a)利用文本信息来引导区域提议网络关注文本所描述的区域。Yan 等人(2022a)的工作中考虑到文字和图像的信息不对等问题,提出一种模型抑制图像信息中的背景和环境信息,并设计了一个局部对齐模块来对齐描述文字和行人图像。

行人再识别旨在基于行人的穿着、体态、发型和携带物等信息,实现大时空范围内人脸等生物特征失效情况下跨摄像机的目标行人图像的关联与匹配,已成为智能视频监控系统的关键环节和支撑技术,在智慧公安、智慧城市等国民经济建设中发挥了重要作用。经过10 多年从多摄像机追踪到再识别的起步阶段、基于传统特征的再识别,特别是近年来基于深度学习的再识别的快速发展与进步,在多个数据集上取得了非常好、甚至超过人类的性能。但同时,面向开放域实际场景的应用,仍然面临诸多挑战,这也引领着未来行人再识别技术的发展趋势。下面将结合本文涉及的7 个方面,对未来的行人再识别技术发展趋势进行分析和展望。

1)遮挡行人再识别。遮挡行人再识别问题中,对于基于可见区域的这类方法,需要依赖额外的模型提供行人的语义信息进而实现特征配准。如何保证额外模型在行人再识别数据上的可靠性,以及减小其带来的计算开销是需要考虑的一个主要问题。其次,目前的特征配准仅考虑部件特征,如何高效地实现更细粒度的特征配准(如像素级)是一个值得探索的方向。对于基于补全的遮挡行人再识别方法,如何保证补充区域的信息具有行人真实信息特别是其他区域不具备的鉴别性信息是主要问题,尤其是在图像行人再识别中无法利用时序信息的场合。除此之外,现有数据集中,训练集中的遮挡行人图像严重不足,极大限制了现有方法的性能,探究合理的遮挡图像生成方式来丰富训练样本,以及如何有效地利用生成样本进行训练,提升遮挡行人再识别方法的可泛化能力,是未来的一个研究发展趋势。

2)无监督行人再识别。近几年,无监督行人再识别性能显著提升,很多工作在常用数据集上取得的性能已经超越了3 年前部分有监督行人再识别算法。与有监督行人再识别相比,无监督行人再识别可以显著降低数据标注成本,从而使行人再识别系统易于部署,具备更好的环境适应能力。未来,无监督行人再识别仍然是一个有意义和应用价值的研究方向。现有的无监督行人再识别算法难以对易混淆样本进行准确的自动标注,使其性能受到制约。未来,通过引入主动学习将少量的人机交互引入无监督学习过程,有望在不显著增加标注成本的同时,显著提升无监督行人再识别性能。此外,随着大模型研究的进展以及大数据的有效利用,如何利用大模型知识指导无监督行人再识别模型的学习与训练将会成为有价值的研究方向。

3)虚拟数据行人再识别。近年来虚拟数据用于行人再识别取得了显著进步,特别是用于训练深度模型并提升泛化性能。此外,部分研究也已证实了虚拟数据可以像真实数据一样可靠地用于测试算法。因此,行人再识别的研究将不会再受制于隐私保护的影响,而有了可靠的数据保障。未来,行人再识别虚拟数据的研究主要在于如何进一步扩大规模和多样性并提升行人再识别的泛化性能。虽然直觉上数据越多越好,在虚拟数据领域扩大规模很容易,但如何有效扩展数据仍然是一个瓶颈问题。例如,虽然UnrealPerson 总共创建了6 799 个身份的行人图像,但实验发现随机选择3 000个身份行人图像的实验效果是最好的,因此仍未能发挥更多人的优势。相应地,ClonedPerson 提出一个相似性—多样性人物扩展策略,通过聚类的方法使生成的虚拟人物既具有相似性,又具有多样性,从而形成最大效用的大规模虚拟行人数据集,这对未来虚拟数据的设计有一定的借鉴意义。

4)域泛化行人再识别。近年来研究人员从批归一化和实例归一化、域不变特征学习、显式深度图像匹配、多专家混合以及元学习等多方面开展了域泛化行人再识别的研究,显著提升了行人再识别模型的泛化性能。这些研究进一步明确了在实际应用条件下现有方法较差的跨库泛化性能以及提升泛化性能的难度。因此行人再识别的研究必须重视跨库测试的评估,而不能乐观于单个数据库上训练测试得到的几近饱和的性能。由于域泛化行人再识别的研究仍然处于起步阶段,因此以上各子方向仍然有比较大的潜力和发展空间。另一方面,探索更多的泛化思路以及更深入理解深度网络的过拟合现象和泛化机理,仍然有很长的道路要走。此外,除了算法外,数据本身的作用也是提升泛化能力不可或缺的,而受监控数据隐私保护的影响,大规模虚拟数据用于行人再识别的训练和测试将是大势所趋。

5)换装行人再识别。换装行人再识别是现实监控场景中的难点问题,近年来受到越来越多的关注。随着研究领域的发展,公开换装行人数据集的数据规模越来越大,场景更接近实际监控情况。对比短期不换装的再识别,现有换装再识别方法在现实场景数据集中的性能仍不理想。研究领域目前仍存在一些问题,有待未来研究的解决。一方面,方法的发展仍受制于换装行人数据难以标注的限制,未来可以考虑针对换装场景的虚拟数据合成利用与弱监督学习;
另一方面,大多数研究忽略了现实应用中换装行人与非换装行人同时出现的情况,未来可以考虑学习统一的特征提取方法。

6)多模态行人再识别。由于现实场景的复杂性和多样性,结合现有前沿进展,跨模态行人再识别仍有两个方向值得研究。一是跨模态联邦学习。现有的跨模态数据集比较少且规模小,由于隐私受限问题,大量真实场景数据未被利用。如何借助联邦学习联合多方数据,提升模型性能值得进一步研究。二是多模态数据泛化问题。现有的跨模态模型通常只是针对两两模态间的匹配问题,无法应用模态缺失问题。自适应多模态数据间的跨模态匹配,是一个智能监控系统不可或缺的能力。

7)行人搜索。目前行人搜索研究的根本目的在于提升行人检测和再识别两个子任务的性能和效率。在实际使用中,各种复杂因素导致无法轻易完成这一目标。首先,从两个子任务关系的角度,检测任务需要学习行人共性特征,再识别任务则关注不同行人的身份信息,二者之间存在天然冲突。而识别任务又依赖于检测结果的质量,因此如何处理好两个子任务间的平衡是一个具有挑战性的问题。其次,从数据角度,由于获取有标签数据的成本高昂,行人搜索研究逐渐从全监督设定转向了弱监督、域自适应设定。如何在仅有部分甚至完全没有标签的情况下为模型提供更有效的监督是研究者关注的热点。除了获取训练数据的困难,模型本身的鲁棒性也是一个大问题,在跨场景或复杂背景(背景遮挡、行人重叠、行人衣着类似)情况下现有模型往往会出现明显的性能下降,如何训练鲁棒、泛化能力强的行人搜索网络也是值得探讨的研究课题。总体而言,行人搜索正向利用更少的标签解决更加贴近实际问题这一道路上发展。

致 谢本文由中国图象图形学学会视频图像与安全专业委员会组织撰写,该专委会链接为http://www.csig.org.cn/detail/2448。

猜你喜欢行人模态特征毒舌出没,行人避让意林(2021年5期)2021-04-18如何表达“特征”疯狂英语·新策略(2019年10期)2019-12-13不忠诚的四个特征当代陕西(2019年10期)2019-06-03路不为寻找者而设扬子江(2019年1期)2019-03-08抓住特征巧观察数学小灵通·3-4年级(2017年9期)2017-10-13我是行人小天使·一年级语数英综合(2017年6期)2017-06-07国内多模态教学研究回顾与展望湖北经济学院学报·人文社科版(2015年8期)2015-12-29基于HHT和Prony算法的电力系统低频振荡模态识别上海电机学院学报(2015年4期)2015-02-28由单个模态构造对称简支梁的抗弯刚度计算物理(2014年2期)2014-03-11线性代数的应用特征河南科技(2014年23期)2014-02-27

推荐访问:研究进展 行人 识别

本文链接:https://www.xpbxgsx.cn/zhuantifanwen/fanwendaquan/70540.html(转载请注明文章来源)
热门标签
Copyright © 2024 精优范文网 版权所有 备案号:浙ICP备15042696号-1
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
Top