时间:2025-04-10 来源: 中国图象图形学学会
CSIG自然科学奖授予在我国图像图形领域基础研究和应用基础研究中阐明自然现象、特征和规律,做出重大科学发现的个人和团队。为宣传科技工作者积极进取的工作精神,聚焦获奖团队背后的故事,学会近日对荣获2024年度CSIG自然科学奖二等奖“开放环境视觉鲁棒表征与聚焦推理”的项目团队进行了专访,以对话的形式,为读者们提供一次了解他们的机会。
下面就跟着我们的脚步,走近今天的受访团队吧。
问题一:首先非常感谢各位老师接受我们的采访,请先介绍一下团队成员:
本项目团队成员包括张史梁研究员、李国荣教授、张维刚教授、苏荔教授、黄庆明教授。
张史梁,北京大学长聘副教授,博雅青年学者,国家青年特聘专家,首批北京市杰出青年科学基金获得者。研究领域为人工智能与媒体计算,专注于神经网络高效计算架构、自监督学习方法、细粒度视觉识别研究。以第一作者和通讯作者在IJCV、T-PAMI、CVPR、ICCV、NeurIPS、ACM Multimedia等权威期刊与会议发表论文100余篇,谷歌引用12000余次。近5年以第一发明人申请中国/美国发明专利14项。主持科技部重点研发计划政府间合作重点专项、国家自然科学基金联合基金重点、面上以及重大研究计划培育项目等。担任人工智能和机器视觉领域权威期刊IEEE T-MM、Elsevier CVIU、IET Computer Vision、智能系统学报编委、ACM TOMM客座编委、IEEE VSPC-TC专委会委员。连读多年担任著名国际会议ICCV/CVPR/AAAI/ICPR/WACV/ICME等领域主席。获2023年大川研究助成奖、2022年石青云优秀论文奖、ACM Multimedia Asia 2022最佳论文提名、2021年IEEE T-CSVT最佳论文提名、2018年中国电子学会科技进步一等奖、2016年教育部科技发明一等奖、2013年中国计算机学会优秀博士学位论文、2013年中科院百篇优秀博士学位论文,以及英伟达先锋研究奖、NEC美国实验室突出技术奖等。指导的多名博士生获得交通运输工程学会优博论文、华为奖学金、小米奖学金、国家奖学金等奖励。
李国荣,中国科学院大学长聘副教授/教授,国科学院青促会会员,IEEE和CCF高级会员。主要研究方向为图像处理、计算机视觉、多媒体内容分析,具体包括无人机图像/视频的表征学习、目标检测与识别、及群体物体的数目估计等相关领域,在TPAMI、IJCV、TIP、CVPR、ICCV、ACM Multimedia等相关国际权威会议和期刊上发表论文100余篇,谷歌学术引用5900余次。主持/承担了NSFC重点和面上项目、国家重点研发计划等10余项。多次担任ICME、IJCAI、ICLR等国际学术会议的领域主席,曾获2022年度北京图象图形学学会“最美女科技工作者”和2021北京地区广受关注论文等。
张维刚,哈尔滨工业大学(威海)教授,博士生导师。主要研究方向为跨媒体分析推理、智能视频分析、人工智能应用研究等。主持/参与国家自然科学基金面上项目、国家自然科学基金联合基金重点项目、国家重点研发计划政府间国际科技创新合作重点专项、山东省自然科学基金面上项目等多个科研任务,并承担完成了多项企业产学研合作项目。在国内外会议及期刊上发表学术论文80余篇,谷歌学术引用次数2900+,包括领域内顶级国际期刊TPAMI、IJCV、TIP、TMM等及CCF-A类顶级国际会议论文ACM MM、CVPR、AAAI、IJCAI等,获得IEEE MIPR 2018最佳学生论文奖和国家发明专利授权7项。目前担任中国计算机学会多媒体技术专委执行委员和副秘书长、中国图象图形学会多媒体专委委员。
苏荔,中国科学院大学教授,博士生导师。目前为中国图象图形学学会多媒体专委会委员。主要研究方向为媒体计算,近期研究专注于视频细粒度理解、视觉-文本跨模态信息关联与推理等。主持或参与国家自然科学基金面上项目、重点项目、应急管理项目等多项,在包括IEEE TPAMI、TIP、TMM等国内外权威期刊和CVPR、ICCV、IJCAI、NeurIPS、AAAI、ACMMM、ACL等高水平国际会议上合作发表学术论文60余篇,申请和授权发明专利十余项,曾获国际光学工程协会VCIP最佳论文奖、IEEE标准1857.6标准贡献奖等奖励。
黄庆明,中国科学院大学讲席教授,IEEE Fellow,中国计算机学会会士,国家杰出青年基金获得者。研究方向为:多媒体分析、知识图谱、机器学习、计算机视觉。已在国内外权威期刊和重要国际会议上发表学术论文500余篇,其中IEEE/ACM 汇刊论文和中国计算机学会(CCF)认定的A类国际会议论文200余篇,申请和授权国内外发明专利50余项,荣获吴文俊人工智能自然科学一等奖等多项科技奖励。作为项目负责人主持了科技创新2030-“新一代人工智能”重大项目、国家自然科学基金重点项目和重点国际合作项目、国家973计划课题、863课题、中国科学院前沿科学研究重点计划等国家和省部级项目的研究。
问题二:了解完了团队内的各位老师,请为大家简单的介绍一下项目的情况:
得益于计算机技术的快速发展,视觉数据呈现多源、海量、时空分布复杂等新特点,对视觉数据的高效精准分析提出了新的要求。现有方法难以对多源视频中的关键信息进行有效关联、分析与推理,无法满足智能化社会治理、社会公共安全感知等战略需求。如何从多源海量、关联复杂的视觉数据中提取鲁棒表征,实现关键线索的聚焦推理已成为机器视觉领域亟待解决的难题。在国家重点研发计划和国家自然科学基金项目支持下,项目组以自底向上范式,在网络架构与优化理论、鲁棒表征机制、聚焦推理模型三个层面开展了系统研究,构建了开放环境视觉鲁棒表征与聚焦推理方法体系,取得了如下创新成果:
1. 提出了紧致深度神经网络模型与自监督优化方法。受人脑“结构稀疏、层间功能互补”特点的启发,提出了双向瀑布级联网络架构,通过增强层间特征互补性、引入多层蒸馏优化机制,减少网络参数量80%以上,提升推理效率5倍以上;进一步遵循“人脑工作记忆和神经同质性”理论,将特征记忆机制引入自监督学习,提出了特征记忆多标签深度模型优化方法,突破了标注依赖、泛化性能不足等瓶颈,为本项目提供了高效紧致的深度模型与优化方法基础。
2. 发现了开放环境语义协同表征机制。受逆透视成像机理启发,构建了透视归一表征学习框架,通过评估透视畸变参数实现逆透视变换,突破了多目标透视畸变和尺度多变瓶颈,利用互信息评估样本梯度相关性,提升多目标表征的跨场景泛化能力;进一步参考人脑信息融合处理机理,探索了单目标多尺度信息自适应融合机制,有效克服了传统深度神经网络表征判别力弱、紧致性差的局限性。
3. 构建了关键目标聚焦推理模型。以关键目标复杂时空轨迹线索为推理目标,将时空关联模型求解问题解耦为领域内、领域间两阶段关联优化过程;进一步探索了视角和尺度对抗学习范式,结合自监督优化方法,在多源视频中实现了准确的跨时空行人、车辆关联与轨迹推理。
本项目共发表CCF-A类论文150余篇,其中国际顶级期刊TPAMI(影响因子:20.8,IEEE 160余种期刊中最高)20篇。截至2024年8月,8篇代表性论文Google Scholar引用2648次,SCI他引1294次;单篇最高Google Scholar引用1071次,SCI他引578次。项目成果获得了包括15位中/美/欧等国院士和50余位ACM/IEEE Fellow等国际同行的引用和正面评价。
基于项目核心技术,项目组成员参与制定了基于人工智能的IEEE 1857.6 视频描述国际标准。图像识别、视频检索、特征匹配等算法应用于成都铁路公安局、重庆公安局、福建龙岩反诈中心等实践。同时,在建党100周年安保、20大安保、金砖国家领导人会议、世界经济论坛年会等大型活动安保活动中发挥了重要技术支撑作用。
问题三:请问各位老师在科研过程中,有没有什么好的方法可以推荐给大家?
我们在项目研究过程中,形成了以下两方面的共识,可以认为是项目取得成功的一些经验,或许能为同行提供参考。
(1)问题导向,扎根实际。科学研究要以实践问题为导向,跳出“跑分内卷”,直面现实需求。例如,在大型活动安保中,多源视频目标跨时空关联的难题长期存在,传统方法依赖人工标注,效率低下,难以有效发挥智能硬件设备的作用。基于现实问题的需求,我们与公安部门深度合作,从实际需求出发,提出“解耦优化时空轨迹推理模型”,将目标检测、轨迹预测分阶段优化,最终实现多摄像头下目标的自动关联,效率提升5倍以上,为现实需求提供了有效的解决方案。同时,相关成果也被纳入IEEE 1857.6视频描述国际标准。
(2)认知启发,理论落地。我们借鉴人类视觉系统的注意力机制,构建了“双向瀑布级联网络”,将特征记忆机制引入自监督优化。模型通过记忆关键目标的显著性视觉特征、运动模式,即使遭遇遮挡或视角变化,仍能稳定追踪,推理速度提升5倍。这种“仿生设计”不仅提升性能,更揭示了模型的可解释性。
问题四:在项目的研究过程中有遇到什么困难吗?大家是如何解决的?
在项目的研究过程中,我们也遇到了很多问题和挑战,其中最大的挑战来自两方面。
(1)多源视频数据的异构性与噪声问题。公安和大型活动的监控视频往往存在低光照、运动模糊、视角差异大等现实问题。现有的模型难以提供有效的解决方案。为此,团队提出“透视归一化表征框架”,通过自适应光照校正和跨摄像头特征对齐,解决了数据质量参差不齐的难题。
(2)跨时空目标关联的复杂性。现实需求中通常需要实现从海量视频数据中实现跨时空目标关联的目标。传统方法依赖人工标注,效率极低,难以满足现实需求。我们创新性地提出了“时空轨迹解耦优化模型”,通过将目标检测与轨迹预测分离,利用自监督学习生成伪标签,最终实现了多源视频中跨时空行人、车辆关联与重识别。
上述问题的解决,根本上还是要遵循“问题驱动”的研究思路。我们以实际需求为导向,联合实践部门反复迭代算法,理论与实践相结合,形成合力,最终解决现实问题。
问题五:最后,大家有什么获奖感言想说呢?
首先,感谢中国图象图形学学会的认可!这份荣誉属于团队每一位成员,是大家的坚守让技术从想法走向实战。特别致敬国家自然科学基金与重点研发计划的支持,以及公安部门开放的真实场景。正是这些国家战略需求,驱动我们突破“多源视频时空关联”“开放场景鲁棒推理”等难题。
此刻,我们想起习主席的勉励:“梦虽遥,追则能达;愿虽艰,持则可圆”。未来,我们将继续探索“开放环境下持续学习方法和端云异构模型协同学习”,让AI不仅能“看见”,更能在复杂场景持续协同学习。最后,愿与学界同仁共勉:以技术之刃,破现实之障;以科学之光,照强国之路!