“大模型时代的机器视觉”讲习班将于10月25日开班!

时间:2025-09-30      来源: 中国图象图形学学会

本次讲习班由中国图象图形学学会(CSIG)主办,CSIG机器视觉专委会、CSIG图像视频通信专委会与华中科技大学电信学院承办,拟于2025年10月25—26日在武汉举行,预计规模约100人,主要面向武汉及周边高校与科研机构。讲习班聚焦“大模型时代的机器视觉”,围绕多模态与世界模型、视觉基础模型高效训练、底层视觉、视频生成与编辑、弱观测信息智能处理、具身智能、文档图像理解等方向,系统梳理理论前沿与工程落地路径。

内容设置兼顾“方法、系统、应用”的闭环:方法层面涵盖深度/慢思考与推理模型、多模态大模型、扩散与可控生成、底层视觉表征学习;系统层面聚焦视觉基础模型高效训练、推理加速与可复现的工程实践;应用层面涵盖遥感云干扰场景的智能解译、低空环境智能感知、具身智能中的世界模型驱动决策、视频生成与编辑、文档图像与人文场景(如甲骨文考释)等典型任务。日程将以主题报告+专题研讨的形式展开,设置开班与结营环节,贯穿问题导向的案例讨论与趋势展望,帮助参会者把握学科发展脉络、识别关键挑战与机遇。

讲习班紧贴国家推动人工智能与实体经济深度融合的战略需求,面向区域创新生态与产学研协同,促进跨学科合作与成果转化,为机器视觉领域研究人员与工程实践者提供高质量、可落地的交流平台。注:具体报告人与题目以现场公布为准。

主办单位

中国图象图形学学会(CSIG)

承办单位

CSIG机器视觉专委会;CSIG图像视频通信专委会;华中科技大学电信学院

 

学术主任

1759215402586985.png 

 卢湖川教授,IEEE Fellow,国家杰出青年基金获得者,大连理工大学未来技术学院/人工智能学院执行院长。研究方向为计算机视觉、机器学习、模式识别。发表顶级会议论文(CVPR/ICCV/ECCV100余篇,Google Scholar引用6万余次,以第一完成人获得辽宁省科技进步一等奖1项,教育部自然科学二等奖2项。获得多项国际学术奖,包括CVPR2020 Best Paper Award Nominee, ICCV2011 Most Remembered Poster等。2017-2023年,在国际目标跟踪权威评测VOT竞赛中,其团队连续在多个赛道获得多个冠军,多次担任CVPR/ICCV/ECCV领域主席。

 

时间及地点

时间:2025年10月25日

地点:华中科技大学 东17楼 电子信息与通信学院A101会议室


日程安排

1760086314819723.jpg

 

特邀讲者

1759215487543981.png 

讲者简介:夏桂松,武汉大学弘毅特聘教授、二级教授,国家杰出青年基金获得者,现任人工智能学院副院长(主持工作)、国家多媒体软件工程技术研究中心副主任。长期从事人工智能、计算机视觉、遥感智能信息处理等研究,主持国家自然科学基金杰青、优青、重点等纵向项目30余项,系列成果发表论文150余篇,谷歌学术引用3.3万余次,并在国家重要工程中应用。获湖北省自然科学一等奖等省部级一等奖4项。兼任2个SCI一区期刊编委、中国图象图形学学会遥感图像专业委员会副主任。

 报告题目:云干扰下的遥感图像智能解译方法

 报告摘要:云层的存在是遥感影像获取过程中不可忽视的限制因素,严重影响了影像质量及后续的智能解译。合成孔径雷达(SAR)作为能够穿透云层获取云下地物信息的主动式微波遥感方式,为描述和解释云覆盖地区的地物提供了有力支撑。本次分享聚焦于融合光学与SAR影像中的有效地物特征,通过形成对地物目标的完整且一致的信息描述,提高对场景内容的表达能力以及对场景内容的语义理解能力,能够有效减轻或消除云层的影响,有望推动遥感技术在灾害管理、农业监测、城市规划等多个领域的稳定应用。


1759215518304280.png

讲者简介:朱鹏飞,天津大学智能与计算学部教授,国家优青和天津市杰青获得者。主要研究方向是智能无人机,构建了大规模无人机视觉开放数据平台VisDrone,包含超过2000万图像/视频帧和2000万目标标注。已在 IEEE TPAMI和IJCV等CCF A类和IEEE汇刊发表论文80余篇。获吴文俊人工智能科技进步一等奖等奖励。主持科技创新2030-“新一代人工智能”重大项目和国家自然科学基金重点项目10余项。

 报告题目:低空环境智能感知关键技术及应用

 报告摘要:智能无人系统依赖于多传感器对周围环境进行鲁棒的环境感知。团队构建了VisDrone大规模无人机视觉数据平台,包括可见光数据、双光数据以及多机协同数据等,覆盖目标检测、目标跟踪、群体分析和协同感知等任务。基于VisDrone数据平台,团队围绕数据算力受限条件下的低代价学习范式、多机多传感器不同步条件下的协同学习机理以及未知场景和类别条件下的进化学习机制开展研究,未来将主要聚焦无人机具身智能理论与方法,并在军事安防等场景开展应用。


1760086261316726.png 

讲者简介:沈为,上海交通大学人工智能研究院教授,博士生导师,国家自然科学基金优青获得者。曾任约翰霍普金斯大学计算机系助理研究教授。研究方向为计算机视觉、深度学习与医学图像处理。在人工智能领域的顶级学术会议和期刊上发表论文100余篇,总学术引用1.4万多次,出版人工智能教材《动手学计算机视觉》一部。指导博士生论文获得医学图像处理顶级国际会议MICCAI 2023青年科学家奖。担任人工智能领域顶级国际会议ICML 2025、NeurIPS 2023/2024/2025、ICCV 2025、CVPR 2022/2023领域主席、顶级期刊Pattern Recognition编委,《中国科学:信息科学》青年编委,上海计算机学会计算机视觉专委上海计算机学会计算机视觉专委副主任。

 报告题目:《视觉基础模型的高效训练及应用》

 报告摘要:视觉基础模型,包括SAM、CLIP等,是经过大规模预训练的视觉主干网络,是多模态大模型的重要组成部件。本次报告将汇报我们团队围绕视觉基础模型开展的一系列工作,包括:1)基于视觉基础模型的三维万物分割方法;2)视觉基础模型的高效微调方法及其在图像分割上的应用;3)面向多模态大模型的视觉基础模型高效训练方法。


1759215594558406.png 

讲者简介:徐凯,国防科技大学教授。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作,提出面向复杂三维数据的结构化感知、建模与交互理论方法系统,并规模化落地应用于智能制造等领域。主持国家自然科学基金青年科学基金A类(原杰青)、B类(原优青)、重点项目等。发表TOG/TPAMI/TVCG/TIP等A类论文100余篇。入选全球前2%顶尖科学家榜单。担任图形领域顶级国际期刊ACM Transactions on Graphics、IEEE Transactions on Visualization and Computer Graphics的编委,Computational Visual Media的领域执行编委。多次担任领域内重要会议的大会主席和程序主席。担任中国图象图形学学会智能图形专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。曾获湖南省自然科学一等奖2项(排名1和3)、中国计算机学会自然科学一等奖2项(排名1和3)、军队科技进步二等奖、军队教学成果二等奖、中国电子学会青年科学家奖。

 报告题目:《世界模型驱动的具身智能》

 报告摘要:在真实世界中学习具身操作技能代价昂贵,目前广泛采用的做法是基于仿真环境的学习和由虚到实迁移。但构建一个通用且高保真的仿真环境仍然非常困难,即便为某个单项任务构建相应的仿真环境也很难。同时,为使仿真训练的智能体能够由虚到实迁移,常需要在包括几何、结构、材质、动力学等的高维空间中进行采样,维数灾难问题突显。如能对目标环境快速构建一个机理化的专用世界模型,则只需在机理引导下对该模型进行小范围域随机化,即可支持鲁棒可泛化的策略学习。本报告探讨两种世界模型驱动的具身智能范式:1)直接在目标环境中采集“任务无关”的操作轨迹数据,学习符合物理规律的专用世界模型,用于多种下游任务的学习,其核心问题是如何基于稀疏轨迹数据学习符合物理规律的精准世界模型;2)首先基于大规模仿真预训练通用世界基础模型,再针对目标环境进行快速适配得到专用世界模型,用于目标环境多种下游任务的学习,其核心问题是如何实现通用世界模型的精准高效适配。本次报告将分析和综述两类范式在驱动导航、抓取等具身任务中的应用,并结合视觉-语言-动作(VLA)架构最新进展,探讨和展望数据和物理联合驱动、仿真与现实数据协同、世界模型轻量化等未来方向。


1759215649530666.png 

讲者简介:董超,博士生导师,中国科学院深圳先进技术研究院研究员,上海人工智能实验室双聘领军科学家。主要研究方向为底层计算机视觉,包括图像超分辨率、去噪和增强等,发表相关论文100余篇,谷歌引用量超过4万次。2014年,在欧洲计算机视觉大会(ECCV)上发表论文SRCNN,首次将深度学习引入图像超分辨领域。2017年至今,多次带队参加国际图像超分辨率比赛,共获得9项冠军。2016年-2018年就职于商汤科技,带领商汤超分团队开发了世界首款基于深度学习的数码变焦软件。2021年被斯坦福大学评选为世界前2%顶尖科学家。2022年被清华大学评为AI 2000人工智能全球最具影响力学者。2023年获得上海市技术发明一等奖。

 报告题目:《大模型时代的底层视觉研究》

 报告摘要:大模型正在改变整个人工智能的研究生态,它在底层视觉领域同样可以创造出前所未有的技术突破。借助文生图大模型,我们尝试将图像复原的性能推向极致,利用大规模高清数据,开发了图像复原大模型DiffBIR,SUPIR和HYPIR,可以生成4k/8k级别的高清图像,还能根据文本指令控制细节生成。借助多模态大模型,我们让图像质量评价从数值指标变成了语言描述,开发了会讲话的IQA大模型系列DepictQA,DeQA-wild和DeQA-score,它们不仅可以分辨图像的各种退化类型,还能从多个方面分析两个图像的优劣,并给出最终的判断,这也将成为图像质量评价的新范式。 最后,作者也将分享他的AI专著《底层视觉之美》。


1759215676582728.png 

讲者简介:刘日升,教授、博导,大连理工大学软件学院副院长、教育部重点实验室副主任、泛在网络与智能感知研究所所长、国家优青、英国工程技术学会会士、中国计算机学会杰出会员、中国图象图形学学会杰出会员,研究领域为人工智能基础理论、无人系统智能技术,发表CCF推荐A类及IEEE汇刊论文100余篇。获辽宁省自然科学奖一等奖及二等奖、教育部自然科学奖二等奖、中国图象图形学学会自然科学奖二等奖,中国计算机学会与IEEE CS联合授予青年科技奖,CCF推荐国际会议论文奖7项。担任ICML、NeurIPS、ICLR、CVPR、IJCAI、ACM MM等会议领域主席、IEEE TCSVT、Pattern Recognition、The Visual Computer、Scientific Reports等期刊编委。主持基金委青年B类、原创探索计划、企业联合重点、重点研发课题、辽宁杰青、大连杰青项目。

 报告题目:《大模型时代弱观测信息处理的智能理论与方法》

 报告摘要:弱观测信息处理是人工智能与机器视觉的基础性关键问题,面临数学优化、深度学习以及具体应用场景等多个方面的难点与挑战。本次讲习班将围绕弱观测信息处理涉及的上述内容进行汇报,重点介绍不适定与不确定反问题优化计算理论、多源异构视觉信息融合学习方法、全时多域无人系统智能感知技术等方面的研究进展与未来发展趋势。


1759215691842450.png 

讲者简介:李鸿升现任香港中文大学多媒体实验室副教授,上海交通大学、中国科学技术大学兼职博士生导师,曾任西安电子科技大学“华山学者”讲座教授。他于2006年获华东理工大学自动化学士学位,2012年于美国理海大学获得计算机科学博士学位。他在人工智能、计算机视觉、医学图像处理有着深厚的研究经验,在相关顶级期刊和会议上(TPAMI、CVPR、ICCV、ECCV、NeurlPS、ICLR、ICML等)发表论文230余篇,谷歌学术引用超过6万次。获得了2020年IEEE电路与系统协会杰出青年作者奖、2021年香港中文大学青年学者杰出研究成就奖、2022年-2024年全球前2%顶尖科学家、2022年-2024年AI 2000人工智能最具影响力学者提名奖等奖项。2016年带领团队参加ImageNet 2016国际挑战赛,赢得了视频物体检测项目第一名。他担任国际顶级学术会议NeurIPS 2021-2023 2025、CVPR 2023、ICCV 2023、ICML 2023-2025、ACM MM 2024-2025领域主席,AAAI 2022高级程序委员,ICCV 2025和CVPR 2026高级领域主席,国际期刊IEEE Transactions on Circuits and Systems for Video Technology、Transactions on Machine Learning Research、Neurocomputing等的副编辑。

 报告题目:《面向视觉应用的多模态大模型》

 报告摘要:本讲座梳理多模态大模型(MLLM)的发展趋势与应用路径,强调从“多模态融合”走向“复杂推理”与“理解-生成一体化”的范式跃迁:在能力层面,模型由简单VQA扩展到可解释的复杂视觉推理,引入视觉思维链、主动视觉与区域放大(如GPT-o3 Image Reasoning)、以及以连续图像规划为核心的视觉规划范式以强化长尾与多步推理;在架构层面,总结离散化视觉令牌、连续视觉特征与一体化扩散三条主线及代表工作(Emu/Emu2、PUMA、Chameleon、Emu3、Janus-Pro、Transfusion、BAGEL),阐明理解(高层语义)与生成(底层细节)的固有冲突及通过数据与训练目标协同化解的路径,并展望由静态图文迈向视频生成与世界模型的能力涌现;在小型化与高效化方面,介绍面向边缘计算的相关技术:SPP将参数高效微调与后训练剪枝统一以保持高稀疏度性能,NAEE提出MoE专家稀疏度并结合静态剪枝与动态路由以降低推理成本,BlueLM-V-3B通过算法-系统协同(宽松长宽比匹配、NPU多patch并行、CPU/NPU流水线、输入token降采样)实现移动端低内存、低时延与高吞吐部署;在应用落地上,重点聚焦两类终端智能体:手机UI智能体从PC端迁移并适配触控与自适应布局,基于AMEX等数据构建范式与UI-Genie-RM奖励模型形成“轨迹探索—结果验证—迭代微调”的自进化闭环,在相关基准取得显著提升;智能眼镜智能体则面向第一人称、连续多模态流,结合MM-EGO的两阶段关键帧问答、EgoLM的动作词元化与跨模态对齐,以及StreamChat的并行3D-RoPE与跨注意力注入最新视频上下文,实现对动态场景的在场理解、低延迟交互与隐私友好部署。


1759215721285322.png 

讲者简介:魏云超,北京交通大学二级教授,长江学者。曾在NUS、UIUC、UTS从事研究工作,主要研究方向包括面向非完美数据的视觉感知、多模态数据分析与推理、生成式人工智能等,发表TPAMI、CVPR等顶级期刊/会议论文100多篇,Google引用近3万次。入选AI 100、MIT TR35 China、百度全球高潜力华人青年学者、《澳大利亚人》TOP 40 Rising Star,获世界互联网大会领先科技奖、教育部自然科学奖一等奖、ImageNet目标检测冠军及多项CVPR竞赛冠军等奖励。主持国自然重大研究计划重点项目、国家重点研发计划青年科学家项目、北京市自然科学基金海淀联合基金重点项目等10余项。担任计算机学院科研副院长、“视觉智能交叉创新”教育部国际联合实验室副主任、“科幻音视频智能处理”北京市重点实验室副主任等职务。

 报告题目:《视觉智能推理技术发展与关键挑战》

 报告摘要:视觉智能推理是人工智能实现高级认知与具身智能能力的关键技术之一。随着多模态大模型的发展,视觉推理主要呈现出两类路径:一是将语言大模型的知识与推理能力迁移至视觉任务,实现跨模态信息的联合建模与复杂推理;二是依托大规模视觉数据,通过自监督等方式,使模型自主学习并掌握因果关系、时空关联、物理规律等视觉场景中的推理能力。这两种路径在实际应用中各有优势,也面临共性挑战。报告将结合近年来国内外代表性研究进展,梳理视觉推理的发展脉络,旨在为视觉智能技术的持续演进和应用拓展提供一些发展思路。


1759215768607240.png

讲者简介:赵鑫,中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文200余篇,谷歌学术引用3.7万余次,曾主导研发了玉兰系列大语言模型,组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文书(高等教育出版社出版)。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖。

 报告题目:《深度推理模型技术探讨》

 报告摘要:最近以DeepSeek-R1为代表的深度推理模型受到了较大关注,这种通过生成更长的思考过程来解决更具挑战性的问题,在多个科学场景和应用领域都取得了重要突破。本次报告将聚焦深度推理模型的基础技术与实现方法,对于其中可能涉及到的技术路径进行介绍,并结合自身实践经验讨论其中的技术挑战,然后探讨推理模型在智能信息获取方面的应用,并且总结现阶段推理模型的局限以及未来的技术发展趋势。

1759215812162629.png

讲者简介:吴祖煊,复旦大学智能机器人与先进制造创新学院副院长、研究员,上海创智学院全时导师,上海视频技术与系统工程研究中心主任,入选国家级青年人才计划。长期从事计算机视觉与深度学习等人工智能领域前沿研究,近年来发表TPAMI、IJCV、CVPR、NeurIPS等中国计算机学会A类国际期刊、会议长文70余篇,多个成果被包括图灵奖得主在内的知名学者正面评价,谷歌学术总被引1.3万余次。获2023年度国家自然科学二等奖、2022年度教育部自然科学一等奖、2022年度AI 2000多媒体领域最具影响力学者奖。长期担任CVPR、NeurIPS等多个国际会议的领域主席或高级程序委员会委员。

 报告题目:《视频生成与编辑》

 报告摘要:随着电子设备和互联网技术的不断普及和成熟,视频正逐渐成为用户更加偏好的内容传播方式。这一趋势催生了对自动化生成与编辑视频内容的巨大需求,也推动了智能内容创作技术的快速发展。本报告聚焦于高质量视频内容的生成与编辑,主要包括两个方面:(1)视频内容生成:围绕高压缩比的视觉分词器设计与高效视频生成模型的训练方法,探索在资源受限条件下如何实现长时间、高保真的视频生成;(2)视频内容编辑:聚焦于可控视频生成技术,支持对人物、动作等多维因素进行精准操控,提升内容生成的可定制性与交互性。


1759215830919124.png

讲者简介:贾旭,中国图象图形学学会会员,大连理工大学未来技术学院/人工智能学院副教授,入选国家级青年人才,大连市高端人才,比利时荷语鲁汶大学博士,从事计算机视觉与生成式人工智能领域的研究。在CCF-A类期刊和会议长文发表学术论文50余篇,Google学术引用11000余次,已申请和授权国内外发明专利20余项,成果获包括诺贝尔奖等权威学者正面评价,入选全球前2%顶尖科学家。主持3项国家级项目或重点项目子课题,研究成果获得CCF自然科学二等奖(序1)、华为“难题揭榜”火花奖、以及CVPR 形状恢复挑战赛冠军等多项学术奖励。多次担任ICLR、AAAI、ACM MM等AI和CV领域重要学术会议的领域主席和高级程序委员会委员。

 报告题目:《可控视觉生成大模型》

 报告摘要:生成模型已成为推动创意产业数字化转型的核心引擎,为内容创作、艺术设计、媒体制作等实际应用带来了革命性变革。然而,如何实现对生成过程的精准控制、确保输出内容符合用户意图和应用场景需求,仍然是视觉内容生成领域面临的关键挑战。本次报告将主要介绍团队在可控内容生成领域的最新研究成果,涵盖从2D到3D、从静态到动态的多维度内容控制技术。包括针对人物身份、交互关系和物体动作的定制化生成技术,实现多场景、多姿态的个性化内容创建;针对生成图像美学质量和空间布局的后训练,实现用户对画面构图与视觉风格的精细化控制;目标和相机轨迹联合控制下的轨迹可控视频生成方法,增强视频生成模型的时序一致性和运动控制;最后还将针对现有视频生成忽略物理规律的问题,介绍在符合物理规律的视频生成框架方面的初步探索,使生成内容更加真实可信。


1759215872806001.png 

讲者简介:华中科技大学人工智能与自动化学院研究员、博导,国家级青年人才,中国科协青托,CSIG优博, AI2000 全球人工智能学者。任《中国科学:信息科学》客座编委、CSIG-DAIR 副秘书长。主要研究方向为视觉与自然语言处理,聚焦文档图像智能及多模态大模型研究。在 TPAMI、IJCV 等顶级期刊发表论文十篇,成果8次获 ACL、CVPR 等人工智能国际顶会最佳论文/Oral/Spotlight/Highlight等会议奖项,部分工作被图灵奖得主及基金委高度评价。主持国基金面上等多项省部级以上项目,指导学生获全国挑战杯擂主和中国大学生创新大赛金奖。开源模型曾入选抱脸趋势榜单第二,并在检察机关与头部互联网企业应用。

 报告题目:《文档图像大模型及其在甲骨文考释中的应用》

 报告摘要:近年来,文档图像智能大模型在图像理解与文本处理方面展现出前所未有的潜力,为古文字研究提供了新的契机。甲骨文作为中国最早的成熟文字体系之一,长期存在大量字形残缺、语境零散、释读分歧等难题,传统方法依赖专家长期积累,效率有限。报告探讨了首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle:通过对拓片与摹本的自动检测与识别,实现字符级别的精准提取;结合大模型的字形分析与演化建模,生成多候选释读;进一步通过上下文对齐与传世文献检索验证,构建跨越数千年的证据链。实验结果表明,该方法不仅辅助提升了释读的全面性,还显著缩短了专家审读时间,并在部分存在争议的字例上提供了具有参考价值的新见解。文档图像智能大模型能够成为古文字数字化研究的重要工具,为甲骨文考释乃至其他古代文献的智能化解读开辟了新的路径。


 报名及注册费

1. 本期讲习班限报100人,根据缴费先后顺序录取,报满为止。

2. 2025年10月22日(含)前注册并缴费:CSIG会员2000元/人,非会员2500元/人(赠送1年CSIG会员);现场缴费:会员、非会员均为3000元/人;CSIG团体会员参加,按CSIG会员标准缴费;同一单位组团(5人及以上)报名,均按CSIG会员标准缴费。

3. 注册费包括讲课资料和2天会议期间午餐,其它食宿、交通自理。

4. 即日起至2025年10月24日,请登录会议注册网站注册。

5. 讲习班培训证书将于结营仪式统一发放。

6. 会议注册网址:https://meeting.csig.org.cn/10351 

 图片14.png

联系方式

  联 系 人:黄老师

 联系电话:010-82544754

 邮    箱:igal@csig.org.cn



Copyright © 2025 中国图象图形学学会

京公网安备 11010802035643号 京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服