CSIG图像图形学科前沿讲习班—“大模型时代的机器学习”

时间:2025-10-27      来源: 中国图象图形学学会

2025年10月25日和26日,中国图象图形学学会(CSIG)讲习班--“大模型时代的机器学习”在武汉顺利举办。本次讲习班由中国图象图形学学会主办,CSIG机器视觉专委会、CSIG图像视频通信专委会、华中科技大学电子信息与通信学院承办。讲习班由大模型领域相关的专家学者领衔,以讲座形式展开。讲习班开幕式由华中科技大学王兴刚教授主持。讲习班学术主任、CSIG机器视觉专委会主任、大连理工大学卢湖川教授发表开班致辞,他在欢迎各位学者的同时,介绍了讲习班的核心内容,并表达了对活动顺利举行的殷切期望。CSIG常务理事、CSIG图像视频通信专委会主任、华中科技大学刘文予教授致辞,对远道而来的参会学者与学员表示热烈欢迎,介绍了本次讲习班的筹备背景与核心价值。

1761555785977318.png

卢湖川主任致辞

1761555928861963.png

刘文予主任致辞

1761555988507468.png

活动现场

在为期两天的讲习班中,十二位专家学者依次登台授课,围绕大模型相关的多元研究方向展开深度分享,内容覆盖遥感图像智能解译、视觉生成大模型、具身智能、低空环境感知等多个前沿领域,既有基础理论的深度解析,也有技术落地的实践成果,为参训学员呈现了一场丰富的学术盛宴。

1761556067826199.png


徐芳老师授课

武汉大学夏桂松教授团队徐芳老师主讲《云干扰下的遥感图像智能解译方法》报告,分享遥感抗云干扰技术前沿。团队通过三大关键技术实现突破:利用 SAR 雷达抗干扰特性引导图像恢复,以创新网络结构解决时间序列成像的质量依赖问题,引入二维地图先验知识简化语义分割任务。这些方法有效提升了遥感图像的质量与抗干扰性能。

1761556990239477.png

贾旭老师授课

大连理工大学未来技术学院贾旭教授主讲《可控视觉生成大模型》报告,分享视觉生成大模型一致性优化的前沿进展。针对当前特效生成 “一模型一效果” 的局限,团队通过三大核心技术实现突破:构建统一结构框架,让单个大模型可适配多种特效生成需求;将目标追踪成果融入生成任务,以轨迹引导目标生成;结合目标与相机轨迹联合控制实现轨迹可控视频生成,强化时序一致性与运动控制;借助大语言模型依据物理世界规律生成场景提示词,在不新增数据的情况下优化物理约束效果。这些方法有效提升了生成内容的稳定性与可信度。

1761557650133363.png

沈为老师授课

上海交通大学人工智能研究院沈为教授主讲《视觉基础模型的高效训练及运用》报告,分享视觉基础模型领域的研究前沿。报告重点介绍团队三项核心成果:提出基于视觉基础模型的三维万物分割方法,通过空间语义理解实现三维场景的精确分割;研发视觉基础模型高效微调技术,并落地应用于图像分割任务;推出含优化器 AdaMuon 在内的多模态大模型适配型视觉基础模型高效训练方案,可显著降低显存占用。

1761557703924535.png

徐凯老师授课

国防科技大学徐凯教授主讲《世界模型驱动的具身智能》报告,分享世界模型在具身智能领域的应用前沿与研究动态。报告围绕具身智能核心痛点展开,先阐述世界模型在导航领域的应用场景及现阶段难点;针对仿真环境保真与迁移性能问题,通过物理仿真约束方法提升流水线中智能体的工作精度。同时介绍三项核心技术创新:提出扩散模型 ADM,将正向图像 - 噪声映射转化为图像 - 零映射与零 - 噪声映射,以更少扩散步骤实现高质量生成;构建物理化世界模型 PIN-WM,可从视觉观察中识别刚体物理参数,借助可微分物理与渲染实现高效系统识别;引入 Identified Digital Cousins 技术,通过扰动物理与渲染参数生成多样化有意义变化,强化策略转移能力。

1761557752451695.png

刘日升老师授课

大连理工大学软件学院刘日升教授主讲《大模型时代弱观测》报告,分享弱观测领域的数学建模方法与核心技术突破。报告先介绍弱观测信息的数学建模核心内容,包括弱感知下的多传感器传输映射、跨模态信息传输映射的搭建与度量等。团队带来三项关键成果:提出通用收敛准则,证明可微动态系统双层优化框架下的收敛性,阐明经典计算策略在多解条件下失效的根本原因,研发外层梯度校准数值计算新技术;针对弱观测成像重建反问题,通过模型驱动解域建模,提出任务与先验协同网络搜索框架;建立先验嵌入与任务保真的协同训练策略,实现低光增强任务的自适应成像建模。

1761557806234344.png

董超老师授课

中国科学院深圳先进技术研究院董超研究员主讲《大模型时代的底层视觉研究》报告,分享多模态大模型在图片修复等底层视觉任务中的前沿进展。报告聚焦图像处理核心痛点,提出多项创新方案:复原前先解析图像内容语义,有效规避细节错误生成问题;研发 HYPIR 网络,融合 Diffusion 模型与 GAN 训练模式,既借助预训练 Diffusion 实现快速收敛、单步恢复,又支持提示词手动指定生成细节,高效适配图像恢复与超分辨率任务;引入大语言模型的图片理解能力,指导图像恢复过程,探索纯 LLM 模型解决图像恢复任务的可行性。

1761557480354358.png

李鸿升老师授课

香港中文大学多媒体实验室李鸿升教授主讲《面向计算机视觉应用的多模态大模型发展趋势与应用背景》报告,分享多模态大模型在视觉应用领域的最新研究进展。报告围绕核心技术创新与应用探索展开:构建 Visual CoT 数据集,搭建多轮视觉推理框架并提供基准测试;在此基础上推出三项关键方案 —— 适配图像生成任务的奖励模型 PARM、空间信息思维链端到端框架、语义级别与令牌级别思维链联合生成框架,均有效增强图像生成效果。同时,报告还介绍了生成与理解统一多模态大模型、多模态大模型小型化与高效化及相关应用方向的研究工作。

1761557407948624.png

魏云超老师授课

北京交通大学计算机学院魏云超教授主讲《视觉智能推理技术发展与关键挑战》报告,分享视觉智能领域的最新进展与核心突破。报告聚焦 “模型从单点理解到系统性推理” 的核心目标,通过多项数据集构建与技术创新推动领域发展:设计意图导向微调数据集;搭建复杂空间推理与多图推理基准测试、首个室内场景 3D 空间理解大规模 VQA 数据集;构建多目标推理分割 MUSE 数据集,适配多物体细粒度分割推理需求;研发反思数据集,借助思维链强化学习赋予大模型跳出提问陷阱的能力;挖掘视频中复杂推理规划知识,让模型从海量视频中习得规划、推理与决策能力,实现长程一致性保持。

1761557364118862.png

吴祖煊老师授课

复旦大学智能机器人与先进制造创新学院吴祖煊研究员主讲《视频生成与编辑》报告,分享该领域的最新研究进展与核心技术突破。报告聚焦视频生成与编辑的关键需求,推出多项创新方案:提出关键帧引导的高压缩比视频分词 Reducio,以关键帧为条件辅助视频重建,达成当前最优重建效果;研发 SimDA 技术,在预训练文生图模型基础上仅微调时序注意力模块,实现轻量化视频生成;打造 StableAvator,构建首个支持无限时长的数字人生成模型,可在不损失一致性的前提下生成数小时视频;提出 OmniGen-AR,通过解耦因果注意力实现任意条件下的自回归生成;设计内容感知的动作特征适配器,为视频生成基模引入动作控制,研发首个视频动作编辑模型 MotionEditor。

1761557323541798.png

赵鑫老师授课

中国人民大学高瓴人工智能学院赵鑫教授主讲《深度推理模型技术探讨》报告,分享深度推理模型的基础技术与实现路径。报告围绕核心技术与应用展开多项探讨:分析强化学习起始模型的核心逻辑,提出强化学习是挖掘大模型既有知识、实现不确定性向效果转化的过程;解读 RL 训练算法在上升期与平台期的不同特性及应用策略,探讨数据集构建方法;在代码增强的代码编译器中,通过 SFT 为推理模型融入编译器功能,增加代码执行增强推理链,显著提升 Pass@k 指标。此外,还介绍了高效推理技术的改进方案、挑战性推理评测集合及其价值,以及智能体系统与相关应用等内容。

1761557201504050.png

朱鹏飞老师授课

天津大学智能与计算学部朱鹏飞教授主讲《低空环境智能感知关键技术及应用》报告,分享低空智能领域的前沿研究与实践成果。报告聚焦核心平台构建与技术突破:建立复杂环境协同感知数据平台 VisDrone、百城百景低空感知平台,创建反无人机小目标检测数据集,相关成果获国内外广泛应用。针对多模态动态协同感知、复杂环境低代价感知、智能无人集群协同感知与进化等技术难点,提出系列优化方案:通过局部 - 全局混合专家协同实现多模态动态融合,研发基于双向 Adapter 的多模态追踪模型;构建低空无人机视觉计算领域多平台兼容模型库,实现大小模型协同进化;搭建多机协同多目标追踪数据集及协同追踪框架,有效完善现有问题解决方案。

1761557154701102.png

刘禹良老师授课

华中科技大学人工智能与自动化学院刘禹良教授主讲《文档图像大模型及其在甲骨文考释中的应用》报告,分享甲骨文考释领域的前沿研究与技术创新。报告核心推出首个覆盖甲骨文专家破译全流程的辅助考释框架 AlphaOracle:通过拓片与摹本的自动检测与识别,实现字符级精准提取;结合大模型的字形分析与演化建模,生成多候选释读结果;借助上下文对齐与传世文献检索验证,构建跨越千年的考释证据链。此外,还介绍了文本识别领域的 MonkeyOCR 方法、Liquid 多模态统一自回归生成模型等最新研究进展。

本次讲习班,汇聚国内人工智能、计算机视觉、具身智能等领域的多位顶尖学者与专家,以系列报告的形式搭建了系统性的学术交流与知识传递平台。十二位专家围绕遥感图像抗干扰、视觉生成大模型优化、甲骨文考释智能辅助、低空环境感知等多元前沿方向,从技术原理、核心难题到实际应用展开深度分享,既带来基础研究的突破性成果,也传递了技术落地的实践经验,为参训学员提供了全方位的知识赋能。

1761557123251868.png


学员积极提问交流

讲习班现场学术氛围浓厚,参训学员与专家围绕技术细节、研究思路拓展、应用场景落地等问题积极提问互动,通过近距离交流碰撞出更多思维火花。



Copyright © 2025 中国图象图形学学会

京公网安备 11010802035643号 京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服