CSIG图像图形学科前沿讲习班—“大模型时代的机器学习”

CSIG讲习班

CSIG图像图形学科前沿讲习班—“大模型时代的机器学习”

时间：2025-10-27 来源：中国图象图形学学会

2025年10月25日和26日，中国图象图形学学会（CSIG）讲习班--“大模型时代的机器学习”在武汉顺利举办。本次讲习班由中国图象图形学学会主办，CSIG机器视觉专委会、CSIG图像视频通信专委会、华中科技大学电子信息与通信学院承办。讲习班由大模型领域相关的专家学者领衔，以讲座形式展开。讲习班开幕式由华中科技大学王兴刚教授主持。讲习班学术主任、CSIG机器视觉专委会主任、大连理工大学卢湖川教授发表开班致辞，他在欢迎各位学者的同时，介绍了讲习班的核心内容，并表达了对活动顺利举行的殷切期望。CSIG常务理事、CSIG图像视频通信专委会主任、华中科技大学刘文予教授致辞，对远道而来的参会学者与学员表示热烈欢迎，介绍了本次讲习班的筹备背景与核心价值。

卢湖川主任致辞

刘文予主任致辞

活动现场

在为期两天的讲习班中，十二位专家学者依次登台授课，围绕大模型相关的多元研究方向展开深度分享，内容覆盖遥感图像智能解译、视觉生成大模型、具身智能、低空环境感知等多个前沿领域，既有基础理论的深度解析，也有技术落地的实践成果，为参训学员呈现了一场丰富的学术盛宴。

徐芳老师授课

武汉大学夏桂松教授团队徐芳老师主讲《云干扰下的遥感图像智能解译方法》报告，分享遥感抗云干扰技术前沿。团队通过三大关键技术实现突破：利用 SAR 雷达抗干扰特性引导图像恢复，以创新网络结构解决时间序列成像的质量依赖问题，引入二维地图先验知识简化语义分割任务。这些方法有效提升了遥感图像的质量与抗干扰性能。

贾旭老师授课

大连理工大学未来技术学院贾旭教授主讲《可控视觉生成大模型》报告，分享视觉生成大模型一致性优化的前沿进展。针对当前特效生成 “一模型一效果” 的局限，团队通过三大核心技术实现突破：构建统一结构框架，让单个大模型可适配多种特效生成需求；将目标追踪成果融入生成任务，以轨迹引导目标生成；结合目标与相机轨迹联合控制实现轨迹可控视频生成，强化时序一致性与运动控制；借助大语言模型依据物理世界规律生成场景提示词，在不新增数据的情况下优化物理约束效果。这些方法有效提升了生成内容的稳定性与可信度。

沈为老师授课

上海交通大学人工智能研究院沈为教授主讲《视觉基础模型的高效训练及运用》报告，分享视觉基础模型领域的研究前沿。报告重点介绍团队三项核心成果：提出基于视觉基础模型的三维万物分割方法，通过空间语义理解实现三维场景的精确分割；研发视觉基础模型高效微调技术，并落地应用于图像分割任务；推出含优化器 AdaMuon 在内的多模态大模型适配型视觉基础模型高效训练方案，可显著降低显存占用。

徐凯老师授课

国防科技大学徐凯教授主讲《世界模型驱动的具身智能》报告，分享世界模型在具身智能领域的应用前沿与研究动态。报告围绕具身智能核心痛点展开，先阐述世界模型在导航领域的应用场景及现阶段难点；针对仿真环境保真与迁移性能问题，通过物理仿真约束方法提升流水线中智能体的工作精度。同时介绍三项核心技术创新：提出扩散模型 ADM，将正向图像 - 噪声映射转化为图像 - 零映射与零 - 噪声映射，以更少扩散步骤实现高质量生成；构建物理化世界模型 PIN-WM，可从视觉观察中识别刚体物理参数，借助可微分物理与渲染实现高效系统识别；引入 Identified Digital Cousins 技术，通过扰动物理与渲染参数生成多样化有意义变化，强化策略转移能力。

刘日升老师授课

大连理工大学软件学院刘日升教授主讲《大模型时代弱观测》报告，分享弱观测领域的数学建模方法与核心技术突破。报告先介绍弱观测信息的数学建模核心内容，包括弱感知下的多传感器传输映射、跨模态信息传输映射的搭建与度量等。团队带来三项关键成果：提出通用收敛准则，证明可微动态系统双层优化框架下的收敛性，阐明经典计算策略在多解条件下失效的根本原因，研发外层梯度校准数值计算新技术；针对弱观测成像重建反问题，通过模型驱动解域建模，提出任务与先验协同网络搜索框架；建立先验嵌入与任务保真的协同训练策略，实现低光增强任务的自适应成像建模。

董超老师授课

中国科学院深圳先进技术研究院董超研究员主讲《大模型时代的底层视觉研究》报告，分享多模态大模型在图片修复等底层视觉任务中的前沿进展。报告聚焦图像处理核心痛点，提出多项创新方案：复原前先解析图像内容语义，有效规避细节错误生成问题；研发 HYPIR 网络，融合 Diffusion 模型与 GAN 训练模式，既借助预训练 Diffusion 实现快速收敛、单步恢复，又支持提示词手动指定生成细节，高效适配图像恢复与超分辨率任务；引入大语言模型的图片理解能力，指导图像恢复过程，探索纯 LLM 模型解决图像恢复任务的可行性。

李鸿升老师授课

香港中文大学多媒体实验室李鸿升教授主讲《面向计算机视觉应用的多模态大模型发展趋势与应用背景》报告，分享多模态大模型在视觉应用领域的最新研究进展。报告围绕核心技术创新与应用探索展开：构建 Visual CoT 数据集，搭建多轮视觉推理框架并提供基准测试；在此基础上推出三项关键方案 —— 适配图像生成任务的奖励模型 PARM、空间信息思维链端到端框架、语义级别与令牌级别思维链联合生成框架，均有效增强图像生成效果。同时，报告还介绍了生成与理解统一多模态大模型、多模态大模型小型化与高效化及相关应用方向的研究工作。

魏云超老师授课

北京交通大学计算机学院魏云超教授主讲《视觉智能推理技术发展与关键挑战》报告，分享视觉智能领域的最新进展与核心突破。报告聚焦 “模型从单点理解到系统性推理” 的核心目标，通过多项数据集构建与技术创新推动领域发展：设计意图导向微调数据集；搭建复杂空间推理与多图推理基准测试、首个室内场景 3D 空间理解大规模 VQA 数据集；构建多目标推理分割 MUSE 数据集，适配多物体细粒度分割推理需求；研发反思数据集，借助思维链强化学习赋予大模型跳出提问陷阱的能力；挖掘视频中复杂推理规划知识，让模型从海量视频中习得规划、推理与决策能力，实现长程一致性保持。

吴祖煊老师授课

复旦大学智能机器人与先进制造创新学院吴祖煊研究员主讲《视频生成与编辑》报告，分享该领域的最新研究进展与核心技术突破。报告聚焦视频生成与编辑的关键需求，推出多项创新方案：提出关键帧引导的高压缩比视频分词 Reducio，以关键帧为条件辅助视频重建，达成当前最优重建效果；研发 SimDA 技术，在预训练文生图模型基础上仅微调时序注意力模块，实现轻量化视频生成；打造 StableAvator，构建首个支持无限时长的数字人生成模型，可在不损失一致性的前提下生成数小时视频；提出 OmniGen-AR，通过解耦因果注意力实现任意条件下的自回归生成；设计内容感知的动作特征适配器，为视频生成基模引入动作控制，研发首个视频动作编辑模型 MotionEditor。

赵鑫老师授课

中国人民大学高瓴人工智能学院赵鑫教授主讲《深度推理模型技术探讨》报告，分享深度推理模型的基础技术与实现路径。报告围绕核心技术与应用展开多项探讨：分析强化学习起始模型的核心逻辑，提出强化学习是挖掘大模型既有知识、实现不确定性向效果转化的过程；解读 RL 训练算法在上升期与平台期的不同特性及应用策略，探讨数据集构建方法；在代码增强的代码编译器中，通过 SFT 为推理模型融入编译器功能，增加代码执行增强推理链，显著提升 Pass@k 指标。此外，还介绍了高效推理技术的改进方案、挑战性推理评测集合及其价值，以及智能体系统与相关应用等内容。

朱鹏飞老师授课

天津大学智能与计算学部朱鹏飞教授主讲《低空环境智能感知关键技术及应用》报告，分享低空智能领域的前沿研究与实践成果。报告聚焦核心平台构建与技术突破：建立复杂环境协同感知数据平台 VisDrone、百城百景低空感知平台，创建反无人机小目标检测数据集，相关成果获国内外广泛应用。针对多模态动态协同感知、复杂环境低代价感知、智能无人集群协同感知与进化等技术难点，提出系列优化方案：通过局部 - 全局混合专家协同实现多模态动态融合，研发基于双向 Adapter 的多模态追踪模型；构建低空无人机视觉计算领域多平台兼容模型库，实现大小模型协同进化；搭建多机协同多目标追踪数据集及协同追踪框架，有效完善现有问题解决方案。

刘禹良老师授课

华中科技大学人工智能与自动化学院刘禹良教授主讲《文档图像大模型及其在甲骨文考释中的应用》报告，分享甲骨文考释领域的前沿研究与技术创新。报告核心推出首个覆盖甲骨文专家破译全流程的辅助考释框架 AlphaOracle：通过拓片与摹本的自动检测与识别，实现字符级精准提取；结合大模型的字形分析与演化建模，生成多候选释读结果；借助上下文对齐与传世文献检索验证，构建跨越千年的考释证据链。此外，还介绍了文本识别领域的 MonkeyOCR 方法、Liquid 多模态统一自回归生成模型等最新研究进展。

本次讲习班，汇聚国内人工智能、计算机视觉、具身智能等领域的多位顶尖学者与专家，以系列报告的形式搭建了系统性的学术交流与知识传递平台。十二位专家围绕遥感图像抗干扰、视觉生成大模型优化、甲骨文考释智能辅助、低空环境感知等多元前沿方向，从技术原理、核心难题到实际应用展开深度分享，既带来基础研究的突破性成果，也传递了技术落地的实践经验，为参训学员提供了全方位的知识赋能。

学员积极提问交流

讲习班现场学术氛围浓厚，参训学员与专家围绕技术细节、研究思路拓展、应用场景落地等问题积极提问互动，通过近距离交流碰撞出更多思维火花。

京公网安备 11010802035643号京ICP备12009057号-1

地址：北京市海淀区中关村东路95号邮编：100190

技术支持：中科服

CSIG讲习班

活动日历

中国图象图形大会

国际图象图形学学术会议

CSIG高峰论坛

CSIG讲习班

CSIG中国行

CSIG云讲堂

CSIG理事荟

名家面对面

学生会员分享论坛

CSIG企业行

CSIG挑战赛

分支机构学术活动

CSIG图像图形学科前沿讲习班—“大模型时代的机器学习”