时间:2025-08-01 来源: 中国图象图形学学会
2025年7月26-27日,由中国图象图形学学会(CSIG)主办,浙江大学、中国科学技术大学、山东财经大学承办,CSIG数字娱乐与智能生成专业委员会协办的第34期CSIG图像图形学科前沿讲习班在甘肃省兰州市如意华玺酒店举办。本期讲习班主题为“生成式智能体:从数字创造到物理具身的技术跃迁”,由浙江大学杨易教授、中国科学技术大学常晓军教授、山东财经大学刘慧教授、中国科学院自动化研究所程龙研究员、大连理工大学杨鑫教授担任学术主任。来自中山大学、山东大学、兰州大学、山东省人工智能研究院等多个单位的60多名教师、学生参加讲习班,现场气氛热烈。
讲习班现场
7月26日上午,讲习班学术主任、CSIG数字娱乐与智能生成专业委员会主任杨易教授发表开班致辞。他对来自全国各地的报告嘉宾和参会者对本次活动的支持表示由衷感谢,并希望各位科技工作者能够在为期两天的学习与交流中满载收获,不虚此行。
学术主任杨易教授致辞
接下来,西北工业大学刘准钆教授作了题为《多源融合目标检测跟踪识别》的专题报告。刘教授首先从多源信息融合的基本概念出发,介绍了在复杂环境下实现多模态数据协同感知的重要性与迫切需求,阐述了该技术在智能监控、无人系统、航空航天等领域的广泛应用前景。随后,他系统梳理了当前目标检测、跟踪与识别的研究现状,分析了单一模态感知在环境干扰、遮挡、光照变化等情况下的局限性,并重点讲解了通过多源信息融合实现鲁棒感知的关键技术路线,包括特征对齐、时空信息关联建模以及跨模态信息协同优化等核心方法。报告中,刘教授结合团队近年来在多源融合算法设计、跨平台感知系统构建及实际工程应用方面的最新研究成果,展示了多项典型案例和实验结果,充分展现了多源信息融合在提升目标检测和跟踪识别精度、实时性和稳定性方面的巨大潜力。最后,他对该领域未来的发展趋势进行了展望,提出了若干值得深入探索的科学问题,并与现场参会专家学者进行了热烈的互动交流,分享了在多源融合感知系统研发中的经验和思考,为与会者带来了丰富的启发和宝贵的参考。
刘准钆教授作报告
随后,中国海洋大学蔡青副教授作了题为《医学影像智能分析及应用》的专题报告。蔡副教授首先从医学影像数据的特点和在临床诊断中的重要作用谈起,指出当前医学影像分析在病灶检测、病理分型和治疗效果评估等方面仍面临海量数据难以高效处理、分析结果依赖人工经验、诊断精度和一致性有待提升等挑战。围绕这些问题,她介绍了人工智能,特别是深度学习技术在医学影像智能分析中的前沿研究进展,包括图像分割、三维重建、病灶自动识别、多模态影像融合、辅助诊断预测等核心方法。在报告中,蔡副教授详细展示了其团队近年来在医疗影像算法设计和临床应用中的系列成果,例如基于多尺度卷积网络的肿瘤自动检测框架、面向早期疾病筛查的多模态影像联合建模技术,以及结合知识图谱提升诊断可解释性的方法。她还通过多个真实临床案例,演示了这些智能分析技术在疾病早期发现、手术规划和个性化治疗方案制定等方面的实际应用价值。最后,蔡副教授对医学影像智能分析未来的发展趋势进行了展望,提出了亟需突破的大模型泛化能力、跨中心数据共享与隐私保护等关键科学问题,并希望通过学术界与医疗机构的深度合作,加速智能医学影像技术的落地转化,推动精准医疗的发展。
蔡青副教授作报告
接下来,湖南大学张辉教授团队成员曹云康助理教授作了题为《工业视觉检测:基础、前沿与案例》的报告。曹老师从工业视觉检测的整体流程出发,介绍了成像设计、数据处理、检测算法到系统部署的关键环节,重点分析了传统方法与深度学习技术在实际工业场景中的优势互补关系。他详细阐述了小样本学习、无监督异常检测、多模态信息融合、轻量化推理加速等前沿技术在复杂工况下提升检测精度和鲁棒性的最新进展。报告中,曹老师结合团队在锂电极片、半导体晶圆、汽车零部件等典型案例中的研究和工程实践,展示了通过算法优化和系统改造实现检测效率与良率显著提升的成果,并对工业视觉检测未来的发展趋势进行了展望,包括大模型驱动的少样本泛化、可控合成数据生成及标准化工业视觉平台建设等方向。
曹云康助理教授作报告
随后,武汉大学武宇教授作了题为《AIGC图像生成:从扩散模型到统一模型》的报告。武教授首先回顾了图像生成技术的发展历程,从早期的生成对抗网络(GAN)到近年来迅速崛起的扩散模型,详细剖析了扩散模型在生成质量、可控性、多样性方面取得的关键突破及其在文本到图像、图像修复、风格迁移等任务中的广泛应用。 接着,他重点介绍了统一生成模型(Unified Generative Models)的最新研究进展,阐述了其在多模态条件建模、跨任务统一架构设计、可扩展训练范式等方面的优势,能够在同一框架下实现图像生成、编辑、合成和重构等多种功能。武教授还结合团队的研究成果,展示了在高分辨率图像合成、细粒度可控生成以及多模态输入条件下的跨域图像生成等方面的创新方法和实验案例,直观呈现了统一模型在提升生成质量与跨任务适应能力方面的巨大潜力。 最后,武教授对AIGC图像生成技术的未来趋势进行了展望,指出下一步的重点方向包括通用多模态生成大模型的构建、生成内容真实性与可控性保障、与三维重建和视频生成的融合发展等。他表示,希望通过跨学科合作推动AIGC技术的理论创新与应用落地,为内容创作、数字媒体、虚拟现实等领域带来更加智能化和高效的解决方案。
武宇教授作报告
7月27日,来自香港大学的齐晓娟助理教授作了题为《三维空间智能:从感知到理解与创造》的报告。她首先从多视几何与传感器融合出发,系统梳理了三维感知的关键环节,包括多视图重建、稠密/稀疏匹配、SLAM/定位建图、深度估计与表征学习等基础技术,并对NeRF、三维高斯点(3D Gaussian Splatting)等新型隐式/显式表示在真实场景建模中的优势与瓶颈进行了对比分析。围绕“理解”,齐老师介绍了基于场景图与语义分割的结构化理解、可供性(affordance)与物体功能推断、跨模态对齐(语言‑视觉‑几何)等前沿方向,展示了在室内外复杂环境中实现目标级别到场景级别语义推理的研究进展。面向“创造”,她重点阐述了生成式三维内容的最新探索,包括文本到3D/多视到3D的扩散模型框架、可编辑可控的场景生成、动态四维(4D)场景重建与渲染,以及与物理约束、可微渲染结合以提升真实性与可交互性的技术路径。 在工程与应用层面,报告给出了三维空间智能在机器人自主导航与操作、AR/VR/MR交互、数字孪生与智能制造、文旅与文物数字化等场景中的系统化落地实践,强调数据治理、基准评测与实时性能之间的权衡。齐老师结合团队工作分享了在跨传感器融合(RGB‑D、事件相机、激光雷达)、轻量化加速(稀疏计算、分块优化、边缘侧部署)和跨域泛化(不同光照/材质/尺度条件下的稳健性)方面的经验与结果。最后,她展望了三维空间智能的未来方向:面向开放世界的通用空间大模型、从几何到物理与因果的统一表征学习、具身智能中“感知‑理解‑决策‑创造”的闭环协同,以及数据隐私与安全、标准化接口与可复现评测等长期挑战,并与参会者就实时性、可解释性与可扩展性问题进行了深入交流。
齐晓娟助理教授作报告
接着,来自中山大学的苗嘉旭副教授作了题为《视觉生成模型的隐私安全》的报告。苗教授首先介绍了生成式视觉模型(如GAN、扩散模型、图像到图像翻译模型等)在图像生成、内容创作和视觉理解等领域的快速发展与广泛应用,同时指出这些模型在训练和使用过程中可能带来的隐私风险,包括训练数据泄露、成员推断攻击、模型反演攻击以及合成内容的可追溯性问题。随后,他系统梳理了当前隐私安全研究的主要方向与技术手段,包括差分隐私保护、联邦学习与去中心化训练、对抗防御策略、可控内容生成与水印技术,以及安全评估指标体系的构建。他结合团队近年来在生成式模型隐私保护方面的研究成果,展示了通过引入噪声扰动、隐私预算分配、自适应参数裁剪等方法有效缓解数据泄露风险的最新进展,同时提出了针对深度伪造检测、可溯源内容生成和合规性审查等关键问题的创新解决方案。在实际应用层面,苗教授介绍了这些技术在医疗图像生成、智能监控、社交媒体内容创作等高敏感度领域的实践案例,分析了隐私保护与生成质量、模型性能之间的平衡问题。最后,他展望了生成式视觉模型隐私安全未来的发展趋势,包括面向多模态大模型的隐私安全框架构建、可信生成内容标准制定、可验证防护机制设计等方向,并呼吁学术界与产业界加强合作,共同推动安全、可控、可信赖的生成式视觉技术健康发展。
苗嘉旭副教授作报告
然后,中科院自动化所申抒含研究员作了题为《基于图像的大规模场景三维重建:A 10-Year Trip》的报告。申研究员首先回顾了过去十年来图像驱动的大规模三维重建技术的发展历程,从早期的基于多视几何和稀疏特征点匹配的经典方法,到引入深度学习、神经渲染和隐式场表示的新一代重建框架,全面梳理了该领域核心技术的演进脉络和关键突破。她重点分析了大规模重建中数据规模庞大、视角稀疏、光照和遮挡复杂、计算成本高等技术瓶颈,并介绍了团队在稠密重建、增量式重建优化、跨视图深度预测、语义辅助重建以及神经辐射场(NeRF)等方向的创新工作。 在报告中,申研究员展示了团队在城市级别三维建模、无人驾驶感知地图构建、文化遗产数字化、虚拟现实与增强现实等应用场景中的研究成果和工程实践案例,尤其是在提高重建精度、效率、鲁棒性和可扩展性方面的探索经验。她还分享了与业界合作推动大规模三维重建落地的思路,包括基于云端计算平台的并行加速、数据质量控制和可扩展管线设计。最后,申研究员对未来的发展趋势进行了展望,指出面向开放世界场景的三维重建将进一步迈向端到端学习框架、融合多模态传感信息、实现动态四维建模和可交互场景生成,并呼吁学术界、产业界共同推动构建高精度、可更新、可复用的下一代三维重建技术生态。
申抒含研究员作报告
其后,同济大学赵生捷教授作了题为《后大模型时代高效推理的技术革新与产业实践》的报告。赵教授首先从大模型快速发展的背景出发,指出随着参数规模持续扩张,推理阶段计算资源消耗巨大、延迟高昂、能耗压力大等问题日益凸显,成为制约大模型实际落地应用的关键瓶颈。他回顾了近几年业界在高效推理方向的主要技术进展,包括模型剪枝、低比特量化、知识蒸馏、稀疏激活、算子优化、硬件协同加速等方法,并结合开源框架与工业实践对其效果和适用场景进行了系统对比分析。随后,赵教授重点介绍了其团队在面向后大模型时代高效推理方面的最新研究成果,包括跨层结构重构、动态推理图优化、自适应计算分配、异构算力调度等创新技术,以及针对大语言模型、多模态大模型在云端与边缘端部署场景下的实测优化方案。他通过多个工业案例,展示了在智能客服、自动驾驶感知、工业质检、实时多模态交互等应用中,通过技术革新将推理时延显著降低、功耗减少、硬件利用率提升的工程成效。最后,赵教授对未来高效推理的发展趋势进行了展望,提出后大模型时代需要面向通用性、可扩展性和绿色低碳计算的整体优化方案,推动算法、架构与硬件的协同设计,实现大模型技术真正的规模化、安全化、可持续应用。他呼吁学术界与产业界加强合作,共同探索后大模型时代智能计算基础设施的新范式。
赵生捷教授作报告
最后,在主题为“多模态生成与认知推理:通向具身智能的基础能力”的panel环节,中科院自动化所张文生研究员、李兵研究员、程龙研究员,哈尔滨工业大学(深圳)王耀威教授,浙江大学肖俊教授,青海师范大学郑钰辉教授,大连理工大学杨鑫教授,华中科技大学桑农教授等嘉宾围绕多模态表征、世界模型、推理机制与具身闭环等关键议题展开了深入讨论。与谈嘉宾首先从“感知—表征—推理—行动”的链路出发,剖析了多模态生成模型在跨模态对齐、可控生成与知识注入中的机理与挑战,指出仅依赖静态数据的离线对齐难以支撑具身智能的实时决策,亟需在交互数据、任务反馈与环境约束中学习“可用的表征”。在此基础上,大家对“世界模型+策略学习”的统一范式进行了探讨:一方面利用生成模型构建可预测、可编辑的环境动态;另一方面引入工具使用(tool-use)、外部记忆(memory)与因果建模提升长时序推理与任务泛化能力。在模型与系统层面,专家们就大模型轻量化与低时延推理、感知—决策—控制的端到端优化、以及从模拟到真实(sim‑to‑real)的迁移策略分享了最新实践经验。讨论聚焦于三类痛点:其一是对齐与可控性——如何在语言、视觉、动作三者之间实现稳健的指令对齐与安全约束;其二是数据与评测——如何构建覆盖开放场景的多模态交互数据集与可复现的具身任务基准,度量生成质量、推理正确性与任务成功率的统一指标体系;其三是工程落地——在算力受限的边缘端实现低功耗、低时延的在线学习与自适应更新。围绕这些问题,嘉宾提出了若干可操作路径:以任务为中心的数据治理与合成数据增强,结合检索增强与符号/约束求解提升可解释推理,引入安全红队与对抗评测完善内容与行为的合规边界,以及通过模块化接口实现感知、规划与控制组件的可插拔集成。互动环节中,现场问题集中在机器人多模态交互、工业质检与数字人内容生产的应用前景。嘉宾普遍认为,短期内应优先推进“可控生成+结构化推理”的协同,建立小闭环、快试错的验证方式;中期目标是打造可迁移的通用空间/任务表征与标准化评测平台;长期则迈向具身智能的自监督生命周期学习与安全可信的部署框架。圆桌在对“开放数据、开源工具链与产学协同”的倡议中结束,为多模态生成与认知推理面向真实世界的规模化落地指明了清晰路径。
panel环节