CSIG图像图形学科前沿讲习班—"多模态大模型"

时间:2024-08-02      来源: 中国图象图形学学会

640.jpg

7月31日-8月2日,2024年多模态大模型高峰论坛暨第29期CSIG图像图形学科前沿讲习班在北京成功举办,会议由中国图象图形学学会(CSIG)主办,中国图象图形学学会前沿科技论坛委员会承办。本次论坛设置主旨报告和讲习班,来自国内知名高校、研究机构和企业的专家160余人现场参加会议,线上参会达5万余人次,现场座无虚席、气氛热烈。

 图 1 会议现场

7月31日,2024年多模态大模型高峰论坛开幕式由重庆邮电大学校长、教授高新波主持,中国工程院院士、中国图象图形学学会理事长、湖南大学王耀南教授致辞,他对出席论坛的所有参会者表示感谢,并向大家介绍了本次论坛的主题和背景。图像图形技术的发展极大地拓宽了大模型在计算机视觉、跨模态推理等领域的应用边界,成为推动大模型技术创新与产业升级的关键力量。希望与会科技工作者充分交流,探讨多模态大模型的最新研究成果、技术挑战与未来趋势,共同促进多模态大模型技术的持续进步与广泛应用。

 图 2 王耀南院士致辞

开幕式上,举行中国图象图形学学会前沿科技论坛委员会授牌仪式。中国图象图形学学会副理事长兼秘书长、北京科技大学马惠敏教授分别为委员会主任委员吴飞教授、副主任委员彭宇新教授和殷绪成教授以及学术秘书徐婧林副教授、张圣宇研究员授牌。

 

 图 3 授牌仪式

马惠敏教授指出,本次高峰论坛暨讲习班的召开,既是积极响应国家四个面向战略需求,紧跟业内最前沿的热点难题,也可以发挥专家资源优势,形成学会的独特视角,搭建高端交流平台,为领域内的专家学者带来新的思考方向和研究助力,推动学科发展。

 图 4 马惠敏教授致辞

中国图象图形学学会理事、浙江大学吴飞教授代表前沿科技论坛委员会致辞,他首先对与会的专家学者、产业界同仁表示了热烈欢迎,并指出生成式人工智能、大模型是近年来的热点研究方向,希望与会同仁充分交流多模态大模型当前的进展、未来的趋势、面临的挑战,开启新的思考,并预祝会议圆满成功。

 图 5 吴飞教授致辞

论坛主旨报告环节,王耀南院士作了题为“多模态大模型助力新质生产力发展”的报告,报告介绍了多模态大模型的基本概念、关键技术原理及其在处理复杂、多样化数据方面的独特优势。并通过具体案例,展示多模态大模型在智能制造、人形机器人等领域带来的显著成效,进一步证明其在新质生产力发展中的重要作用。最后,展望多模态大模型技术未来的发展趋势,以及在新质生产力发展中可能扮演的更加重要的角色,为相关领域的决策者、研究者及从业者提供参考和启示。

 图 6 王耀南院士作报告

高新波教授作了题为“人工智能大模型的风险挑战与发展趋势”的报告,报告从人工智能的发展方向、当前面临的风险挑战,以及大模型的发展历程和未来发展趋势等方面作初步的分析,并简要介绍其团队在大模型方面做的应用研究,最后总结提炼本领域拟解决的关键问题。

 图 7 高新波教授作报告

吴飞教授作了题为“大语言模型:从通用基座到垂域赋能的实践和思考”的报告,报告介绍大模型训练过程中预训练、有监督微调和人在回路反馈等代表性算法,刻画“预训练模型+提示学习+预测”机器学习范式中计算为大、语言点金的特点。同时介绍智海系列垂直领域大模型三乐和录问等模型,对LLM&Agent等问题进行思考。

 图 8 吴飞教授作报告

中国图象图形学学会理事、会士、北京大学彭宇新教授作了题为“细粒度多模态大模型”的报告,报告从当前多模态大模型的局限性出发,介绍在细粒度多模态大模型相关领域的近期研究进展,包括细粒度视觉分析、多模态持续学习、异构任务适配、多模态AIGC等,并对细粒度多模态大模型面临的主要挑战与未来发展方向进行简要讨论与展望。

图 9 彭宇新教授作报告 

中国图象图形学学会常务理事、华南理工大学金连文教授作了题为“多模态大模型技术及其在OCR的应用”的报告,报告简要回顾近年来多模态大模型和光学文字识别(OCR)垂直领域大模型的代表性研究进展,介绍面向OCR领域的一些最新的垂直大模型和AGI模型的构建方法和技术路线,展示团队近期研发的多模态古籍智能对话“通古大模型”应用演示系统,并对OCR及CV领域多模态大模型发展趋势与未来研究方向进行讨论。

 图 10 金连文教授作报告

中国图象图形学学会理事、北京科技大学殷绪成教授作了题为“面向钢铁智能制造的感认知技术及工业多模态大模型展望”的报告,报告以钢铁智能制造为背景,介绍当前钢铁工业多模态数据智能感知、智能认知与智能决策相关的一些主要技术,并进一步探讨工业多模态大模型技术发展与可能的应用方向。

 图 11 殷绪成教授作报告

哈尔滨工业大学车万翔教授作了题为“从语言大模型到代码大模型”的报告,报告系统介绍语言大模型和代码大模型的基本概念、发展历程、技术原理以及应用场景。

 图 12 车万翔教授作报告

8月1日,召开第29期CSIG图像图形学科前沿讲习班,讲习班第一场报告,复旦大学黄萱菁教授作了题为“大模型对齐技术初探”的报告,报告聚焦大模型的能力与价值对齐问题,介绍复旦大学团队研发的对话式大模型和多模态大模型,以及如何将大模型有效应用于各类现实场景,如智能助手、多模态交互等。

 图 13 黄萱菁教授作报告

中国科学院自动化研究所李国齐研究员作了题为“类脑脉冲大模型架构和系统”的报告,报告介绍脉冲神经网络的模型、算法及其硬件部署以及基于类脑脉冲神经的大模型的科研进展。

 图 14 李国齐研究员作报告

清华大学朱军教授作了题为“扩散模型:不止于高维数据生成”的报告,介绍了基于扩散模型的高维数据生成、基于预训练扩散模型的鲁棒分类以及利用扩散模型的离线强化学习等内容。

 图 15 朱军教授作报告

深势科技洪燕辉研究员作了题为“AI赋能实验表征革新—探索深度学习在材料表征分析中的应用”的报告,介绍AI与图像结合的“非典型”但空间巨大的应用场景。探讨深度学习在处理大规模电镜数据集时的优势,包括提高分析速度和降低人工成本。

 图 16 洪燕辉研究员作报告

上海交通大学吴帆教授和浙江大学张圣宇研究员作了题为“大小模型端云协同智能计算”的报告,报告聚焦端云协同智能技术的发展脉络,分享其团队在端侧智能推理、大规模联合学习以及端云协同分布式智能支撑系统等方面的研究进展。

 图 17 吴帆教授作报告

 图 18 张圣宇研究员作报告

阿里云网络研究负责人翟恩南作了题为“面向大模型时代的万卡集群互联研究与关键技术”的报告,向大家介绍了其团队设计研发的专门针对大模型训练网络特征的新型数据中心网络 HPN 架构以及面向大模型多租训练的集合通信调度优化技术 Crux。

图 19 翟恩南工程师作报告 

8月2日,浙江大学上海高等研究院王永威研究员和上海人工智能实验室张铂研究员作了题为“多模态结构化文档理解与多模态大模型合成文档检测”的报告,报告回顾涵盖人工智能视觉合成内容、文本合成内容等不同模态的检测方法,特别是具有强泛化能力的零样本检测方法,介绍最新研究成果以及未来探索方向。

 图 20 王永威研究员作报告

 图 21 张铂研究员作报告

最后,复旦大学魏忠钰副教授和上海交通大学林洲汉副教授作了题为“从多模态联合预训练到多模态大语言模型:架构、训练、评测、趋势概览”的报告,介绍大视觉语言模型发展的三个阶段以及其课题组推出的多模态大模型评测基准(Reform-Eval)。

 图 22 魏忠钰副教授作报告

 图 23 林洲汉副教授作报告

本次会议三天日程满满,来自图像图形领域学术界、产业界同仁齐聚一堂,分享多模态大模型的最新技术进展和行业成果,并对多模态大模型的未来发展趋势进行展望与讨论。专家报告精彩、内容丰富,参会者和学员们踊跃提问、积极互动、收获颇丰,不仅加深了对多模态大模型的认知,还拓宽了视野和思维,为推动多模态大模型技术的持续进步与广泛应用贡献力量。

未命名.jpg

图 24 组委会为讲者颁发证书

  

 

 图 25 现场交流氛围热烈

 

 

 

 

 

 

 

 

 

Copyright © 2024 中国图象图形学学会

京公网安备 11010802035643号 京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服