时间:2025-09-23 来源: 中国图象图形学学会
一、 活动简介
多模态模型正逐渐成为人们对自然世界理解和交互的重要工具。虽然多模态理解模型取得了显著进展,但在复杂场景的分析推理方面仍有诸多技术挑战。近期,多态Hunyuan-Larqe-Vision上榜国际知名平台LMArena Vision,获得国内模型第一名,排名全球第5(去除风格控制赛道)的成绩。本次技术分享将解析混元多态团队的技术进展,拆解Large-Vlsion模型背后的核心技术,展望多态模型的未来发展方向。
二、 组织机构
主办单位
清华大学电子工程系
协办单位
中国图象图形学学会成像探测与感知专委会
三、活动时间及地点
时间:2025年9月25日16:00-17:30
地点:清华大学罗姆楼9-208
四、日程安排
16:00-17:00 特邀报告《多模态理解模型关键技术》
15:00-15:30 交流讨论
五、特邀讲者
饶永铭是腾讯混元团队的高级研究员,分别于2018年和2023年在清华大学电子工程系和自动化系获得工学学士和博士学位。主要研究方向为多模态大模型,在机器学习和模式识别方向CCF-A会议期刊上发表论文50余篇,论文谷歌学术引用1万余次。获得CCF-CV学术新锐奖、斯坦福全球Top2%科学家等荣誉。
六、报名及注册要求
面向首都高校在校学生,以学校为单位发邮件到zhangyd20@mails.tsinghua.edu.cn
七、联系方式
张宇东 zhangyd20@mails.tsinghua.edu.cn
张卫强 wqzhang@tsinghua.edu.cn
陈健生 jschen@ustb.edu.cn