时间:2025-04-23 来源: 中国图象图形学学会
嘉宾介绍
李瑞瑞,北京化工大学副教授、国家健康医疗大数据研究院兼职教授、青年领军人才、北京市优秀指导老师。2014年博士毕业于清华大学计算机科学专业。主要研究方向为医学多模态数据分析、鲁棒学习、知识图谱等,已发表CCF会议、IEEE Trans等论文二十余篇,包括IEEE TMI、IEEE TGRS、 ISPRS、CVPR、ICPR、ICME等期刊和会议论文,被同行引用数千次。主持或作为骨干参与国家自然科学基金、科技部重点研发项目10余项,授权发明专利20余项,相关成果曾获得吴文俊人工智能技术发明二等奖,自动化学会自然科学一等奖等。担任IJITS期刊编委;nature scientific reports、TMI、TNNLS、knowledge system、PR等期刊审稿人;PRICAI、ICPR、AAAI、IJCAI、ECCV等国际会议的Session chair或PC member。
报告介绍
报告题目:多模态视觉语言模型测试时自适应
报告摘要:近年来,计算机视觉与自然语言处理技术的融合发展推动了多模态视觉语言模型(如CLIP)的突破性进展,其在零样本分类等任务中展现出卓越性能。然而,实际部署场景中存在的数据分布偏移和标注稀缺等问题,严重制约了模型的泛化能力。为此,测试时自适应(Test-Time Adaptation, TTA)技术应运而生,成为提升模型动态适应能力的研究焦点。本报告围绕多模态视觉语言模型的记忆增强型测试时自适应方法展开深入研究,重点突破以下三个关键问题:(1)针对零样本适应过程中记忆特征存在的噪声干扰,提出基于高斯决策理论的鲁棒自适应机制;(2)针对动态测试环境中的分布偏移问题,建立基于视觉-语言双模态原型协同进化的适应方法;(3)针对视觉原型表征失准的瓶颈问题,设计多记忆融合的层次化优化策略。通过系统性解决这些核心挑战,本研究为提升视觉语言模型在开放环境中的适应性能提供了创新性解决方案。
直播信息
直播时间
4月29日(星期二)19:00-20:00
腾讯会议室
会议号:784-5244-3587
请添加会议官方微信:CSIG_1990,备注“云讲堂+会员号+姓名”获取入群邀请