CSIG图像视频通信专委会“青年学者沙龙”（第三期）成功举办

分支机构学术活动

CSIG图像视频通信专委会“青年学者沙龙”（第三期）成功举办

时间：2024-02-12 来源：中国图象图形学学会

CSIG图像视频通信专业委员会“青年学者沙龙”在线学术报告会（第三期）于2024年2月1日成功举办，该活动由CSIG图像视频通信专业委员会承办，中国图象图形学报协办。本次学术报告会邀请到了大连理工大学副教授王立君老师，报告题目为“多模态多任务通用视觉感知”，报告会在中国图象图形学报视频号、B站（图图Seminar）、蔻享学术三个直播平台进行同步直播。

本次报告会由华中科技大学王兴刚教授担任主持人。在报告会开场环节，作为CSIG图像视频通信专委会委员兼机器视觉专委会委员，王兴刚老师首先介绍了中国图像图形学报以及相关系列活动，鼓励广大青年学者积极参与沙龙活动与论文投稿。接着，王兴刚老师详细而又清晰地介绍了本次汇报人王立君老师，让听众对于汇报人有了更加准确的认识。最后，作为本次报告会的主持人，王兴刚老师也对本次报告分享进行了简洁的介绍。

报告主持人王兴刚老师介绍本次分享主题

在报告环节，王立君老师首先对通用多模态视觉大模型的特点与研究思路进行了介绍，这类模型的重要特点是能够整合多种模态的数据输入，并展现广泛的通用性和灵活性，以应对多种视觉任务挑战。然后，王立君老师结合现代多种先进的多模态视觉大模型进行了分类与讲解，例如基于序列化输出的视觉通用模型输出采用离散化序列表征，无需针对特定任务定制化调整模型结构；基于统一I/O空间的通用模型则采用VQ-VAE对逐像素输出（分割、深度估计）进行离散序列化编码，等等。接着，王立君老师还提到了一系列与SAM和SEEM框架相关的下游应用，这些应用涵盖了从图像分割到视频分割、绘画、医疗图像分析、三维重建等多种视觉应用场景。最后，王立君深入而又清晰地介绍在RGB-D显著物体检测的多视图融合技术、RGB-D追踪新数据集创建，以及深度感知全景分割算法等方面的研究成果。在之后的讨论交流环节，在线参与本次学术报告会的专家学者提出了多个专业问题，王立君老师对这些问题逐一进行了解答，本次报告会取得圆满成功。