时间:2025-04-01 来源: 中国图象图形学学会
2025年3月31日,由中国图象图形学学会(CSIG)主办,CSIG优博俱乐部、会员工委会、青工委、武汉会员活动中心承办的第十五期学生会员分享论坛在线成功举办。论坛由华中科技大学刘禹良研究员主持,邀请4位优秀硕、博生作学术报告,并邀请4位评议嘉宾对研究工作做出点评并解惑,共同围绕研究生学术生涯的热点话题进行探讨。
图 1 合影
南京理工大学博士生沈飞作题为“A Unified Conditional Framework for Pose-Guided Person Generation”的报告。中山大学胡建芳教授对沈飞同学的报告进行了细致点评,胡老师肯定了其在人物生成研究中的创新探索,尤其是在姿态引导控制方面的建模策略,以及对“人物生成是否可实现姿态-语义解耦”的深入思考。特别是在提出的IMAGPose生成框架中,展现出强烈的问题意识与清晰的模块划分思路。但同时指出当前生成质量在细节复原和衣物边缘融合方面仍有优化空间。姿态作为控制条件,其表达能力与歧义性会对最终生成效果产生显著影响。人物生成作为AIGC中的重要分支,未来或将从静态控制逐步演进为多模态、多轮交互驱动的动态生成机制,最终实现更具个性化与一致性的拟人化表达能力。
图 2 南京理工大学博士生沈飞作报告
北京大学博士生张启作题为“面向机器视觉的感知编码”的报告,上海交通大学鲁国老师对张启同学的报告进行了点评。首先讨论了机器满意比预测模型在不同编码失真上的泛化性问题,特别是在使用感知损失训练的端到端编码器上所产生的失真上,机器视觉系统的感知结果可能与人类视觉系统表现出更多的不一致,需要进一步挖掘二者的相关性。然后讨论了在编码器保持固定的情况下、对任务模型进行微调使其更好地适应编码失真的可能性,根据一些探索性的研究,这种方案可能会遇到在不同失真等级上泛化性受限、或者微调失败的问题。最后,探索了面向机器视觉的编码方法的应用场景问题,张启同学认为,在目前的端云架构下,应用端将视觉数据传输至云端部署的多模态大模型进行分析的过程中,就会涉及到编码压缩的问题,可能将成为一个典型的应用场景。
图 3 北京大学博士生张启作报告
香港城市大学博士生刘毅作题为“On Safety of Multimodal Large Language Models”的报告。武汉大学的李祖超教授对刘毅同学的报告进行了全面且细致的点评,认为刘毅同学所做的报告深入浅出地剖析了当前多模态大语言模型的安全性,特别是对当前红队方法进行了梳理和详细的总结。此外,刘毅同学所在的研究团队还提出了一种基于好奇心驱动的红队模型,对现有商用和开源多模态大语言模型进行了全面的安全性评估。李老师还提出了进一步的问题与建议,双方就未来如何设计更加安全的多模态大语言模型以及架构展开了深入的讨论。李老师期待刘同学的工作未来能够在大模型安全理论深度上进一步挖掘,同时期待刘同学能够设计更加安全的大模型结构,以保障未来新兴应用开发与部署的安全性。
图 4 香港城市大学博士生刘毅作报告
华中科技大学硕士生李长智作题为“Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models”的报告。香港中文大学的王文海博士后对李长同学的报告进行了全面而深入的点评,认为李长同学所做的研究具有较大的影响力和切实的意义,从如何提高多模态大模型的输入分辨率出发,有效提升了多模态大模型的细节理解能力。王老师还提出了进一步的问题与建议,双方对高分辨率多模态大模型的发展方向以及多模态大模型在OCR方面的应用进行了讨论和交流。王老师期待李同学的研究能够进一步拓展应用,推动多模态大模型在更多领域和任务中的实践落地。
图 5 华中科技大学硕士生李长作报告
图 6 panel交流讨论
Panel环节由华中科技大学刘禹良主持,点评专家和报告人共同围绕研究生生涯中热点话题进行了经验分享。直播间互动频繁,气氛热烈。通过此次活动,促进了博士生之间的学术交流、有助于学术视野的开拓以及创新思维的酝酿。参会的学生们纷纷表示在此次活动中收获颇丰、受益匪浅。