第三十期CSIG文档图像分析与识别专业委员会学术微沙龙

学会新闻

第三十期CSIG文档图像分析与识别专业委员会学术微沙龙

时间：2024-11-11 来源：中国图象图形学学会

CSIG文档图像分析与识别专业委员会学术微沙龙（简称：文档图像微沙龙）在线学术报告会第三十期于2024年10月29日成功举行。本沙龙由中国图象图形学学会主办，文档图像分析与识别专委会发起承办，中国图象图形学报协办。本场活动邀请中国科学技术大学屈亚东博士分享报告：ViSu：一种基于观察与归纳的半监督场景文本识别方法。微沙龙活动在B站、蔻享学术、中国图像图形学报视频号、进行了同步直播，累计人气4000以上。

图片1.png

图片2.png

本场报告活动由中国科学技术大学博士生徐建军主持，中国科学技术大学博士生屈亚东做了题为“ViSu：一种基于观察与归纳的半监督场景文本识别方法”的学术报告。本报告首先展示了目前自然场景识别领域的瓶颈，通过对复杂字符难以识别的原因进行分析，从而引出本研究的动机。ViSu从观察与归纳两个方面展开研究：在观察阶段，采用Mean-Teacher网络框架引入无标注的真实数据进行训练，同时针对有标注的简单合成数据部分提出了在线生成策略，使模型从简单的训练数据中能够泛化出识别复杂字符的能力，进而提升半监督学习框架的性能上限。在归纳阶段，ViSu基于对比学习提出了字符单向对齐损失，从理论上修正了将部分正样本误认为负样本的公式误差，增强了模型对字符视觉形态的鲁棒性。大量实验验证了ViSu的优越性，在不引入人工标注的情况下，ViSu在多个公开测试集上都达到了SOTA，尤其在复杂数据集上提升显著。

报告论文：

[1] Yadong Qu, Yuxin Wang, Bangbang Zhou, Zixiao Wang, Hongtao Xie, and Yongdong Zhang. Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing. NeurIPS 2024 accepted.

本次报告会获得了良好效果，我们期待更多优秀青年学子在文档图像领域取得研究进展，并在后续的沙龙报告会中踊跃参与、共同进步！

错过直播的同学可以前往B站观看回放视频，链接：

https://www.bilibili.com/video/BV18MDhYiEYi/

或扫描二维码观看

京公网安备 11010802035643号京ICP备12009057号-1

地址：北京市海淀区中关村东路95号邮编：100190

技术支持：中科服

学会新闻

通知公告

活动预告

学会新闻

资讯分享

CSIG专访

第三十期CSIG文档图像分析与识别专业委员会学术微沙龙