时间:2022-09-27 来源: 中国图象图形学学会
王亮研究员是中国图象图形学学会的副理事长、国际电子电气工程师学会会士(IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。曾主持国家杰出青年科学基金、国家重点研发计划项目等,入选国家第四批万人计划科技创新领军人才,获得第十四届中国青年科技奖。主要从事计算机视觉、模式识别、机器学习、数据挖掘等领域的研究,在远距离行人检测与识别、视觉-语言理解、时序数据建模等方面取得了一系列研究成果,突破了跨视角、小样本、低分辨率等核心技术难题,与华为、腾讯、京东、高德等知名企业进行技术研发或应用合作。已孵化银河水滴科技(北京)有限责任公司,创造了良好的社会和经济效益。
2022年8月30日,受中国图象图形学学会委托,学会成员黄岩副研究员线下采访了王亮研究员,以下为访谈的主要内容。
问题1:您团队的主要研究方向是什么?可以介绍下最具有代表性的研究成果吗?
我的团队隶属于智能感知与计算研究中心四大主要研究方向之一,即“多模态智能计算”,主要针对文本、图像、视频等多模态数据,开展模式识别、计算机视觉、机器学习、数据挖掘等方向的理论及应用研究,主要包括:(1)多模态智能监控:面向海量监控视频的智能分析需求,研究大范围复杂场景中的目标检测与跟踪、行人属性与身份识别、行为分析与事件识别等关键技术,解决国家公共安全中海量目标检索、异常检测等难点问题。(2)网络多模态数据挖掘:面向公共安全和企业应用的实际需求,研究多模态大数据的时序预测、情境建模、用户画像、事实验证等核心问题,服务国家网络信息安全和商业智能场景应用。(3)多模态学习及智能分析:面向复杂场景多模态语义理解现实需求,研究认知机理启发的多模态数据融合、对齐、生成等关键技术,突破语义表示弱、结构推理难、关联标注少等核心难题,服务于无人自主平台的多模态交互场景等应用。
团队最具有代表性的研究成果之一,是远距离行人检测与识别,即步态识别。大家或许很少听说步态识别这个概念,但是相信大家在生活中早已用过步态识别。例如,我们经常在远处还未来得及看清对方面孔时,就能通过走路姿态辨别出自己熟悉的亲朋好友。我们在2000年就开始步态识别研究,截止目前已经取得了多个 “第一”,包括:发表了国际上第一篇关于步态识别的国际顶级期刊TPAMI文章;创建国际上第一个多视角步态识别数据库(CASIA-A);培养了中国第一位步态识别博士;第一次在模式识别国际大会(ICPR)上举办步态识别讲习班;创立了国际上第一家步态识别公司(银河水滴)等。
步态识别目前是远距离复杂场景下几乎唯一可用于身份识别的生物特征识别技术。相比人脸、虹膜等生物特征,具有以下优点:(1)适用距离广,普通高清摄像机下可达50米;(2)全视角,无需配合,360度行人均可识别;(3)抗干扰,不受面部化妆与遮挡等影响,对光照变化相对鲁棒。
在研究过程中,我们遇到了很多现实难题。首先,最初国际上的步态识别研究工作很少,可以参考的资料几乎没有。其次,缺少一定规模的公开步态数据库,无法顺利开展实验。在这种情况下,想在步态识别方向做出成果,难度可想而知。我们凭着一股韧劲,选择自己构建步态数据库,从零开始钻研算法。在不懈的努力下,早期提出了一种基于人体剪影分析的步态识别方法,发表在了国际顶级期刊TPAMI上,这也是该期刊收录的第一篇步态识别研究论文。俗话说的好,万事开头难,当我们迈出了成功的第一步,很快我们又提出许多新的步态识别方法,相继发表在图像处理国际顶级期刊TIP及计算机视觉顶级会议ICCV、ECCV等。在深度学习技术刚刚兴起之时,团队的吴子丰博士便率先将深度学习引入到步态识别中,在跨视角步态识别方面取得突破,提高了30%的准确率,该项研究成果再次发表在TPAMI上,近期介绍我们创建的CASIA-E步态数据集及系统算法评估的论文再一次被TPAMI接收。一项研究成果从实验室走向实用需要历经很多阶段,我们用了超过17年的长期不懈努力才初步完成了步态识别技术的产业化落地。2016年,我们尝试将步态识别技术进行产业化,成立了银河水滴科技(北京)有限公司。目前步态识别技术已广泛部署到安防刑侦第一线,产生了良好的社会和经济价值。
问题3:您团队构建了很多各有特色且具有影响力的数据库,为什么数据库对于算法研究来说如此重要?您认为一个好的数据库需要具备哪些标准?
机器学习与深度学习的一个最大特点就是利用训练数据来拟合复杂模型的参数。所以对于一个特定的研究任务来说,没有合适的数据集,就很难开展相应的算法研究。仍以步态识别为例,我们在步态数据库建设方面起步很早,也一直走在国际前列。在2001年,为了解决多视角步态识别问题,我们建设了国际上第一个多视角步态数据库CASIA-A,为跨视角步态识别算法研究提供了数据基础。到了2005年,随着算力水平的不断提高,我们建设了一个规模更大、视角更多的步态数据库CASIA-B。为了解决夜间步态识别问题,我们建设了夜间红外步态数据库CASIA-C。为了探索人的步态与足印之间的关系,我们在2009年建设了足印步态数据库CASIA-D。考虑到深度学习对于数据的需求更大,在2016年,我们建设了一个超大规模的步态数据库CASIA-E,包含1014人在3种不同场景下、在26个不同视角下、变换3种着装共70余万段步态视频。
从CASIA-A到CASIA-E的建设过程可以看出,好的数据库可以直接加速研究的进程,而数据库自身也能在新的研究需求下不断完善。总体来说,好的数据库需要具备三个重要标准:数据规模大、内容多样性丰富、符合实际使用需求。例如,ImageNet数据库是一个用于视觉目标识别算法研究的大规模数据库,很多经典算法(例如AlexNet、VGGNet、ResNet、DenseNet等)都是在它的基础上发展而来,大大推动了相关算法的实用化发展。后来,由于目标识别的精度已经超越人类水平,一个比ImageNet标注规模更大、内容多样性更强的Visual Genome数据库出现了,有力支撑了相关算法向更有挑战的实际任务上进行拓展。
2004年,我在中科院自动化所获得博士学位。2004~2009年,先后在英国帝国理工学院、澳大利亚莫纳什大学、澳大利亚墨尔本大学从事博士后研究工作。2009年开始在巴斯大学作为讲师工作,拿到终身教职。要玩就玩得痛快,要学就学得踏实。这是我所感受到的国外科研工作者对工作和生活态度的真实写照。他们通常将工作和生活划分得很清楚,例如国外导师在周末或度假的时候几乎是不会处理工作事情的。但是,我发现他们不管多忙,每周都会认真阅读学生的工作周报并给出意见和建议,同时每周也会留出固定时间与每位学生面对面交流,这是一种很好的科研交流方式。通过比较国内外的科研环境,我认为国内的硬件设施并不比国外差,但软实力可能还有待提升,比如科研基础和创新思维等。目前,虽然国内很多技术在国际上已经处于领先地位,但部分领域仍缺少原创性成果,存在卡脖子的问题。未来,我们希望能够潜心科研,做出更多具有国际影响力的、学术原创性的、应用潜力强的新工作。
问题5:在回国之前,您已经拿到了英国巴斯大学的终身教职,后来是什么原因让您放弃国外教职转而回到国内重新开始呢?
我是在国内读的博士,毕业后之所以选择出国主要是想出去体验国外的风土人情,以及了解国外的学习、科研、工作等方式。但是,在国外呆得久了之后,原本的好奇和新鲜感逐渐褪去,于是便动了回国效力的念头。如果自己所学能为自己的国家作点贡献,哪怕只是一点点,心里的满足感也将是不可言喻的。我忘不了当时辞职时系主任惊愕的表情,他说全球经济不太景气,能找到正式工作是多么不易,一再问我你确定辞职吗?在2010年,我还是坚定地辞退了巴斯大学的终身教职,以中科院百人计划回国工作。回国后,我全身心投入到计算机视觉与模式识别领域的研究工作中,并在2014年被授予“国际模式识别学会会士”荣誉称号,在2019年被授予“国际电气与电子工程师协会会士”荣誉称号。
问题6:您能否介绍一下是如何组建和管理研究团队的?
在2010年,我入选中科院百人计划回到中科院自动化所工作,在谭老师的大力支持下,从零开始组建自己的研究小组。面向国家重大需求,合理规划研究方向,相应补充研究人员。目前,我们研究小组现有研究员1人、副研究员4人、博士后2人、各类学生40余人、项目工程人员近10人,是一支年轻而富有活力的研究队伍。我们隶属于中科院自动化所智能感知与计算研究中心,除了遵守中心日常的管理规范之外,大多时候执行扁平化的管理方式。对于不同类型的人员,会执行相应的周报、月报交流等制度,并且会适时安排时间与学生和老师进行面对面的交流,了解当前工作进展,讨论下一步前进方向,遇到问题可以及时讨论解决。
首先,我们制定了明确的研究生培养计划,并且会根据学生的实际学习情况进行合理调整,以确保他们在学习期间有明确的目标感,但也不至于压力过大。其次,坚持培养学生独立自主的科研能力,从论文选题、研究过程、论文发表等多个方面,发挥导师的指导作用,发掘和培养他们的研究兴趣。特别是,对于不同基础、不同性格、不同想法的学生,因人制宜,尽量引导他们选择适合自己的发展道路。此外,在科研之余,经常组织和鼓励学生参加各种类型的文体活动,包括新年联欢会、趣味运动会、春/秋游、篮球/足球赛等。这些活动不仅能够使学生更好地融入团队当中,也促进了他们的全面发展。令人欣喜的是,大部分同学在学习过程中都取得了非常不错的成绩,包括获得国内外权威会议最佳论文及提名奖6项,国内外重要竞赛冠/亚军10余项,CAAI/CSIG/中科院优秀博士学位论文及提名奖3项,以及包括国家奖学金、微软学者、百度奖学金在内等其它各类荣誉奖励20余项。
我的建议可能主要有两个方面,一方面,要加强自身科研素质的培养。我平时无论是招生、招人,关注的都是三个方面:编程、英语、数学。因为好的编程能力是你实现算法的基本能力,数学是你理解模型或者算法的基础,而英语则是科研过程中文献阅读、写作的必要技能。另一方面,我们都知道,这几年因为人工智能发展非常迅速,国内每年发表的期刊和会议论文也都非常多。但是,真正在国际上有影响力的或者原创性的工作还相对较少,确实较多情况下是在别人工作的基础上修修补补。所以,年轻人应该志存高远,立志多做一些有影响力的原创工作。
王亮,博士,研究员,博导,国际模式识别学会会士(IAPR Fellow, 2014),国际电子电气工程师学会会士(IEEE Fellow, 2019),中国电子学会会士(CIE Fellow,2019),中国人工智能学会会士(CAAI,2021)。2004年于中科院自动化所获得工学博士学位。2004-2010期间,先后于英国帝国理工学院、澳大利亚莫纳什大学、澳大利亚墨尔本大学、英国巴斯大学工作,历任助研、研究员和讲师。2010年以中科院百人计划(结题优秀)回国工作,2015年获得国家杰出青年科学基金(结题优秀),2016年获得第十四届中国青年科技奖,2017年入选科技部中青年科技创新领军人才,2018年入选首都科技创新领军人才培养工程、国家第四批万人计划科技创新领军人才。目前是模式识别国家重点实验室副主任,中国计算机学会计算机视觉专委会副主任,中国图象图形学学会副理事长及视觉大数据专委会主任,中科院脑科学与智能技术卓越中心骨干人才,中国科学院大学特聘岗位教授,国家重点研发计划项目首席科学家,中科人工智能创新技术研究院院长等。担任IEEE TPAMI、IEEE TIP等国际知名期刊的编委、MIR的副主编,曾是IEEE TIFS(2013-2016)、IEEE TSMC-B(2007-2016)、《自动化学报》(2015-2018)、Neurocomputing(2009-2014)、Pattern Recognition(2017-2021)等国内外学术期刊的编委,中国电子学会青年科学家俱乐部副主席(2015-2018),AVSS2012、ACPR2015、DSP2016、IJCB2017、ACPR2019、ICPR2018、VALSE2019、PRCV2019、CCAI2019、CCIG2022等国内外会议的大会、程序或组织主席等。主要从事计算机视觉、模式识别、机器学习、数据挖掘等相关领域的研究。截至目前,已申请或授权发明专利80余项,出版编专著10余部,已发表或接收论文300余篇,获得ICPR2014最佳学生论文奖、CCCV2015最佳学生论文奖、CCPR2016最佳论文奖、ICDAR2019最佳论文提名、CICAI2022最佳论文奖等。目前,谷歌学术引用29000余次,H-index是78(2014-2022连续入选ESI中国高被引科学家名单)。与华为、爱奇艺、腾讯、京东金融、高德、美的等知名企业进行技术研发或应用的合作,研究成果已孵化银河水滴科技(北京)有限责任公司。