计算机视觉华人史:权龙与他的学生们

资讯 » 新科技 2024-07-09

作者 | 赖文昕

编辑 | 陈彩娴

「简单,是终极的复杂。」

群星闪耀时

1988 年的冬天,一辆火车从法国出发、开往卢森堡。

火车上有一行四人,来自法国南锡,他们精神焕发,兴高采烈地讨论着即将开始的旅程。从南锡到到卢森堡,他们将在卢森堡乘坐飞机,飞往美国佛罗里达参加第二届国际计算机视觉大会 ICCV。

他们中,有唯一一位来自中国的东方面孔,内心尤为激动——这是他第一次去美国,也是他第一次参加国际上的顶级学术会议,有机会与来自世界各地的同行交流切磋。

这位意气风发的青年,就是后来中国计算机视觉大师、香港科技大学计算机视觉实验室的开拓者——权龙。

那一年,权龙 24 岁。

与权龙一同出发的,还有他的博士导师 Roger Mohr、两位研究员 Karl Tombre 与 Gerald Masini。

深度学习浪潮兴起后,华人科学家逐渐成为计算机视觉三大顶会(ICCV、CVPR、ECCV)的参会主力,发表了大量的科研成果,并摘得各大重要奖项。但在上世纪 80 年代,ICCV 大会现场的华人面孔寥寥无几,直到 1988 年法国留学生权龙打破了局面。

1988 年,在法国国立洛林理工学院(INPL)、国家科学研究中心(CNRS)和国家信息与自动化研究所(INRIA)的共同实验室攻读计算机博士的中国学生权龙,在导师 Roger Mohr 的指导下,写了一篇从几何约束研究室内场景图像匹配的论文。

论文被刚刚诞生的 ICCV 接收,成为了实验室的第一篇视觉顶会论文,也标志着华人学者在这个视觉会议上的首次亮相。

1987 年第一届 ICCV 在英国伦敦成立,权龙的导师 Roger Mohr 参加了这个里程碑的会议,从会议现场带回来唯一一本 Proceeding 会议论文集。那时参会人员的「传统」就是必须带一本 Proceeding 回家去读。权龙对这本「孤本」非常珍惜,细心阅读,读完后写了两篇文章,其中一篇在实验室内部反馈很好,果不其然中了第二届 ICCV。

论文地址:https://ieeexplore.ieee.org/document/590050

1988 年的美国之行,为了让大家不负此行,参加 ICCV 之余,Roger Mohr 还联系了各大高校,组织了一次全美知名实验室的游学之旅。权龙第一次参会,就感受到了计算机视觉领域最前沿的学术研讨氛围。

权龙在 1985 年从中国赴法留学。

这个成长于山西太原的中国青年,从小时候在少年宫美术组开始就一直对图像有着浓厚的兴趣。1980 年,权龙考上了北方交通大学(现北京交通大学)通信专业毕业,成绩优秀,在1984年毕业时考取教育部赴法留学研究生。

那时北方交大的信息科学研究所就聚集了一批热爱图像研究的学者,实验室规模庞大,在模式识别、图像理解乃至计算机图形学上均有涉猎。

权龙在本科毕业设计时就跟随时任所长袁保宗以及刚留法回国的周忠钰,后者带着权龙的本科毕业设计,给了权龙不少指导。

权龙出国留学也受到了他哥哥权全的影响。权全在 1978 年以优异成绩考入清华大学,几个月后就被教育部派遣到比利时本科留学,极可能是我国改革开放后山西太原出国留学第一人。 因此,权龙很早对出国留学有所了解,并考取了 1984 年教育部的派遣留学研究生,成为当年北方交大出国留学的 8 名学生之一。

在法国,权龙结识了更早留法的马颂德(原中科院自动化研究所所长)、张正友(现腾讯首席科学家),三人并称为「法国华人视觉三剑客」,而他们在冥冥之中早有渊源:

在北方交大的最后一年,权龙跟随周忠钰做研究,向对方请教留法经验,后者研究图形学,是 1979 年与马颂德同批赴法的学生之一。

到 1987 年,权龙去法国的第二年,在法国国家信息与自动化研究所(INRIA)实习时又结识了同样通过教育部派遣留学的张正友。张正友先在南锡大学计算机系读硕,后又去法国巴黎第十一大学读博。

当时欧洲的人工智能已起步,教育发达,诞生在法国的 Prolog 作为「古早」人工智能语言正引领人工智能以及第五代计算机的发展,权龙去法国的第一志愿也是研究人工智能。

最早在国内接触「人工智能」这门课时,权龙有些失望,因为课程内容翻来覆去只涉及了一些搜索算法,并没有太多他所期待的「智能」。而到了法国后,法国的研究中心涵盖了语音、图像、逻辑、专家系统等多个研究方向,同办公室的两个法国同学甚至已经开始研究为今天的神经网络提供理论基础的「连接主义」。

在前沿的研究环境中,权龙顿时燃起了研究的热情。由于从小对图像与空间感兴趣,权龙决定研究图像理解,由此踏入了计算机视觉的大门。

权龙的导师 Roger Mohr 是法国射影几何与计算机视觉的研究先驱,从到法国的第一天起,权龙就跟着 Roger Mohr 做研究,一直到 2002 年离开法国,整整 16 年都是一个团队。1988 年权龙中 ICCV 论文,1989 年(在法国的第四年)就获得了 INPL 博士学位。

1990 年,权龙加入法国国家研究中心,在 INRIA 担任高级研究科学家。Roger Mohr 作为主要成员在 INRIA Grenoble(格勒诺布尔)开拓计算机视觉小组,权龙成为创始成员,也开始带领自己的学生,并见证了欧洲三维视觉的黄金时代。

1982 年大卫·马尔出版《视觉》一书,从 edge 研究视觉计算成为行业的主流。到 1990-2000 年,行业内出现变化,从 edge 转向研究几何问题,即「三维重建」。上世纪 90 年代,欧洲群英荟萃,欧盟有一个大项目(「欧盟研发框架计划」)聚集了一批研究不变量和几何的人才(主要来自 INRIA 、英国牛津大学、比利时鲁汶大学、瑞典皇家理工学院),成为三维视觉的研究圣地,而欧洲三维视觉的发源地又在法国。

权龙所在的 INRIA 一马当先。1992 年,INRIA 的一位研究员 Olivier Faugeras 发表论文「What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig」,试图用数学分析双目能让人感知到三维的原因。Oliver 提出「七点算法」,即:通过在非标定相机的两张图像中标出 7 个对应点,就可以计算出获得三维的基础矩阵。这个工作拉开了三维视觉研究的序幕。

三年后、1995 年,权龙发表的「六点算法」,又将三维重建向前推进了一大步。

在「六点算法」,权龙探索了三维重建的最小数据需求,得到「六个点、三幅图像」的方法论,不仅为三维重建的基础理论作出杰出贡献,之后几乎所有基于非标定相机的三维重建技术都受到了这一算法的启发。权龙由此声名大噪,成为三维重建的领军人物。

论文地址:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=4fa70fb737a514afe8e902a9d8fd56f6cc3d6b60

在九十年代,计算机视觉领域最重要的成就之一是发展了一种三维视觉几何技术,即从非标定的图像(uncalibrated images)或运动结构(Structure from Motion)中进行三维重建。只要输入图像存在重叠,就能全自动地计算出所有相机的位置和方向,并重建场景的三维点。

图像的三维重建是计算机视觉、机器人学、摄影测量学和计算机图形学的基础,而三维视觉几何的整个体系建立在两视图、三视图和N视图几何这三个基本要素之上。

两视图几何问题,以基础矩阵(fundamental matrix)为特征,在 1992 年由 Olivier Faugeras 和 Richard Hartley 各自独立解决;三视图几何问题则是由权龙在 1994 年发表的论文《Invariants of Six Points and Projective Reconstruction from Three Uncalibrated Images》中得以解决。

两视图几何在使用七点算法启动计算时是基础性的,但它会导致对应关系歧义。与之相比,三视图几何在唯一性地表征投影结构和消除重建及对应关系歧义方面,既是最小的也是最完整的。

权龙引入的「六点算法」,以封闭形式解决了三视图几何问题,最多提供三个代数解。由于三视图之外没有其他独立的几何关系,三视图几何和两视图几何是多视图几何中唯二的基础几何,因此三视图的六点算法和两视图的七点算法也是图像三维重建中最基础的两个算法。

而由于 N 视图几何本质上是一个代数冗余系统,缺乏通用的代数解决方案,所以只能通过优化方法来解决。1992 年,在 Faugeras 和 Hartley 对两视图几何的代数分析同时,权龙及其同事创新性地提出了一种优化方法,采用空间中的规范投影基,首次实现了多视图的投影重建。

这篇《Relative Reconstruction from Multiple Uncalibrated Images》与 Faugeras 和 Hartley 同年在两视图几何方面的里程碑式研究齐名,其基础性贡献在学术界受到了高度认可。

权龙在三视图与 N 视图这两个关键领域的重要贡献,使他成为三维计算机视觉发展的主要推动者之一。在那个时期,权龙的贡献不仅限于此,还解决了其他视觉几何领域的诸多问题。

「六点算法」也是权龙与一众早期中国计算机视觉华人学者结缘的契机。

「六点算法」发表后,1995 年,权龙去美国波士顿参加 ICCV,在哈佛 David Mumford 实验室结识了当时读博的朱松纯。

1996 年,权龙在学术休假 (sabatical year)时到卡内基梅隆大学拜访 Takeo Kanade,结识了沈向洋。早期计算机视觉领域的华人很少,中国学者联系紧密,权龙与沈向洋的友谊也一直延续至今,乃至影响了下一代在港科大与 MSRA 的学子,这是后话。

从 1990 到 2000 年,三维视觉在欧洲的研究如火如荼。2001 年,Richard Hartley 和 Andrew Zisserman 出版多视几何理论教材《Multiple View Geometry in Computer Vision》,标志着三维视觉领域的基本理论框架确立。

这十年也是群星闪耀的十年,欧洲视觉圈涌现了一批后来名声如雷贯耳的学者人物,如 Oliver Faugeras、Richard Hartly、Andrew Zisserman、Luc Van Gool 等等,权龙作为其中少数的东方面孔,也独树一帜。

相比之下,三维重建在北美学术圈并不活跃,相关研究成果萧条,唯有彼时在通用电气公司研发中心的 Richard Hartley 发表了一系列非常有影响力的工作。实际上,Richard Hartley与牛津团队联系密切,因为他在通用电气的老板 Joe Mundy 曾在牛津学术休假,并与其团队合作过。

INRIA Grenoble 多次邀请 Richard Hartley 前往其实验室,与权龙他们讨论对三维重建的前沿探索,权龙也帮助Richard 在Grenoble 完成了他的著名八点算法。

直到 1999 年,David Lowe 提出著名的 SIFT 算法。

权龙后来告诉雷峰网,因为二人都在计算机视觉中从事感知分组的工作,他从读博开始就读过 David Lowe 的论文,直到现在还会偶尔翻阅 David Lowe 的文章,「David Lowe 写的东西都很深刻,他的成功不是突如其来的。他的成果在很多地方都能直接应用,比如 SIFT,visual features(视觉特征),是为几何而生、为做三维重建定义的。」

在法国,权龙还培养了两位得意门生:第一个博士生 Peter Sturm,他在三维重建奇异性(reconstruction singularity)方面做出了贡献,1998 年在权龙指导下完成的博士论文获得了法国第一个 SPECIF 奖(每年只颁给一篇法国计算机科学博士论文);另一个学生 Maxime Lhuillier,作为准密集方法(Quasi-dense approach)的开创者,也获得了国际模式识别大会(ICPR)的最佳学生奖。

与天才同行、求索三维视觉,充实了权龙的法兰西岁月。

港科大视觉第一人



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。