计算机视觉(computer vision)是一个相当新且发展十分迅速的研究领域,并已经成为计算机科学的重要研究领域之一。计算机视觉是模拟人类视觉的人工智能技术,用机器来“看”图像,“理解”图像。长期以来,人类持续不断地试图从多个角度去了解生物视觉和神经系统的奥秘,这些努力的阶段性理论研究成果已经在人们的生产生活中发挥了不可估量的作用,计算机场景识别的发展之路才刚刚开始。今天,计算机视觉的应用已渗透到机器人、天文、地理、医学、化学、物理等宏观及微观世界的各个研究领域。有人预言,计算机视觉是实现智能机器人和第五代计算机的关键因素之一。
计算机视觉的起源与发展
计算机视觉(Computer Vision, CV)是利用电子设备生成对生物视觉模拟的一门学科。计算机视觉研究如何让计算机达到人类那样“看”的科学,它利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的那种对物体进行分割、分类、识别、跟踪、判别决策的功能。作为当前热点的研究方向,计算机视觉试图建立从图像或多维数据中获取“信息”的人工智能系统。计算机视觉是一个相当新且发展十分迅速的研究领域,并成为计算机科学的重要研究领域之一。
计算机视觉起源于上世纪70年代David Marr的研究。其将生物视觉视作复杂的信息处理过程,并抽象出三个层次,分别为:(1)计算理论;(2)算法;(3)实现。计算理论层次主要研究计算机视觉问题的表达,即如何将计算机视觉任务抽象为数学问题;算法层次则是对照研究数学问题的求解方法;而实现层次是研究算法的物理硬件实现。Marr尤其强调信息表征和信息处理的作用,其提出的视觉计算理论对模式识别和计算机视觉研究影响深远。Marr的理论给多个计算机视觉研究领域创造了起点。早期的计算机视觉借鉴了统计模式识别的思想。计算机视觉于神经生理学和心理学的研究,从其诞生之初即为综合性的学科方向,与视觉认知科学、信号处理、计算机科学等多学科密切关联;同时,计算机视觉是人工智能的重要研究方向,伴随着人工智能的起伏,计算机视觉也经历了多个发展时期。
图1:人类视觉感知机理
计算机视觉始于20世纪50年代的统计模式识别,当时的工作主要集中于二维图像分析和识别上,如光学字符识别、工件表面、显微图片和航空图片的分析和解释等。20世纪60年代,Roberts(1965)通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述[Roberts 1965]。Roberts的研究工作开创了以理解三维场景为目的的三维计算机视觉的研究。
20世纪70年代,计算机视觉的研究主要立足于从二维图像中构建三维几何结构,三维结构重建是主要的研究方向。70年代中期,麻省理工学院(MIT)人工智能(AI)实验室正式开设“计算机视觉”(Machine Vision)课程,由著名学者B. K. P. Horn教授主讲。同时,MIT AI实验室吸引了国际上许多知名学者参与计算机视觉的理论、算法、系统设计的研究,David Marr教授就是其中的一位。他于1973年应邀在MIT AI实验室领导一个以博士生为主体的研究小组,1977年提出了不同于“积木世界”分析方法的计算视觉(computational vision)理论,该理论在20世纪80年代成为计算机视觉研究领域中的一个十分重要的理论框架。到了80年代中期,计算机视觉获得了迅速发展,主动视觉理论框架、基于感知特征群的物体识别理论框架等新概念、新方法、新理论不断涌现。计算机视觉的方法论也开始在这个阶段产生一些改变,人们发现要让计算机理解图像,不一定先要恢复物体的三维结构,而是可以将先验知识和看到物体表征进行匹配实现认知。
20世纪90年代,基于多视几何的视觉理论也得到迅速发展。统计学习方法引发了一次较大的变革。支持向量机等统计学习方法在计算机视觉中广泛应用。同时,研究者们也开始关注局部特征。与颜色、形状、纹理等底层特征相比,局部特征通常具备一定的视角和光照稳定性,即不随着视角和光照的变化而变化。在90年代末期,发生了一个叫做感知器的革命,带动了大数据和机器学习的蓬勃发展。进入21世纪,计算机视觉与计算机图形学的相互影响日益加深,基于图像的绘制成为研究热点。
计算机视觉的广泛应用
计算机视觉概念自上世纪60年代被提出以来,便被工业界注意到其应用价值。然而随后10多年中,由于当时低下的计算机硬件水平制约了计算机视觉的发展。随着电荷耦合元件(CCD)在美国贝尔实验室发明并逐渐应用于工业相机传感器,计算机视觉技术终于走到应用舞台,第一时间投入到工业机器视觉系统中。上世纪80年代,日本的KEYENCE及美国的COGEX两家公司,共同引领了计算机视觉在工业机器中的发展浪潮。COGEX公司于1982年生产的视觉系统DataMan,是世界第一套工业光学字符识别(OCR)系统。
伴随着图形处理芯片GPU制造业的迅速发展,机器学习尤其是深度学习算法的突飞猛进,计算机视觉技术呈现豁然开朗的良好发展态势。尽管计算机视觉技术发展本身尚远未达到业界所期盼的高度智能水平,但在产业应用上已出现井喷势头,涉及包括工业生产、军事、医疗、安防、智能交通、无人驾驶、虚拟现实等在内的多个社会应用领域。在个人消费领域,计算机视觉技术更是延伸到了传统数码产品、互联网图像搜索、无人机、家用机器人等新兴电子消费品。
视觉机理结合深度学习对计算机视觉的强大推动
计算机视觉进入大众视野成为科技焦点是最近十年的事情。深度学习这一有力工具的加入,对于提高计算机视觉的大众关注度起到了功不可没的贡献。
一方面,深度学习一定程度上受到神经科学启发,试图在大脑神经机理层面上对动物、人类进行模拟,让人们看到了真正意义上实现人工智能的曙光。当一个物体经肉眼成像后,其影像从被视神经接收,到最终被大脑识别、理解,需要经过多层神经归纳与传递。深度学习正是采用了颇为类似的自下而上传递、从敏感细节到感知全局、逐层抽象的作法,如下图所示,对图像在一个典型卷积神经网络模型中不同层的特征进行可视化,能够观察到:低层特征主要响应点、边缘等细节信息,中层特征主要响应纹理、部件等较抽象信息,而高层特征主要响应类别、语义等高度抽象信息。此外,深度学习常用的卷积神经网络结构,与动物视觉神经的机理也有相似之处。
王生进
清华大学电子系教授,媒体大数据认知计算研究中心主任。主要研究方向为人工智能、机器学习、计算机视觉。在物体检测与分类研究中,取得了多个公开数据集上多项指标出色成果。在图像检索研究中,大幅度提升了图像检索中视觉匹配的精确度,在主要图像检索测试集上均达到了国际领先水平。2015年,行人再识别研究成果被《麻省理工学院技术评论》高度评价。建立并公开了一个具有时空信息的行人数据集iLIDS-VID,至今该数据集已经有超过3700次的下载量。基于步态特征和表观特征的行人识别算法2016年发表于PAMI。