2006年6月14日
我们生活在一个三维的世界,但在大多数情况下,我们看到它在二维空间中。识别对象和表面是如何并列的一个图像是人的第二天性,但它长期以来困惑的计算机视觉系统。
然而,现在的研究人员卡内基梅隆大学计算机科学学院的欧洲杯线上买球电脑已经找到一种方法来帮助理解户外场景的几何背景,从而更好地理解他们所看到的。发现承诺恢复一个计算机视觉的研究领域几乎放弃了二十年前因为似乎不溶性。它可能最终发现应用程序在视觉系统用于指导机器人车辆,监控摄像头和档案照片。
使用机器学习技术,军事机器人研究所研究人员阿列克谢•埃和赫伯特,随着研究生德里克Hoiem,告诉计算机如何发现视觉线索,区分垂直的表面和水平的表面在户外场景的照片。他们已经开发了一个程序,让计算机自动生成基于单个图像场景的三维重建。
“这项技术提供了一个近似意义上的场景,一个定性把握结构的一个场景,”埃说,助理教授计算机科学和机器人技术。欧洲杯线上买球
在他们的最新作品,在IEEE计算机学会计算机视觉与模式识别、会议6月17-22在纽约市,卡内基梅隆大学的研究人员将表明,有一种3 d几何帮助电脑识别对象,如汽车和行人的街景。
确定垂直和水平的表面和表面的取向提供了必要的信息对理解整个场景的几何背景。只有大约百分之三的表面在一个典型的照片在一个角度,他们发现。
从谷歌搜索使用300张图片收集,Hoiem显示电脑的垂直和水平的表面,允许一个机器学习程序开发统计某些形状之间的关联,阴影和其他各方向的典型特征。
该项目还利用现实世界的约束——天空是蓝色的,水平的地平线以及多数对象坐在地上。
“在我们的世界里,”赫伯特指出,机器人技术教授,“事情不只是浮动。”
演示这种技术的效用,研究人员设计了一个图形程序自动生成3 d重建“切割和折叠”垂直和水平方向的形象。
“这就像一个儿童立体书,”埃说。
“令人惊讶的是表明这是可能的,“计算机视觉先锋金说,U.A.和海伦·惠特克大学的计算机科学教授和卡内基梅隆大学的机器人。欧洲杯线上买球“我认为这是一个突破。”
一个长期存在的问题
无法理解一个场景的几何背景限制了计算机的能力来识别对象。尽管研究人员在识别事物取得了一些成功,比如人脸或汽车,缺少上下文导致荒谬的错误,如云层中看到的面孔,或汽车栖息在树梢。
科学家一直以来早期了解人们视觉感知三维。古希腊人认为,眼睛必须发出光线,物体就会反射回来,就像今天的激光测距仪测量距离。在19世纪,科学家们意识到,一双眼睛给人类双目视觉,让他们感知深度。但是立体视觉是有用的在不超过50米的距离。即便如此,思想往往覆盖双眼视觉,比如在电视上看足球比赛的时候。
愿景是一个早期的人工智能研究人员试图解决问题和“上下文”户外场景分析是1970年代最喜欢的科目。
研究人员发现他们可以描述一个物体的几何形状,如椅子,但匹配的描述与实际像素被证明是一个艰巨的任务。统计学习工具是有限的和研究计算机强大100倍低于今天典型的笔记本电脑。到1980年,大多数人认为成绩是不可能的或,如果可能的话,计算不切实际。
即使埃和赫伯特分配Hoiem使用机器学习技术教计算机视觉上下文两年前,他们认为这是一个学习锻炼的学生。“我们不相信这是可行的,”埃弗罗斯如是说。
令他们吃惊的是,Hoiem发现电脑常常看见这表面是垂直或水平,以及垂直表面是否面临左、右或向观众。根据显示的例子是,计算机识别每个特性在图像和分配给它一个概率水平或垂直方向。
在最新发表的研究中,研究人员用几何上下文信息提高计算机程序的能力认识到场景中的对象。识别和改进的对象,他们指出,应最终提供反馈,进一步提高对几何背景的理解。
“如果你能找到一辆车,”赫伯特说,“你知道这是放在一个平面上。”
合成图像,显示照片和三个3 d重建来源于它,可在www.cs ~埃/ img / popup.jpg。可以在动画的三维模型www.cs.cmu.edu/ dhoiem /项目/弹出/ index . html。
http://www.cmu.edu