视觉(14)单目视觉不能提供深度信息吗?
单目视觉不能提供深度信息吗?
发信站: 水木社区 (Fri Jul 27 22:59:21 2007), 站内
准确地说是单帧画面不能提供精确的深度信息。单目的话,稍微晃一下脑袋
就会有很多帧画面输入。这些画面都会来源于不同的视角,而人脑有足够的
能力从这些画面之间的细小差别中推断出眼睛的所在地,以及各个物体的距离
和大小形状。当然,现在计算机立体视觉也能做到这个了...
事实上人类的视觉是个很有趣的课题。就像人类的其他许多思维活动一样,
视觉并不是仅仅依靠一两个简单的、孤立的输入。失去一只眼睛的人可以和
失去一只肾脏的人同样正常地生活。一个人要判断一件物体距离他有多远,
可以去分析他的两只眼睛所看到的图像的差异,可以去分析他在这一刻和
在上一刻所看到的图像的差异,可以去查看光照和阴影,还可以去对照大脑中
已有的关于所看到的物体的知识──从侧面去看桌子上的一个盘子,我们只能
看到一个椭圆,但是我们已经知道盘子是圆形的,又知道桌子的位置和高度;
这些信息就足够推断出盘子的大小和位置了。最令人感叹的是,人类可以在
以微秒为单位的时间内完成所有的这些分析,而且丝毫不引起意识的注意。
这样的计算量交给计算机,也许就要花上数个小时才行。
Andrer Ng在nips'05上有篇比较有名的paper
Learning Depth from Single Monocular Images
似乎就是针对单目视觉恢复深度信息(虽然这些信息很粗略)
推荐Anat Levin siggraph 07的paper