视觉（14）单目视觉不能提供深度信息吗？

单目视觉不能提供深度信息吗？
发信站: 水木社区 (Fri Jul 27 22:59:21 2007), 站内

准确地说是单帧画面不能提供精确的深度信息。单目的话，稍微晃一下脑袋
就会有很多帧画面输入。这些画面都会来源于不同的视角，而人脑有足够的
能力从这些画面之间的细小差别中推断出眼睛的所在地，以及各个物体的距离
和大小形状。当然，现在计算机立体视觉也能做到这个了...

事实上人类的视觉是个很有趣的课题。就像人类的其他许多思维活动一样，
视觉并不是仅仅依靠一两个简单的、孤立的输入。失去一只眼睛的人可以和
失去一只肾脏的人同样正常地生活。一个人要判断一件物体距离他有多远，
可以去分析他的两只眼睛所看到的图像的差异，可以去分析他在这一刻和
在上一刻所看到的图像的差异，可以去查看光照和阴影，还可以去对照大脑中
已有的关于所看到的物体的知识──从侧面去看桌子上的一个盘子，我们只能
看到一个椭圆，但是我们已经知道盘子是圆形的，又知道桌子的位置和高度；
这些信息就足够推断出盘子的大小和位置了。最令人感叹的是，人类可以在
以微秒为单位的时间内完成所有的这些分析，而且丝毫不引起意识的注意。
这样的计算量交给计算机，也许就要花上数个小时才行。

Andrer Ng在nips'05上有篇比较有名的paper
Learning Depth from Single Monocular Images
似乎就是针对单目视觉恢复深度信息（虽然这些信息很粗略）

推荐Anat Levin siggraph 07的paper

Published on Jul 29, 2007 in categories vision

上一篇 Java（1）基本类别及其外覆类
下一篇学术新秀采访－陆品燕~how to get your siggraph paper rejected.