麻省理工学院的研究人员开发了一种模型
麻省理工学院的研究人员开发了一种模型,该模型可以恢复从“折叠”成较小尺寸的图像和视频中丢失的宝贵数据。
该模型可用于从运动模糊图像或新的摄像机中重新创建视频,这些摄像机捕获人在拐角处的运动,但只能作为模糊的一维线。尽管需要更多的测试,研究人员认为这种方法有朝一日可以用于将2D医学图像转换为内容更丰富(但价格更高)的3D身体扫描,这可以使贫穷国家的医学成像受益。
“在所有这些情况下,视觉数据都在时间或空间上具有一个维度-完全丢失了,”计算机科学与人工智能实验室(CSAIL)的博士后,论文的第一作者Guha Balakrishnan说,将在下周的计算机视觉国际会议上进行介绍。“如果我们恢复丢失的尺寸,它将有很多重要的应用。”
捕获的视觉数据通常会将时间和空间的多个维度的数据折叠为一维或二维,称为“投影”。例如,X射线将有关解剖结构的三维数据折叠成平面图像。或者,考虑长时间曝光的恒星在天空中移动的镜头:位置随时间变化的恒星在静止镜头中显示为模糊的条纹。
同样,最近在麻省理工学院发明的“转角摄像机”可以检测到拐角处的人。例如,这些对于消防员在燃烧的建筑物中找到人可能有用。但是这些相机并非完全用户友好。目前,它们仅产生类似于人的轨迹和速度的模糊,弯曲的线条的投影。
研究人员发明了一种“视觉投影”模型,该模型使用神经网络来“学习”将低维投影与其原始高维图像和视频相匹配的模式。给定新的投影,模型将使用所学知识从投影重新创建所有原始数据。
在实验中,该模型通过从与角落摄像机产生的相似的单维线中提取信息,合成了精确的视频帧,以显示人的行走情况。该模型还从流行的“移动MNIST”数据集中,从屏幕周围移动的单个运动模糊数字投影中恢复了视频帧。
加入Balakrishnan的论文是:电气工程与计算机科学系(EECS)和CSAIL的研究生Amy Zhao;EECS教授John Guttag,Fredo Durand和William T. Freeman;哈佛医学院放射学系教员艾德里安·达尔卡(Adrian Dalca)。
线索像素
Balakrishnan说,这项工作起初是一个“酷反转问题”,用于重现造成长时间曝光摄影中运动模糊的运动。在投影的像素中,存在有关高维光源的一些线索。
例如,捕获长时间曝光的数码相机基本上会在一段时间内在每个像素上聚集光子。在捕获对象随时间的运动时,相机将获取运动捕获像素的平均值。然后,将那些平均值应用于静止图像的相应高度和宽度,从而创建对象轨迹的特征性模糊条纹。通过计算像素强度的一些变化,理论上可以重新创建运动。
正如研究人员所意识到的那样,该问题在许多领域都涉及到:例如X射线捕获解剖结构的高度,宽度和深度信息,但他们使用类似的像素平均技术将深度折叠成2D图像。角照相机-由弗里曼(Freeman),杜兰德(Durand)和其他研究人员于2017年发明-捕获隐藏场景周围的反射光信号,该信号承载有关人与墙壁和物体的距离的二维信息。然后,像素平均技术会将这些数据折叠成一维视频-基本上是在一行中随时间变化的不同长度的测量值。
研究人员基于卷积神经网络(CNN)建立了一个通用模型-一种机器学习模型,该模型已成为图像处理任务的强大动力-可以捕获有关平均像素中任何丢失尺寸的线索。
合成信号
在训练中,研究人员为CNN提供了成千上万对投影及其高维信号,称为“信号”。CNN会学习与信号中的像素图案匹配的投影中的像素图案。为CNN供电的是一个称为“变量自动编码器”的框架,该框架可评估CNN输出在某种统计概率上与输入的匹配程度。由此,模型学习了可能产生给定投影的所有可能信号的“空间”。本质上,这为如何从投影变为所有可能的匹配信号创建了一种蓝图。
当显示先前看不见的投影时,模型会记录像素图案并遵循蓝图显示可能已经产生该投影的所有可能信号。然后,它将合成新图像,这些图像将来自投影的所有数据和来自信号的所有数据进行组合。这将重建高维信号。
对于一个实验,研究人员收集了一个由35个视频组成的数据集,其中有30人在指定区域中行走。他们将所有框架折叠成用于训练和测试模型的投影。该模型从一组六个看不见的投影中脱颖而出,精确地重新创建了人的步态的24帧,直至他们的腿部位置和人的大小(当他们走向或离开相机时)。例如,该模型似乎了解到,随着时间而变暗和变宽的像素可能对应于一个人靠近相机。