《MIT技术评论》
报道,加州大学洛杉矶分校(UCLA)的研究人员开发出一种计算机视觉系统原型,能实时用文字描述监控录像的内容。 负责这项研究的统计学和计算机科学教授
朱送春(Song-Chun Zhu)称,我们周围的视频资源越来越多,搜索视频正成为一个巨大的难题。朱指出,几乎所有的图像和视频搜索都是基于周围的文字描述。朱与同事Benjamin Yao、Haifeng Gong开发出名为I2T的系统,试图改变这种情况。I2T是Image to Text(图像到文本)的缩写,它利用一系列计算机视觉算法,抽取图像或视频帧作为输入源,然后输出图像或视频所描述内容的摘要文字。用户就可以用简单的文本搜索进行搜索。I2T系统已经与ObjectVideo合作,对交通监控录像进行测试。朱也已经将部分数据
发布在网上供其他研究人员免费使用。