打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
ACM第一名:基于轨迹感知多模态特征的视频关系检测

点击上方深度学习爱好者”,选择加"星标"或“置顶

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

视频关系检测问题是指对视频中不同对象之间的关系进行检测,如空间关系、动作关系等。在本文中,作者提出了基于轨迹感知的多模态特征的视频关系检测来解决这一问题。考虑到视频视觉关系检测的复杂性,作者将该任务分解为三个子任务:目标检测、轨迹建议和关系预测。作者采用最先进的目标检测方法来保证目标轨迹检测的准确性和多模态特征表示来帮助预测目标之间的关系。作者的方法以11.74%的mAP在ACM多媒体2020的视频关系理解大挑战的视频关系检测任务中获得第一名,大大超过了其他方法。

本文创新点

本文提出了一种视频关系检测方法。作者按照[11]的方案,建立了一个目标轨迹检测模块和一个关系预测模块的系统。对于目标轨迹检测器,作者首先使用最先进的检测器级联RCNN[1],以ResNeSt101[17]为骨干,对每个视频帧进行目标检测。然后作者使用seq-NMS[3]改进的动态规划算法来关联所有帧的目标检测结果,并为每个目标生成轨迹。对于关系预测器,作者结合运动特征、视觉特征、语言特征和位置掩模特征对每对轨迹进行预测。多模态特征的使用有助于提高关系预测的准确性。作者的方法框架如图1所示,作者的方法在ACM Multimedia 2020的视频关系理解大挑战[12]视频关系检测任务中取得了第一名。

框架结构


作者的方法框架

十字框架链接方式

预测网络的关系

实验结果

作者在维多测试集上的详细评估分数(%)

与最新的VidOR验证集方法的比较(%)

结论

在本文中,作者提出了轨迹感知的多模态特征用于视频关系检测。最后,作者获得了11.74%的mAP,在ACM多媒体2020视频关系理解大挑战的视频关系检测任务中排名第一。

论文链接:https://arxiv.org/pdf/2101.08165.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
浙大拿下唯一最佳论文奖,中国团队喜获三项大奖!ACM MultiMedia 2023奖项揭幕
【每周CV论文推荐】 人脸识别剩下的难题:从遮挡,年龄,姿态,妆造到亲属关系,人脸攻击
CVPR2021 用更好的目标检测器提取视觉特征!微软提出VinVL,基于更好的视觉特征,达到更强的多模态性能
多媒体内容理解在美图社区的应用实践
基于EEG信号与面部表情的连续情绪识别
深度学习模型在计算机视觉中的应用
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服