融合轻量化与梯形结构的学生行为检测算法

作者：

张颖1，张喆1，龙光利2

作者单位

1.西安理工大学自动化与信息工程学院，陕西西安710048；

2.陕西理工大学物理与电信工程学院，陕西汉中723000。

摘要：

为了解决常见目标检测算法在课堂场景中难以有效应用的问题，提出了一种融合轻量化与梯形结构的学生行为检测算法。该算法基于YOLOv4架构，针对目标分类和分布空间的特点，提出一种新的“梯”形特征融合结构，并结合MobileNetv2思想，优化模型参数得到梯形-MobileDarknet19特征提取网络，既减少了网络的计算量，提高了工作效率，同时加强了目标特征的信息传输，提升了模型学习能力；在尺度检测阶段引入5层的DenseNet网络，增强网络对小目标的检测能力。实验结果表明，提出的YOLOv4-ST算法相比于原YOLOv4算法mAP提高了5.5%，相比于其他主流算法，在学生课堂行为检测任务中具有较好的实用性。

引言：

随着教育现代化的推进，信息化教学越来越普遍，作为学校教育中最基本也是最重要的环节，课堂教学面临着传统走向现代的变革。课堂中，老师通过观察学生的表现获得授课情况的反馈，但一对多的教学方式存在着观察不全面、可信度低、无法实时掌握学生课堂学习情况等问题。将基于深度学习的行为检测应用到课堂教学场景中，通过实时监控，帮助老师全面地掌握学生课堂状态，及时合理地调整教学进度和策略，不仅能够提高教学效率，还能够推动智能化教学的发展，为今后现代化课堂的探索奠定了基础。

近年来，随着深度学习在计算机视觉领域取得了突破性进展^[1]，Faster-RCNN(Faster Region-based Convolutional Neural Networks)^[2]、SSD(Single Shot Detection)^[3]、YOLO(You Only Look Once)^[4-6]等目标检测算法也相继出现。Zheng等^[7]通过一种新的特征融合策略改进Faster R-CNN进行行为检测，但检测精度不高；Liu等^[8]提出了一种基于双流结构的改进时空注意力模型，将空间和时间特征分别馈入空间长短期记忆(Long Short-rm Memory，LSTM)和时间LSTM，融合特征来识别视频中的不同动作；2020年，Bochkovskiy等^[9]提出YOLOv4算法，该算法的网络骨干结构使用了结合跨阶段部分连接^[10](Cross Stage Partial Connection)与Darknet53结合而形成的CSPDarknet53特征提取结构，有效提升了检测精度和速度；Ren等^[11]通过在YOLOv4的特征提取结构中添加了跳跃式的连接，能够融合更多的特征，在一定程度上提升了学生行为检测精度，但效率较低。以上研究表明，深度学习用于学生行为检测具有一定的理论基础和实践可行性。虽然许多检测算法在应用领域表现优异，但对于课堂场景来说，学生活动范围有限，受摄像头位置及视觉角度的影响，学生目标较小且行为易受遮挡，导致会出现漏检错检、检测精度低等问题。其次，课堂学生行为检测需要建立特定的学生行为数据集，要从海量的课堂监控视频进行筛选和制作，并选用适合的先验框参数，以适应学生目标尺寸。

文章来源：《电子技术应用》杂志12月刊

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。