博士生赵培森答辩公示
各位老师好!

电子系博士生赵培森(指导老师:张娅教授)学位论文通过通讯评议,将于2022年1月13日(周四)举行答辩,具体信息如下:
答辩人:赵培森
指导教师:张娅 教授
答辩时间:2022年1月13日(周四)09:00
答辩地点:电院5号楼东303A大会议室

答辩委员会成员名单:
   主席:王嘉,教授,上海交通大学
   委员:卢策吾,教授,上海交通大学
   委员:何晓丰,教授,华东师范大学
   委员:严骏驰,副教授,上海交通大学
   委员:郑银强,副教授,东京大学
   秘书:支琤,高级工程师,上海交通大学
  
【论文题目】基于正则化的视频动作检测与识别
【论文摘要】
视频动作理解是计算机视觉中最重要和最具挑战性的问题之一。本文考虑两个特定的视频动作理解任务,即动作识别和动作检测。当前流行的技术方案通常是通过深度神经网络直接学习从输入数据到输出结果的映射。而在实践中,这种数据驱动的方法常常在缺乏充足训练数据的情况下面临模型过拟合问题。本文探索几种基于正则化的损失函数设计,基于正则化引入特定“先验知识”来缓解模型过拟合。
针对动作识别任务中类别混合粒度定义的挑战,即类别间的差异不均衡、某些类别比其他类别更难区分,我们提出了一个从通用到特定的两支网络架构,其中通用分支用来学习通用性特征以满足对大多数动作类别的区分,而特定分支则关注用于区分某些特定易混淆类别的特征。在两个分支之间,我们引入了一个类别正则化模块,该模块以通用分支的输出作为输入,学习特定于类别的掩码来正则化特定分支,从而捕获与类别相关的辨别性特征,实现对给定类别间细微差异的识别。在三个公开数据集上的实验结果表明,将通用特征和特定特征相结合,可以有效提高动作识别的性能。
针对现有“自下而上”时序动作检测框架存在的过度拟合训练数据问题,即因对不同动作状态独立建模评估再组合形成动作提名,导致忽略了动作状态内部和动作状态之间潜在的因果和排斥等关系,我们提出了一种动作阶段正则化的方法,该方法通过约束动作各个阶段内和阶段间的关系提升所预测动作状态的质量,从而生成高质量的动作提名。在此基础上,我们还考虑另一个“无锚”的动作检测框架,它采用时间点而不是时间窗口来表示动作。该框架可更加灵活地表示动作实例,但需要每个点的特征覆盖整个动作范围。为此,我们设计了一种动作状态正则化的方法,以预测的动作状态作为注意力掩膜,为学习点的特征筛选动作区域。实验结果表明,在两种检测框架中,引入动作状态正则化的方式可以显著提高动作检测的性能。
针对一些应用场景需要实时进行动作检测的需求,我们探索了在线时序动作检测,即基于视频流的实时检测动作。其挑战在于,一旦动作开始、即使尚未完成,就需要能检出该动作。考虑到训练数据中包含动作的整体视频帧序列,给定待预测的视频流,我们将其后续的视频帧看作是一种特权信息,并提出了一种渐进式的特权知识蒸馏框架,通过离线模型来辅助训练在线模型。特权信息在蒸馏的过程中可以被看作是一种隐式的正则化。值得注意的是,由于教师和学生模型之间的差异主要在于输入数据,而不是网络架构,为了减少输入数据差异带来的影响,我们提出了一种简单而有效的方法,将知识蒸馏的损失函数建立在学生模型的部分隐层特征上,并设计了一个课程学习过程来逐步蒸馏特权信息。与一些显式预测未来帧或特征的方法相比,我们的方法避免了预测的阶段并获得了更好的性能。在两个公开的数据集中,所提的模型蒸馏方法可以有效的提升在线模型的检测准确率。