弹幕作为一种新的互动方式,近年来逐渐在各大视频网站推广开来。在享受弹幕带来的陪伴和热闹的同时,你会不会也有观感被影响的时候?如今有一项新的技术可以把视频中的人和背景分割开来,为观众带来更好的体验。
西交利物浦大学智能工程学院学者的研究为这项技术带来新的发展,他们提出的模型在大幅度提升速度的同时还提高了识别的准确率。
该研究成果于近日收录于计算机视觉领域最顶级的IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR),这也是西浦第一篇以第一作者和第一单位身份收录于该会议的文章。
来自bilibili弹幕视频网站UP主洪千辰的视频画面,弹幕会在人物背后“穿过”:

据论文的第一作者、西交利物浦大学电气与电子工程系博士生孙铭杰介绍,他们的研究使用了强化学习算法来解决如何快速、准确地跟踪到视频中的对象并将其与视频背景进行分离的问题。这项技术能够被广泛应用在视频弹幕、影视制作等领域,未来甚至有可能让电影特技拍摄告别绿幕,直接在复杂背景中进行抠图。
运用不同方法进行视频对象分割的效果。下图由上到下依次为官方提供的真实值、西浦团队提出的方法、SiamMask算法和RGMP算法,J值越大精确度越高。

孙铭杰的指导老师肖继民博士指出,强化学习在人工智能领域内是一项非常前沿的技术,目前关注度很高,比如战胜了围棋世界冠军的人工智能机器人AlphaGo就是其中的知名应用。
“使用强化学习算法研究视频对象跟踪与分割的过程中有一些很容易被忽视的技术难点,作为老师应该鼓励博士生紧跟这些最前沿的技术,挑战有技术深度和应用前景的课题。”他说。
孙铭杰把研究重点放在目标模版的判定这一细节上。通过使用强化学习算法训练模型,它可以智能、自主地完成“是否要用新的识别对象去替换原有的目标模板”这一决策判定。

他解释道:“当计算机识别视频中的对象时,首先需要一个参照物来和视频中的对象比对,这个参照物就被称作目标模版,它可能是被识别对象的照片或者其在其他视频中的截图。”
“当计算机根据目标模板识别出了视频中某一帧的对象后,理论上来说这一帧的对象是可以替换原有的目标模板来进行后续信息识别的,因为它更接近视频里的真实信息。但因为视频是动态的,可能这一帧的精确度并不高,或者周围有遮挡物,如果这种情况下依旧用它进行后续识别的话,识别的精确度就会下降,甚至会导致目标模版损坏,无法继续识别。”
孙铭杰表示,在使用强化学习算法训练这个模型后,它可以主动学习提升,能够像一个“智能开关”一样自主决定是否需要替换模板,“和以前手写很多规则的解决办法相比,我们提出的模型覆盖的规则更为全面,而且节省人力。”
(来源:江苏广电融媒体新闻中心/姜坚 吴红鲸 通讯员/胡秋辰 金画恬 编辑/贝茜)







公安备案号:32010202010067