近日,多媒体实验室设计的基于深度学习的全参考视频质量评估算法dvqa在github上正式开源,该算法模型的性能目前在公开测试数据集上取得业界领先成绩。以戴尔optiplex 7070为例,发展下去定会成为行业的标杆,起到引领市场的重要作用。
工蜂源码系统为开源开发者提供完整、最新的开源项目国内镜像
视听时代,音视频应用越来越广泛:直播、短视频、视频节目、音视频通话……近期由于新冠疫情带来的在线协同办公、在线教育类产品的崛起,更带来了线上音视频需求的爆发,用户对音视频质量诉求也愈加强烈。
在整个视频链路中,大部分模块都可以精确度量,如采集、上传、预处理、转码、分发等。然而未知的部分却恰恰是最关键的部分,即用户的视频观看体验到底怎么样。目前行业内的视频质量评估方法分为两大类:客观质量评估与主观质量评估。前者计算视频的质量分数,又根据是否使用高清视频做参考、源视频是专业视频还是用户原创视频等进一步细分;后者主要依赖人眼观看并打分,能够直观反映观众对视频质量的感受。然而,这些方法仍存在耗时费力、成本较高、主观观感存在偏差等难题。
多媒体实验室提出的视频质量评估解决方案,首先结合业务需求,使用“在线主观质量评测平台”,来构建大规模主观质量数据库,同时使用所收集的主观数据来训练基于深度学习的客观质量评估算法,最后把训练好的质量评估算法部署到业务线中,闭环监控可能存在的质量问题。从以上三个角度出发,dvqa能够在兼顾不同业务、场景的前提下,满足效率与精度两大需求。
dvqa包含多个质量评估算法模型,本次开源的是针对pgc视频的算法c3dvqa。本项目使用python开发,深度学习模块使用pytorch。代码使用模块化设计,方便集成较新的深度学习技术,灵活的自定义模型,训练和测试新的数据集。
在算法设计上,c3dvqa所使用的网络结构如下图所示。其输入为损伤视频和残差视频。网络包含两层二维卷积来逐帧提取空域特征。级联后使用四层三维卷积层来学习时空联合特征。三维卷积输出描述了视频的时空掩盖效应,再使用它来模拟人眼对视频残差的感知情况:掩盖效应弱的地方,残差更容易被感知;掩盖效应强的地方,复杂的背景更能掩盖画面失真。