CVPR 2023|淘宝视频质量评价算法被顶会收录

cae182cdd860d43147e2dd829e3ac8f0.gif

近日,阿里巴巴大淘宝技术题为《MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos》—— 适用于无参考视频质量评价的最新研究成果被计算机视觉领域顶级会议IEEE/CVF Computer Vision and Pattern Recognition Conference 2023(CVPR 2023)成功收录。

165f68ba25062ae8777b7b9edf3620a7.png

CVPR是由IEEE/CVF主办的计算机视觉领域的顶级学术会议,也是中国计算机协会CCF推荐的A类学术会议。该会议每年在世界范围内召开一次,其收录的论文涵盖了图像和视频领域的创新技术和重大成果,是相关领域学术研究与行业发展的风向标。CVPR 2023共收到创纪录的9,155篇投稿(相比2022提升12%),其中有2,360篇论文被接收,接收率为25.78%。此篇被收录论文属于视频质量评价领域,由大淘宝技术和上海交通大学合作完成(共同一作)。

在淘宝,每天有亿级的User-Generated Content (UGC) 等非传统广电视频(包括但不限于短视频、直播等)被生产或播放,其存在明确的无参考视频质量评价的需求,用以对视频质量进行实时监控,确保用户体验。因此,大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 —— MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,来衡量视频绝对质量的高低。MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝视频相关业务,“量化”画质,有效地反应技术迭代带来的体验提升,为大淘宝视频体验提供画质保障。

90fb445b0e2aa57ccac60621e9bda503.png

背景

随着互联网视频化的深入,越来越多的UGC等非传统广电视频(包括但不限于短视频、直播等)在互联网平台上被生产或播放。手淘内容化与互联网内容化的趋势契合,而平台亦希望能够在成本可控的前提下保障尽可能好的视频画质,视频质量评价指标在其中发挥关键作用。相比传统广电视频更多地使用有参考视频质量评价指标,也即要求使用近似无损的源视频作为参考,UGC视频源质量不可控,无法作为理想的无损源,因此无参考视频质量评价方法在短视频和直播视频的评价方面更具备实用价值。

大淘宝音视频技术团队基于淘宝直播、逛逛等内容业务,构建了大规模UGC视频质量评价数据集 —— TaoLive,包含3,762个视频,覆盖不同的内容、失真、和质量,并通过专业的主观标注,获取165,528个视频的主观质量标签。在此之上,大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 ——MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,并进行时空域的融合,来衡量视频绝对质量的高低。在公开的视频质量评价数据集LIVE-WC和YT-UGC+,以及TaoLive上,MD-VQA在主流视频质量评价指标SRCC和PLCC上均超过了SOTA(State-Of-The-Art)方法,达到了先进性能。

MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝内容业务,监控视频业务的大盘画质的变化,快速、精准地筛选出不同画质水位的直播间和短视频,配合淘宝自研S265编码器、视频增强算子集STaoVideo以及《电商直播高画质开播指南》[1] 等,帮助提升平台内容画质。

faf0fa5807e69b0cbbf6eaf2e9dd2029.png

方法

针对上述问题,我们基于淘宝直播平台的视频,构建了大规模UGC视频质量评价数据集 —— TaoLive,包含3,762个直播视频,覆盖不同的内容和质量,并通过专业的主观打分,获取165,528个主观质量分数的标注数据。与此同时,我们自研了针对UGC视频的无参考视频质量评价模型 —— MD-VQA,综合视频的语义、失真、和运动等多维特征,并进行时空域的融合,来衡量视频绝对质量的高低。

  TaoLive数据集

我们从淘宝直播平台筛选了418条视频,覆盖美妆、服饰、珠宝、食品、生活日常等不同内容、以及720p和1080p两个主流分辨率。然后,我们对这些视频进行8种不同失真等级的编码,来模拟实际应用中不同的视频质量,最后共生成3,762条不同内容、不同质量的视频,用来验证我们提出的MD-VQA的模型性能。部分示例视频如图1。

1e61fac580e4c553e55c50c53cb87e65.png

图1. TaoLive数据集示例

在此基础上,我们组织了由44名专家和普通消费者组成(20名男性,24名女性)的主观测评团队,对上述3,762条视频进行主观打分,共生成165,528条主观质量分数的标注数据。然后,我们根据ITU-R BT.500-13 [2] 标准,将标注数据转换为mean opinion score(MOS)分数,作为视频质量的ground-truth(GT)数据。

我们也和业界主流的视频质量评价数据集进行了比较,如表1所示。从表中可以看出,早期(2014-2016)的数据集的规模相对有限,而后续演进的大型数据集,例如KoNViD-1k、YouTube-UGC、LSVQ等则更侧重于In-the-wild的视频内容。在互联网内容平台上流行的“UGC视频结合压缩/传输失真(UGC + Compression)”类型数据集,我们构建的TaoLive数据集在数据规模上具有一定的竞争力,同时更适合于电商场景。

bc82f26418bf9ba42113f11f42da4df1.png

表1. 主流视频质量评价数据集比较

  模型设计

图2示出了所提出的 MD-VQA 模型的框架,包括特征提取模块、特征融合模块、和特征回归模块。具体来说,所提取的视频特征包括多个维度:语义、失真、和运动。特别地,我们利用相邻帧特征之间的绝对误差来反映视频质量在时域上波动。上述得到的多维特征在时空域上被融合,并通过特征回归模块映射到最终的质量分数。

5fe69d7ae429b8faeca736cadfab095d.png

图2. MD-VQA模型的网络架构示例

  • 语义特征提取

视频语义特征通常描述视频中物体的物理特性、物体之间的时空关系、以及物体的内容信息等,属于视频的高维特征,且和视频的低维特征(如亮度、色彩、纹理等)存在很强的关联性。此外,对于不同的视频内容,语义特征的失真对人眼感知到的视频质量有着不同的影响:人眼通畅无法容忍纹理丰富的内容(例如草坪、地毯)的模糊,二队纹理简单的内容(例如天空、墙面)的模糊相对不敏感。综上考虑,我们利用从预训练的EfficientNetV2 [3] 网络最后4层中提取的多维度特征作为帧级的语义特征,如图3公式所示:

d21c63e559cbeb7a0c05cbf2897037b6.png

图3. 语义特征

其中,8901e10eae91f010821d4f42336d99c8.png表示从第a8450f08ddae2eea4742fe7df4e81b82.png个视频片段的第帧获取的语义特征,48014df5f621a576418fc4bee7fb0aea.png表示级联算子,c62f46dbfdcf9d8a6ed5674e87445232.png表示全局平均池化算子,6f951376124621b61a7dd8acef04bc4f.png表示EfficientNetV2第bdbf4ab1c339df76bd72723df6985be5.png层的特征图,fd9ed15233d6a804e8334ed64a80bf38.png表示从7a10ecffdb479d7ee585c3d7bab3f690.png获取的平均池化特征。

  • 失真特征提取

由于UGC视频中普遍存在多种失真,仅使用语义特征来表征视频质量是不充分的。此外,对于不同的压缩质量,失真会呈现不同的状态,例如在压缩质量相对较低时,模糊会比较明显,但噪声也同时被抑制。因此,在考虑高维的语义特征的同时,我们引入了低维的手工(hand-crafted)特征,包括模糊、噪声、块效应、曝光强度、以及色彩,然后将上述特征综合为帧级的失真特征,如图4公式所示:

9ac10da646c60a34173f11c3533b85c0.png

图4. 失真特征

其中,f0aca96cbcb161ef6b6e601013eebc46.png表示从第01bd915112215454dd0888e0857b1b33.png个视频片段的第帧获取的失真特征,947c357c7b5affd2934d6816395c576f.png表示失真特征提取算子。

  • 运动特征提取

运动失真通常源自于拍摄时的抖动、或者低码率的视频编码,并且,其无法被视频空域特征(例如前述的语义特征)有效地描述。因此,为了提高模型的准确度,我们利用预训练的ResNet3D-18 [4] 获取帧级的运动特征,如图5公式所示:

5944f83053951aa49ac25751c0777325.png

图5. 运动特征

其中,d252a81a698d6890ab2ba1c851c3364f.png表示从第个视频片段获取的运动特征,d5f43d25dbeff89f70321f7aaf16d669.png表示运动特征提取算子。

  • 特征融合

根据 [5] 中所述,高质量视频通常具有更小的帧间质量波动,反之亦然。为了量化上述波动,我们使用帧间语义特征和失真特征的绝对误差来衡量帧间质量波动,如图6公式所示:

213f0f1d1b322cb0ecab4db2e5da01fb.png

图6. 相邻帧的语义特征的绝对误差和失真特征的绝对误差

其中,f1c7d4a3840711bd038727ea0a34164b.png48615665c881ede3e7f15f5a8deb3e09.png分别表示相邻帧的语义特征的绝对误差,以及失真特征的绝对误差。

基于此,时空域特征可以利用图7中的公式进行融合:

31efed72f728e5311fc0785c5bef6c1f.png

图7. 时空域特征融合

其中,7aaf87216758688e642b60aaf43972bb.png表示帧级的时空域特征,cca8324a700730cae3302c4e4725d5c6.png表示级联算子,dc8597a018a765674dcbab158049df17.png表示可学习多层感知机,9578a04920bbbb317df0e8e7d0851496.png表示958603fe0d2c3b64913ad93b3ba2dc2b.png的转置,dc1cbea9956b9ba7fbb409ca4dc702e1.png表示可学习的线性映射算子,将3f72feb22b30f38710f82f8e4e570372.png映射到最终的时空域融合特征7edf67f156a8bcd8a34d3adae2b85b3b.png

最后,上述时空域融合特征f2a942c091817badff021e4e5a9d46b2.png与运动特征cf1c6904ace6a9610e42a525183d5728.png进一步融合,形成最终的时空域融合特征852c7c5f6b27cd491a5e679ce1d17217.png,如图8公式所示:

545482b2746058102e8102769aea2fa7.png

图8. 最终的时空域融合特征

  • 特征回归

基于上述时空域融合特征c5f6a7132b9e9c87e9cface97cbb1e6a.png,我们利用三层全连接层来回归视频质量,如图9公式所示:

60db1e6aeb7ddf0cb36823f8018f7b7f.png

图9. 全连接层回归视频质量

其中,30bbd5593fae318901eeb8121e15ec83.png表示全连接层,ae5e371baae8bf668bf3b868f6089bca.png表示视频片段的质量。

此外,我们使用均方误差MSE(Mean Squared Error)作为损失函数,如图10公式所示:

60ccdb29acef74b9da209140f50d636e.png

图10. 全连接层回归视频质量

其中,642ade38ac88ddb748c8ac9647929111.png表示mini-batch的视频数量,c250b2bdffbf9376ff57c7315c2c80da.pngeaa8455cde232a4100fdf05cf37bac9e.png分别表示预测的视频质量和实际的视频质量。完整视频的质量可通过对视频片段进行平均池化操作获得。

bb187b536f6cf6216a1112aa648e273c.png

实验

我们在两个公开的视频质量评价数据集LIVE-WC和YouTube-UGC,以及我们自建的TaoLive数据集上,与现有SOTA方法进行了对比。我们使用Spearman Rank Order Correlation Coefficient(SRCC)和Pearson Linear Correlation Coefficient(PLCC)作为指标进行对比。更高的SRCC表示样本间更好的保序性,更高的PLCC表示与标注分数更好地拟合程度。结果如表2所示。

86f6bcbd50b33bb5e254b38e79dd6e99.png

表2. MD-VQA与其他视频质量评价SOTA模型在LIVE-WC、YT-UGC+、和TaoLive数据集的性能比较

从表中可以看出,我们在所测试数据集上的SRCC和PLCC均超过了现有SOTA方法,达到了先进性能。

此外,为了探索不同的特征对模型性能的贡献,我们进行了消融实验(ablation study),如表3和表4所示。

53b32998eca6bcce336dcd6e74b7a2aa.png

表3. 语义特征SF、失真特征DF、和运动特征MF对于模型性能的贡献比较

从表3中可以看出,语义特征对于模型的领先性贡献最多,而另外两种特征在不同的视频内容(不同数据集)上有不同的表现,符合预期。

a9d2d7a86d04087ad0aaa3721bbdbbd2.png

表4. 绝对误差(ABS)和特征融合模块(FFM)对于模型性能的贡献比较

从表4中可以看出,绝对误差(ABS)和特征融合模块(FFM)对于模型性能的领先性均有贡献。

919e6cb5fe885522b81ccf15bee1b2a3.png

总结

为了准确、高效地衡量UGC视频的绝对质量,我们构建了大规模UGC视频质量评价数据集 —— TaoLive。不同于常见的视频质量评价数据集使用高质量视频作为源视频,TaoLive 数据集收集了3,762个UGC源视频,覆盖不同的内容和质量,并通过专业的主观打分,获取165,528个主观质量分数的标注数据。此外,我们提出一个无参考视频质量评价模型 —— MD-VQA,综合视频的语义、失真、和运动等多维特征,并进行时空域的融合,来衡量视频绝对质量的高低。实验结果表明,MD-VQA在主流视频质量评价数据集和评价指标上,均超过了现有方法,达到了先进性能。

MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝内容业务,监控视频业务的大盘画质的变化,快速、精准地筛选出不同画质水位的直播间和短视频,配合淘宝自研S265编码器、视频增强算子集STaoVideo以及《电商直播高画质开播指南》[1] 等,帮助提升平台内容画质。

2d8fa6e43b190b1a60de74a8d2965000.png

参考文献

【1】 “服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及”,https://mp.weixin.qq.com/s/2-pC1Z9wH60DHpUkCU-_ng.

【2】 RECOMMENDATION ITU-R BT. Methodology for the subjective assessment of the quality of television pictures. International Telecommunication Union, 2002.

【3】 Mingxing Tan and Quoc Le. Efficientnetv2: Smaller models and faster training. In International Conference on Machine Learning, pages 10096–10106. PMLR, 2021.

【4】 Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. Can spatio-temporal 3d cnns retrace the history of 2d cnns and imagenet? In IEEE/CVF CVPR, pages 6546–6555, 2018.

【5】Manish Narwaria, Weisi Lin, and Anmin Liu. Low-complexity video quality assessment using temporal quality variations. IEEE TMM, 14(3):525–535, 2012.

74cda1a9b9c35d13822cc43ef67eef7c.png

团队介绍

该工作主要在大淘宝技术的音视频技术团队的带领下完成,该团队依托淘宝直播、逛逛、手淘首页信息流等内容业务,致力于打造行业领先的音视频技术。团队成员来自海内外知名高校,先后在MSU世界编码器大赛,NTIRE视频增强超分竞赛这样的领域强相关权威赛事上夺魁,并重视与学界的合作与交流。

这项工作的合作方为上海交通大学张文军教授领衔的图像所团队,是数字电视广播及数字媒体处理与传输领域的主要研究力量之一。面向国家战略性新兴产业,顺应网络化、融合化的发展趋势,近年来开展的重点研究领域包括智能媒体融合网络、视频智能分析处理与传输等。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/2724.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Win10+Anconda安装.whl文件到指定环境——以pycocotools为例

Anconda安装.whl文件到指定环境1.Whl文件2.pycocotools安装前言:本篇文章主要记录了两个问题: (1)Win10环境下,利用Anconda安装.whl文件到指定环境的方法; (2)Win10系统安装pycocoto…

【Java闭关修炼】Spring-Spring原始注解开发

【Java闭关修炼】Spring-Spring原始注解开发常用注解原始的set注入资源component注解组件扫描-扫描bean资源配置不同注解名称注入非引用资源不从properties中匹配资源加载properties文件中的属性常用注解 原始的set注入资源 <!-- 引入userDao资源--><bean id &q…

vue面试题(day06)

文章目录前言请谈谈WXML与标准的html的异同&#xff1f;请谈谈WXSS和CSS的异同&#xff1f;请谈谈微信小程序主要目录和文件的作用&#xff1f;请谈谈小程序的双向绑定和vue的异同&#xff1f;简单描述下微信小程序的相关文件类型&#xff1f;微信小程序有哪些传值(传递数据)方…

[图像识别]关于cv2库无法安装的故障问题解决,全网最全解决方案!本人亲身测试,参考了stackoverflow、51CTO等博客文章总结而成

本文范畴&#xff1a;故障排查 cv2 技术 库安装 Linux/Unix 笔记本系统&#xff1a;win10 python版本&#xff1a;3.10 故障问题&#xff1a;无法安装cv2库 适应对象&#xff1a;程序员新手、运维程序员、大学生、青少年对系统感兴趣的爱好者等等 文章目录前言一、cv2库是什么&…

应用程序之间的集成,帮助企业提高效率

企业在使用不同的应用程序时&#xff0c;经常会遭遇到不同应用程序进行协作时出现流通障碍的情况。这对企业业务的正常流转产生了一定的阻力。而使用Zoho Creator创建出的应用程序&#xff0c;就可以轻松和一系列第三方应用程序进行深度集成&#xff0c;帮助企业提高业务效率。…

让业务容器化更安全便捷,阿里云容器镜像服务 ACR 推出免费制品中心

作者&#xff1a;容器镜像服务团队 伴随着企业 IT 数字化转型演变的进程&#xff0c;越来越多的企业采用云原生化架构升级的方式&#xff0c;改善应用开发运维迭代的效率&#xff0c;加速企业业务创新&#xff1b;改进资源弹性管理和迁移的效率&#xff0c;帮助企业降本增效。 …

[Netty源码] 各个组件介绍 (一)

文章目录1.Netty简单的demo2.NIO的定式Api3.组件介绍3.1 EventLoop3.2 Channel3.3 ChannelHandler3.4 ChannnelHandlerContext3.5 ChannelPipeline3.6 Bootstrap3.7 ByteBuf1.Netty简单的demo Netty高并发高性能: 主从Reactor线程模型NIO多路复用非阻塞无锁串行化设计思想支持…

js调用gpt3.5

参考链接&#xff1a;直接在前端调用 GPT-3 API 效果图&#xff1a; <!DOCTYPE html> <html><head><meta charset"UTF-8" /><title>ChatGPT Web Example</title><style>body {font-family: "Helvetica Neue"…

ViewService——一种保证客户端与服务端同步的方法

简介在分布式系统中&#xff0c;最常见的场景就是主备架构。但是如果主机不幸宕机&#xff0c;如何正确的通知客户端当前后端服务器的状况成为一个值得研究的问题。本文描述了一种简单的模型用于解决此问题。背景以一个分布式的Key-Value数据库为背景。数据库对外提供3个接口Ge…

超级实用,解密云原生监控技术,使用prometheus轻松搞定redis监控

前言 大家好&#xff0c;我是沐风晓月&#xff0c;本文收录于《 prometheus监控系列》 &#xff0c;截止目前prometheus专栏已经更新到第8篇文章。 本文中的是prometheus已经安装好&#xff0c;如果你还未安装&#xff0c;可以参考 prometheus安装及使用入门 若你想监控其他…

【JavaEE】 多线程的风险-线程安全

目录 1. 观察线程不安全 2.线程安全的概念 3.线程不安全原因 3.1抢占式执行 3.2修改操作&#xff0c;不是原子性的 3.3内存可见性&#xff0c;引发的线程不安全 3.4指令重排序引发的线程不安全 3.5如何结果上方不安全的问题 1. 观察线程不安全 开局我们先看一段代码&am…

如何做好数字化知识管理?

随着信息技术的迅速发展和普及&#xff0c;现代企业已经逐渐进入到数字化时代。数字化建设对于企业来说&#xff0c;既是一种趋势&#xff0c;也是一种必要性。数字化建设的目的是提高企业的效率、降低成本、优化管理和提升企业的核心竞争力。数字化建设可以帮助企业实现数字化…

Linux内核IO基础知识与概念

什么是 IO在计算机操作系统中&#xff0c;所谓的I/O就是 输入&#xff08;Input&#xff09;和输出&#xff08;Output&#xff09;&#xff0c;也可以理解为读&#xff08;Read&#xff09;和写&#xff08;Write)&#xff0c;针对不同的对象&#xff0c;I/O模式可以划分为磁盘…

Linux内核六大进程通信机制原理

初学操作系统的时候&#xff0c;我就一直懵逼&#xff0c;为啥进程同步与互斥机制里有信号量机制&#xff0c;进程通信里又有信号量机制&#xff0c;然后你再看网络上的各种面试题汇总或者博客&#xff0c;你会发现很多都是千篇一律的进程通信机制有哪些&#xff1f;进程同步与…

自己动手做chatGPT:向量的概念和相关操作

chatGPT的横空出世给人工智能注入一针强心剂&#xff0c;它是历史上以最短时间达到一亿用户的应用。chatGPT的能力相当惊人&#xff0c;它可以用相当流利的语言和人对话&#xff0c;同时能够对用户提出的问题给出相当顺畅的答案。它的出现已经给各个行业带来不小冲击&#xff0…

7个最受瞩目的 Python 库,提升你的开发效率

当今时代&#xff0c;数据分析和处理已经成为了各行各业中不可或缺的一环。Python作为一种非常流行的编程语言&#xff0c;为我们提供了许多强大的工具和库来处理不同类型的数据。 在这篇文章中&#xff0c;我将向您介绍七个非常有用的Python库&#xff0c;这些库各自有着独特…

【Mysql系列】——详细剖析数据库“索引”【上篇】

【Mysql系列】——详细剖析数据库中的核心知识【索引】&#x1f60e;前言&#x1f64c;索引索引概述为什么需要索引&#xff1f;索引的优缺点索引结构索引的结构为什么不是二叉树和红黑树&#xff1f;索引的B树结构索引的Hash结构Hash结构索引的特点思考&#xff1a;为什么Inno…

【排序算法】

比较排序 七大排序算法 ❤️稳定性&#xff1a;假定在待排序的记录序列中&#xff0c;存在多个具有相同的关键字的记录&#xff0c;若经过排序&#xff0c;这些记录的相对次序保持不变&#xff0c;即在原序列中&#xff0c;r[i]r[j]&#xff0c;且r[i]在r[j]之前&#xff0c;而…

Tomcat And Servlet (1)

文章目录1. Tomcat2. 下载安装3. 启动 Tomcat4. 运行 Tomcat5. Servlet5.1 创建项目5.2 引入依赖5.3 创建目录5.4 编写代码5.5 打包程序5.6 部署程序5.7 验证程序6. 安装 Smart Tomcat 插件7. 使用 SmartTomcat 插件8. 常见错误8.1 出现 4048.2 出现 4058.3 出现 5008.4 出现空…

Linux内核进程管理几种CPU调度策略

CPU调度我们知道&#xff0c;程序需要获得CPU的资源才能被调度和执行&#xff0c;那么当一个进程由于某种原因放弃CPU然后进入阻塞状态&#xff0c;下一个获得CPU资源去被调度执行的进程会是谁呢&#xff1f;下图中&#xff0c;进程1因为阻塞放弃CPU资源&#xff0c;此时&#…
最新文章