汇聚音视频新能量 探索行业新蓝海

news/2024/4/24 19:38:16/

视频行业卷成红海,如何突破瓶颈,去探索行业的新蓝海,本次LiveVideoStackCon 2022北京站邀请到快手高级副总裁、研发线负责人于冰,以《汇聚音视频新能量,探索行业新蓝海》为题,从视频行业趋势和痛点出发,结合快手自身的探索、演进历程,分享技术变革和突破的思路,寻求行业新增长点。

文/于冰

编辑/LiveVideoStack

本次分享包括三部分,第一是行业困境,第二是寻求痛点即是寻求机会,第三是探索行业新蓝海。

e5cffe0c386303ed96cf69bfe4955037.jpeg

-01-

行业困境,寒冬尽头未见暖阳

在经历了蓄势、转型、爆发三个阶段后,中国短视频行业发展已进入稳定期。良好的网络设施、移动互联网爆发红利以及PGC转UGC的内容爆发带来的红利,都为音视频行业创造了巨大发展机遇。

第十届中国网络视听大会报告中指出,短视频已经成为用户打开移动手机的第一入口。从技术角度看,音视频行业规模已经迅速发展壮大,五年前从事此行业的人数还比较有限,主要以广电等传统企业提供视频相关技术为主。最近几年,这些人已经快速涌入各个互联网大厂,音视频行业已进入繁荣状态,不断扩大行业规模并提升行业产出。所以,视频化的趋势是不可逆的。

7b3ac984ecaa11300a8871ffcd9e4ccb.jpeg

但也有一些相对不利的情况,2022年手机出货量下降幅度非常大。有些厂商的下降幅度达20%,有些甚至下降了30%。这表明移动互联网的需求已经达到了饱和,抛开经济因素,主要原因是新款手机很难有变革性功能以吸引用户。

246c9ea42580f61091299a60c22ed32c.png

目前移动互联网用户和网络视频的使用率已经非常高,趋于饱和,所以增量市场已经基本没有。

e14d57022667ccfc5d76ca17b022f978.jpeg

几年前,相关数据报告中曾预测VR设备在2020年全球出货量可以达到1600万台,而2023年可以达到2700万,但实际情况是2021年的出货量只有1029万,并且在2022年持续下降。因此可以看出VR设备是否能取得预期的成功还存在较大风险。目前,游戏和社交是VR设备增长的主要原因,节日时人们会将VR设备作为礼物赠送,但距离普遍使用还有很大差距。

c15b4b01bf583d909a44438dc8c9a04b.jpeg

视频的分辨率由1080P发展到2K、4K,越来越高,可以实现的能力也越来越多。然而,问题在于现在的手机屏幕大小已接近极限,除非采用折叠屏,但相关手机销量并不高。而手机屏幕的PPI(即每英寸所拥有的像素数目)也无法让用户明显感知4K和2K之间的差异。有报道称,大多数用户无法区分4K和1080p,这也是需求饱和的风险。

89e03c2b24a408232ad5e7774c6cd0fb.jpeg

toB行业卷成红海,从事toB领域的同学们在过去几年中工作可能并不顺利。如图所示,IDC的报道显示,预计2021年版本中toB预估的增速将超过30%,但实际值仅为19%。因此,它下调了所有预估值。与上文提到的VR相似的是,达成预估值并不容易。此外,传统云厂商、互联网厂商以及运营商都希望在toB市场上分得一定份额。互联网公司凭借技术,运营商依靠资源,各自有增长和溢出的需求。因此,这种增长方式变成存量竞争,但实际上增长并没有那么快。

b107ea00adc9fba0391058aa9e7bdf1c.jpeg

就toC领域而言,2020至2022年整个行业数据表明,头部效应极为强烈。视频行业的GDP明显地聚集在巨头,而创业公司或小型APP的生存环境则不断受到挑战。由于用户更加倾向于使用头部APP,小型APP仅能在有限的用户群体中提高盈利效率,实现自负盈亏。

03e312aab6cf8fee3192d214313ea62c.jpeg

-02-

寻找机会,从行业痛点出发

目前,短视频行业存在三方面机会。视频本身属于重工业。以快手为例,主要致力于两件事情:持续降本并兼顾提升化用户体验。在成本和体验之间存在着方法论。为什么降低成本对快手如此重要?快手需要的计算机资源体量庞大,存储EB级,带宽上百TB,AI算力近1010T FLOPs。AI技术已经越来越多地应用于视频质量评价、增强及压缩。在如此巨大的规模下,每年团队都会被要求成本进一步压缩10%甚至更多。

优化的策略主要在清晰流畅与降低成本之间寻求平衡,这二者是相互矛盾的,因而必须做出取舍。为了实现这样的平衡,可以通过QoS、QoE、大数据、各种AB实验,并对用户进行细分,以达到优化目标。例如,我们会根据用户的爱好、收入水平、所在地域等因素,分析用户对视频需求。此外,我们还发现用户对不同垂类视频的需求也有所区别,对摄影类视频而言,用户更看重清晰度,而对剧情剪辑类视频则不然。

在平衡清晰度和成本之间,有基于ROI的策略可以采取,利用计算资源置换带宽或存储。在视频的不同生命周期,也会有不同的取舍,最终会找到ROI最优点。

ccb0af3fcfc0004e6ef6fcf7a968e35f.jpeg

因此如何进行科学的设定是一个困难的问题,这背后需要一把尺子,而目前行业缺乏好的标准。

另一个机会点在toB服务。近年来,越来越多的互联网公司加入视频行业并积极拥抱视频大趋势。尽管整个行业呈现视频化转型,但我们发现目前一些企业的视频化程度还比较低。由于视频内容的复杂度不同,对应的码率也千差万别,因此如何进行科学的设定是一个复杂的问题,这背后需要一些度量标准。目前,整个行业缺乏可操作的标准,因此我们需要进一步探索。

eb2eb005962c71fe5c9d84e8494fc5c2.jpeg

目前,优质内容的制作效率相对较低,例如制作一部动画往往需要三五年甚至十年,这是由于从创意构思、分镜规划、原画绘制、场景设计、音乐制作到后期制作等,形成了一条非常重的产业链。AIGC技术有可能实现内容大爆发,但这可能并不具备实质价值,因为内容已经呈现过剩趋势,过量生产的作品可能并不能得到用户的关注。然而优质的影视剧仍高度受到用户喜爱,如热剧《狂飙》。这其中最基本的矛盾点在于优质内容的供应依然稀缺,用户反馈视频刷腻了也可间接反映出供给过剩的问题。未来几年,更应该加大对高质量内容的生产投入。

86240dd58bbc0cd25c92e574e9aea311.jpeg

-03-

蓝海显现,激发行业增长点

在蓝海探索的方向上,首先,国内要继续进行基础技术的突破,尤其在音视频方面追求极致。其次,在海外市场,中国工程师研发出的技术具备很高的竞争力。最后,随着AI技术的突破,我们可以抓住技术创新机遇,打造全新的产品和体验,将原有技术提升十倍以上。

564d19f3d07f779c09490de3ebc71622.jpeg

近期,我们重点投入快手视频质量评估(Kuaishou Visual Quality, KVQ)相关工作,这部分很好地体现了快手做视频压缩增强的方法论。在提到音视频时,大家都会非常关注编解码,因为它和体验及成本关系密切。视频的流畅度和清晰度都与成本相关,为了获得更流畅的视频体验,需要进行视频压缩;为了在相同的码率下获得更清晰的视频,就需要采用AI增强的方法。

下图中的闭环部分指的是视频上传后,先进行增强修复,从1080p变成4K,再进行压缩。每进行一次增强,效果相当于提升20%码率,如提升30%,基本就是一代编解码的标准。此外,压缩使用的是私有编解码算法KVC,可以将视频压缩到比HEVC小20-30%。在整个过程中,质量的变化采用KVQ进行监督,从而以衡量端到端的损失。

da19bdb04c34325ae4a5d66ef4008c69.jpeg

快手所采用的是基于transformer模型的数据集,数量达到了千万级,与传统算法的千级数据集在性能上有很大的提升。CVPR2023会议收录了快手音视频论文,在PGC数据集上,我们相较于SOTA的主观相关度提升了5.7%,在UGC数据集上提升了28.7%。传统的SOTA算法主要数据集都集中在PGC内容中。

除此之外,KVQ还可以在哪些应用场景中发挥作用呢?上文提到,简单设置视频码率需要找到RD曲线,进而找到性价比最高的码率点。RD曲线越准确,选择的码率点也就越精准。此外,KVQ还可以衡量增强的收益,KVQ0.1大概相当于20%的码率。可媲美人眼,甚至在和GoldenEye PK时已经超过了他。KVQ已经在快手实现大规模应用落地,从视频推流、直播推流到最终消费策略,能够看到整体视频质量的变化。

428abfdc63b38bf36e5033a567d12949.jpeg

下一个技术突破是PCDN。随着CDN架构的成熟,大家逐渐认识到CDN距离用户越近越好。传统CDN在全网服务器的节点数是数十万起,而整个PCDN会有千万级的节点数。目前PCDN所面临的主要挑战是,由于这些节点和资源的稳定性和带宽质量比原本的骨干网络要差很多,因此需要采用类似Google的方式,把较差的服务器集中在一起做成稳定的集群技术。结合快手端的技术,通过传输和调度,在实现AB实验和QoE指标不掉的前提下,做到大规模扩量。

fd77f8f4bdf18c49d9e6ea4898498fc0.jpeg

目前,快手PCDN占量非常大,因此带宽使用成本大幅降低,让音视频重工业变得更便宜,接近轻工业。有人说,做AI的大模型创业投入非常大,但实际上,做视频的投入会更大,因为视频上传后,带宽的量级通常会达到十亿甚至几十亿级别。我们正在着手将快手的传输协议做成开放标准,快手上传协议为KTP,直播拉流协议为KLP,多码率自适应直播协议为LAS,点播协议为AAS,这些都是领先行业最早提出的标准。现在,我们将这些协议汇总并统称为CMTP,希望能够将其打造为国际标准。未来几年,我们将相关算法整合进大型算法框架中,以解决在推流传输拉流的消费问题。

c1537d8952fc2c801056193d996c159a.jpeg

快手正在重点参与ECM标准的制定,目前数据显示ECM比VVC小30%。

e3445f3dda887824d3ed1f1078d4f401.jpeg

在2022年StreamLake品牌发布会上,我们正式发布SL200芯片,并且今年CCBN展会上也将推出硬件编码器产品。SL200芯片是目前行业中压缩率最高的视频芯片,预计今年进行大规模上线,在视频的直播和短视频场景下带来极致的效率提升。

68b268444b27c0b4ba4cea8439fb61f9.jpeg

除了技术上的突破,我们希望在行业中进行更多开放合作。快手每年在音视频研发工作上投入非常大。而行业内许多中小厂商因为视频渠道和规模不够庞大,在技术投入和深度上较少,但在客户资源生态方面具有很大优势。我们期望更多企业可以与快手技术展开合作,形成优势互补,大家一起将蛋糕做得更大。

333c43a7e302b8bec7ed8641687c7d02.jpeg

关于海外,这里和大家分享一个故事。我的朋友从事数据库相关工作,他说,在为国外客户提供服务时,中国工程师有一个突出的特点——修复bug的速度非常快。在国外,工程师通常按月计算修bug的时间,而中国工程师则按天甚至按小时计算,这也成为了国外客户选择购买中国产品的一个原因。

据下图表数据显示,中国人口从2022年开始不再增长,而世界人口却持续增长。此外,虽然在中国手机出货量大幅下降,但在全球范围内却没有出现下滑。这表明国外市场的发展可能和国内几年前的水平相当。

17ee853f8966b50b6cff4643aababde4.jpeg

bc2891f1b5a8412ea121e062907c7081.jpeg

巴西和印尼网络的发展情况,这是国内几年前的水平。

2948363da2e1703d946908917b6c3d3f.jpeg

综上,我们许多先进的技术可以很好地在海外得到应用。目前,海外处于移动互联网增长的中段,我们可以将国内在短视频领域先进的技术复制到海外市场,让国外享受到我们的技术红利,赋能全球,为海外用户带来更好的服务和体验。

在本次分享中,所有的图片以及背景图都是由AI绘制的。如果采用人工手绘,则可能需要几倍的时间。

0472e2c891144cb109f1447b98be4952.jpeg

日常拍摄一组照片所需的成本包括模特、化妆师、灯光、服装、外景、摄影和后期制作。而现在,通过AI,只需花费几分钟,就能获得一组照片。除了照片,AI还可以合成视频。

52b1d962a0afe0e95028b6f611cb4897.jpeg

62c943b3f38293bc9d753bbf4f247bca.jpeg

装修方面的应用:输入毛坯照片即可获得装修方案

Diffusion技术简单来说,是通过高斯模糊来训练视频生成的能力,可以通过大数据学习画师的技能。这是一项非常先进的技术突破。在2022年,Diffusion的进展非常迅速,从最初能够推理1000步,到现在已经可以推理十几步。它可以与编解码技术很好地结合,编解码本身是压缩和重建的过程。当压缩到极致时,只需要用高维简化的特征就可以生成视频。未来,我们可以期待手机中装载非常大的模型,只需要简单的指令即可重建所需内容。

fb803f4eb727b99dff80f5513a09dfb8.jpeg

通过提取视频的基本轮廓特征,并结合prompt技术,可以生成更加清晰的内容。未来这项技术有望将视频压缩占比相较现在小100倍。

442a216c84ee926c88a9a875c4fb962a.jpeg

55187e584e121e7499d802d22320f650.jpeg

大家都知道热门美剧《硅谷》中最具突破性的技术就是Pied Piper,如果能实现该技术,那么,未来技术的发展必将迎来更大突破。

以上是本次的分享,谢谢!


e5eedd2ff9c1340293deae15c5fed71a.jpeg

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台,如果你在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱:speaker@livevideostack.com。


http://www.ppmy.cn/news/47693.html

相关文章

MySQL索引15连问,你能坚持到第几问?

目录 1.索引是什么? 2.MySQL索引有哪些类型 3.索引什么时候会失效? 4.哪些场景不适合建立索引? 5.为什么要用 B树,为什么不用二叉树? 6.一次B树索引树查找过程 7.什么是回表? 如何减少回表? 8.什么是覆盖索引? 9.聊聊索引的最左前缀原则 10.索引下…

Python爬虫基础之如何对爬取到的数据进行解析

目录 1. 前言2. Xpath2.1 插件/库安装2.2 基础使用2.3 Xpath表达式2.4 案例演示2.4.1 某度网站案例 3. JsonPath3.1 库安装3.2 基础使用3.2 JsonPath表达式3.3 案例演示 4. BeautifulSoup4.1 库安装4.2 基础使用4.3 常见方法4.4 案例演示 参考文献 原文地址:https:/…

【Android笔记93】Android小案例(三)之模仿小米商城(首页商品展示界面)

这篇文章,主要介绍Android小案例(三)之模仿小米商城(首页商品展示界面)。 一、模仿小米商城(首页布局) 1.1、首页运行效果 这篇文章实现的首页布局界面如下所示: 1.2、实现思路 首页轮播图,这里采用一个Banner组件实现,不知道的可以看下我之前写的一篇文章【【And…

Chatbox - 一款适用于 GPT-4 / GPT-3.5 (OpenAI API) 的桌面应用程序

简介 给大家推荐一款适用于 GPT-4 / GPT-3.5 (OpenAI API) 的桌面应用程 ChatBox,开源的 ChatGPT API (OpenAI API) 跨平台桌面客户端,Prompt 的调试与管理工具,也可以用作 ChatGPT Plus 平替。 下载 ► chatBox 下载安装 ⇲ 为什么不直接…

使用Selenium抓取网页动态内容

Selenium 介绍 Selenium 是一个自动化测试工具,支持多种浏览器,包括 Chrome、Firefox、Edge 等,具有强大的浏览器自动化能力,可以用于Web应用程序的自动化测试、数据挖掘等领域。Selenium的主要特点有: 支持多种浏览…

kafka集群节点重启后未被topic识别

1.案例 kafka集群的节点重启后,topic为apex的主题识别不到重启后的broker节点id,但是还能识别到副本集还在原来的broker节点上 在kafka manager上查看 继续往下查看 2.查看kafka日志报错原因 以下是两个不同的broker节点报错的报错日志 tail -f /etc/kafka/kafka/logs/ka…

C++之入门之缺省参数函数重载引用

文章目录 前言一、缺省参数1.缺省参数的概念2.缺省函数的分类(1)全缺省参数(2)半缺省参数 3.使用注意 二、函数重载1.函数重载的概念3.函数重载的原理--名字修饰(name Mangling) 三、引用1.引用的概念2.引用特性3.引用的使用 前言…

Java每日一练(20230417)

目录 1. N 皇后 🌟🌟🌟 2. 搜索二维矩阵 🌟🌟 3. 发奖金问题 🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 专栏 …

Java反射面试总结(二)

为什么引入反射概念?反射机制的应用有哪些? 我们来看一下 Oracle 官方文档中对反射的描述: 从 Oracle 官方文档中可以看出,反射主要应用在以下几方面: 反射让开发人员可以通过外部类的全路径名创建对象,…

The path of studying 1

目录 小知识点总结 其他问题 1.一个关于c盘固执的问题 2.一个关于pytorch安装的固执问题 3.关于服务器结束程序进程 4.关于python中的glob 5.关于分布式训练的问题 遇到的奇葩问题 小知识点总结 1.python find() # 返回的是字符串中需要寻找的字符的位置 python fi…

擎创动态 | 二等奖!擎创携手国家电网喜获“浪潮信息杯”绝佳成绩

近日,2022电力行业信息化年会于湖南省长沙市圆满落下帷幕。据悉,今年是电力行业信息化年会举办的第二十周年,年会的主题为“低碳数字新动力 电力转型新发展”,紧密围绕“十四五”数据经济发展,“双碳”战略、新型电力系…

RHCE-DNS服务器

主机名称解析服务器配置 要求: 1、建立DNS服务器,负责解析的域为openedu.com; 建立DNS首先需要在服务器端配置主配置文件: (1)临时关闭防火墙和selinux:systemctl stop firewalld;…

USRP B210同步采集

MIMO Multiple Input Multiple Output的缩写,通过多只天线同时进行收发,增加无线网络基地台的涵盖范围。 MIMO(多输入多输出)是一项关键的无线技术,它可以将一个传输信号分割成多个流,而这些流则分散地传…

生产模块-报工自动产生返工订单(触发点-Trigger Point)

目录 应用场景 配置点-完整模式(通过自定义状态触发) 其他说明 应用场景 一般来说适合自动化程度高,生产集成了MES和质检的功能,工序报工时发生返工业务时,根据返工的指令,系统直接下达返工订单。例如&…

通俗讲解什么是Socket通讯

Socket通讯原理 1、什么是Socket? Socket,即套接字。就是两台主机之间逻辑连接的端点。(通俗来说:网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket)。 Socket是一套…

jar包依赖冲突该怎么解决(IT枫斗者)

jar包依赖冲突该怎么解决(IT枫斗者) maven jar包依赖规则 间接依赖路径最短优先一个项目依赖了a和b两个jar包,其中a-b-c1.0,d-e-c1.0,由于c1.0路径最短,所以项目最后使用的jar包是c1.0pom文件中申明顺序优先有人就问…

linux内核开发第5讲:字符设备驱动的Makefile和驱动的插入和卸载

文章目录 1.Makefile文件2.解析Makefile2.1 Makefile 条件判断2.2 obj-m obj-y2.3 Linux uname 命令2.4 make -C ( K D I R ) M (KDIR) M (KDIR)M(PWD) 3.操作实践3.1 make参数3.2 执行make3.3 清理内核日志3.4 加载驱动3.5 查看驱动3.6 卸载驱动 1.Makefile文件 ifneq ($(K…

TensorFlow 卷积神经网络实用指南:1~5

原文:Hands-On Convolutional Neural Networks with TensorFlow 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象&am…

迅为RK3588核心板平台新增工业级方案

迅为基于瑞芯微RK3588平台,提供商业级、工业级和国产化核心板,工业级板卡温度可达-40度到85度,国产化板卡从内存,存储等每一个元器件全部采用国产物料。不同板卡,满足各个行业需求。 iTOP-3588核心板参数 CPU &#x…

App 抓包提示网络异常怎么破?

背景 当你测试App的时候,想要通过Fiddler/Charles等工具抓包看下https请求的数据情况,发现大部分的App都提示网络异常/无数据等等信息。以“贝壳找房”为例: Fiddler中看到的请求是这样的: 你可能开始找证书的问题:是…