元宇宙路还远，但实时互动的时代已经来了

2022-11-07 16:31:41荣平鸿

导读2015年的第一届RTC大会，议程里只有一个主会场，一个分论坛和一个WorkShop，参与者不到1000人。声网攒起这场局的时候仅仅成立两年，那时候...

2015年的第一届RTC大会，议程里只有一个主会场，一个分论坛和一个WorkShop，参与者不到1000人。声网攒起这场局的时候仅仅成立两年，那时候一个关于实时互动的开发者大会更像一场滞涩的布道。

RTC（Real time communication），翻译过来叫做实时通信，也可以被理解为实时音视频，这在七年前是一个新词。但风已经吹起，2016年抖音出现，将开始一场与刚完成转型的快手之间的竞争，同年淘宝上线直播功能。短视频与直播电商的大幕几乎是同时拉开的，实时音视频技术则是藏于背后的概念，开始酝酿一场对于社交甚至整个泛娱乐领域产品的全球变革。谷歌、阿里巴巴、陌陌以及快手的身影，紧接着出现在2016年的第二届RTC大会上。

对于实时互动曾经的猜想变成了确实的生长空间。七年之后，全球娱乐应用年收入突破100亿美元，全球社交应用年下载量也首次越过70亿次。疫情影响下泛娱乐应用的增长势头迅猛，实时音视频已几乎成为市面上所有产品的基本要素，全球范围内所有泛娱乐产品用户的使用总时长超过了10万亿分钟每月。

声网在2020年完成上市，并且在上市招股书中首次公开提出“RTE（Real-Time Engagement）”的概念，后者从2021年开始代替RTC成为这场大会新的名字。

“RTE更聚焦用户所需要的共享时空，即俗话说的场景。并且能够达到或者超越线下场景的互动体验和效果，这是RTE真正聚焦的部分，其内涵和外延的范围远远超过了RTC的领域。”声网创始人兼CEO赵斌在今年的RTE大会上表示。

从RTC到RTE，也是一条从基础能力到场景化能力进化的道路。曾在最初引领起实时互动技术风潮的声网，也已经建立起一个丰富生态，在RTC赛道的市场占有率达到43.4%，稳居市场第一。泛娱乐领域新的变革，也会从声网的技术革新开始。

新的变革

全球头部的社交泛娱乐用户的产品里包含直播场景的比例开始超过50%。在全球社交Top100的应用中，有大约20%左右的应用包含RTC实时音视频的能力。“而在互动社交玩法的快速迭代中，一些对于声音层面更细颗粒度的要求开始出现”，声网泛娱乐产品负责人李斯特表示。

相比画面，声音是更原生的素材，也更容易左右一种沉浸感的塑造或被破坏。泛娱乐产品的演进是一场对于沉浸感的追逐，最大程度还原真实的听觉感受也引领着声网最新的的技术革新。

随着深度学习的发展，当前基于数据驱动的 AI 语音降噪算法发展迅猛。几年前，声网成为首个将 AI 算法全面引入实时互动领域的技术服务商，今年声网在AI降噪技术上取得了突破性进展，已经可以做到对于上百种突发性噪音的有效抑制。

与AI降噪相对的是传统的DSP（digital signal processing）算法降噪。后者的工作原理是先用麦克风获取外部噪音，转换成数字信号后主动转换出一个与噪音相反的反向声波来抵消，比如Air Pods或者Bose做的降噪处理一样。但DSP算法降噪的缺点是这个转化再生成反向声波的过程需要时间，这会造成噪音与降噪效果之间产生延迟，在某些对于声音极度严苛的场景——比如冥想——这种噪音的出现会严重影响体验。

“常见的电视噪音，开关门或装修的声音，或者玩游戏时手指与屏幕接触的一些声音，我们都有对应的一些算法模型去做有针对性的消除，”李斯特表示。

AI降噪相较于DSP算法等传统降噪思路的一大优势是其不依赖于任何假设条件，因此处理非稳态噪声效果显著。这让前者它能有效的降低各种突发式、不持续、甚至不规律的噪声信号。并且作为一种纯软件算法，AI降噪并不依赖于硬件。也就是说，这种降噪能力将会以超低延迟的端上消除模式实现。

空间音频领域的技术进步同样令人期待。

如何依靠声音来描述位置感，这是在虚拟中塑造出临场感的关键。但空间感并不只是左右声道，声网试图在3D的空间中去重建声音在真实环境下的物理效果，并实现了一些具体的效果。

声网3D空间音频通过纯软件算法方案，模拟头部球面区域立体声场，使用户在音频听感上具有空间感。当用户操作虚拟人物在虚拟场景里移动，可以实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度，呈现不同声音效果。

“包括声音在传播的过程中的阻碍、衍射、绕射，声音在互相影响造成的一些混响，以及在一定范围内的一些人声模糊的效果”，李斯特表示。

人声模糊功能实现了对环境中人声的模糊化，这意味着类似现实场景中——比如酒吧或剧院——环境氛围中存在嘈杂的人声，但当你在与朋友交谈时，实际上听不清其他人在说什么的效果可以被还原出来。除此之外，声网也实现了空气衰减模拟的功能——当朋友在虚拟空间中位置变远，其声音也会变弱。

“易用”、“沉浸感”以及“有趣”，是声网作为一家技术服务商所感受到的泛娱乐社交产品对于音视频能力的核心需求。关于前两者，AI降噪技术是很好的例子。降噪技术的进步会迅速提升音视频产品对于环境的宽容度，而纯软件算法的研发方向也提升了技术的易用性对于设备的宽容度，这一切都指向“沉浸感”的高效实现。

而“有趣”是更天马行空的事，随着新的场景和玩法在近几年不断涌现，Z时代群体们究竟在寻找一种怎样的社交和娱乐方式，轮廓也在逐渐清晰。

去找年轻人想要的

无论是在中东迅速流行起来的语聊房产品Yalla，还是日本的二次元音频社区LisPon，或是在拉美爆红的Oasis，背后都呈现出一种多元化的娱乐社交倾向。这曾被描述为一种“松圈主义”，即现在的年轻用户相比以前爱好更加多元，却更难被单一的事物或圈子完全吸引，Z时代的年轻人更偏爱一种“不亲近，也不疏离”的距离感，以这种方式增大自己与这个世界的接触面，并在这个过程中寻找认同。

如果说的通俗一些，从近来火爆的泛娱乐产品中寻找共性的话，Z时代年轻人寻求多元而更加个性化的玩法，并且欢迎这些丰富的场景最终切入社交场景，这开始成为年轻人找到自己的同类和社区的常规方式。于是许多结合了游戏或直播元素的社交产品在近几年开始聚起声量。

李斯特表示，声网在互动游戏、组件化的音乐能力等方面都比之前开放了更多能力。比如游戏中对于语音识别以及多人竞技等复杂互动场景的支持；在音乐场景中对歌词组件、演唱打分等游戏玩法，声网会提供对应的开源项目，帮助开发者伙伴能够更快完成基础能力的搭载。

“音乐正版化是最近一年我们看到的大趋势。在直播、语聊领域，过往大家通过本地播放背景音等手段去获得在线互动的一些音乐体验。一方面这样的体验可能不是特别好，另外一方面也有巨大的版权风险。”

随着直播的兴起，音乐侵权开始成为一个愈发尖锐的问题而开始被重视。2021年6月1日开始施行的新《著作权法》中明确规定，网络直播中使用音乐录音制品应该向录音制作者支付报酬。

声网今年携手中国音像著作权集体管理协会，推出了版权音乐曲库。曲库中整合了约25万首以上的明星热门单曲，目前包含了高品质音源、逐字（音）歌词等一些完整的素材，并支持直播、语聊房等泛娱乐全场景调用。

而元宇宙的概念看上去是年轻人设想中沉浸而多元的终极泛娱乐产品。

2020年，几乎没有预兆的，一款主打元宇宙社交的产品Oasis在登陆巴西两个月后爆火，上线个月就已登顶巴西社交类2 AppApp 榜单，并在一年内超越Facebook、Twitter、Instagram成为巴西年轻人最热捧的应用之一。Oasis的热度从南美地区开始扩散，随即进入美国、菲律宾等十多个国家名列社交类 App 榜单前列，并在2021年Q4增长超过600万注册用户，成为全球范围内增长最快的元宇宙社交产品之一。

人们在Oasis里创造自己的虚拟形象，然后一起玩游戏、唱歌、找到自己的兴趣Club。这里有理论上可以无限扩展的“虚拟活动”。在这样不断丰富的玩法和场景背后，作为底层技术服务商的声网也在不断积累着技术迭代的经验。

声网针对元宇宙产品开发者所面对的不同场景提供组件化能力，这能够为开发者降低产品开发门槛，也更便于小团队在初期更迅速的将创意落地。包括云K歌、虚拟漫展、虚拟招聘会，虚拟演唱会以及元宇宙婚礼，声网方面表示今年已有10多个合作伙伴上线了有一定用户影响力的元宇宙应用。