快报道
声网赵斌:RTE 体验提升,新一代 Killer App 将成为现实丨RTE 2022
各位开发者、客户、合作伙伴,欢迎大家来到 RTE 2022 现场。聚享万象,共同创新,又到了一年一度探讨行业发展与未来趋势的时候。我不由得想起在8年前第一次 RTE 大会上,我们预期实时互动在未来可能会是一个独立行业,当时很多从业者与互联网相关人士还很难相信。但今天,我们很高兴的看到,这已经成为一个行业共识。在中国市场,有众多的厂商和开发者和我们共同参与这个领域的创新;在海外,也有不同的厂商在采用相同的概念或走向我们共同的方向。
以 Gartner 为例,过去几年,他们对行业的定义沿用从 CPaaS 到 VideoPaaS。两三周前,在 Gartner 最新研究报告里,引用了 Collabration PaaS 的概念。很明显的看到,他们正在逐步的从 CPaaS、VideoPaaS 延伸至人和人之间互动和协作的价值主张,这与RTE 的定义是不谋而合的。另外还有一个概念是 Social PaaS,Social PaaS 起源于一个 toC 的社交应用,这两年也逐渐转向了以 API 服务为核心的 PaaS 服务方向。从 Social PaaS 的字面意思理解,正是将拥有的实时音视频能力开放之后,赋能给人的 Social 或 Activity。这也和 RTE 讲到的,人和人之间音视频互动能力打通之后,赋能各种社会生活的定义是一脉相承的。除此之外,我们也很高兴的看到,在全球范围内也逐渐凝聚了这样的共识,很多的厂商也会直接引用 RTE 这个名词。
元宇宙热度不减
RTE 行业标准体系进化
过去一年,元宇宙仍然是一个很大的 buzzword。众所周知,Meta 改名之后在元宇宙方面投入了巨资,但也产生了巨亏。在全球的 App Store 上,Meta 类的应用依然屡次登顶,这也正好说明了元宇宙这条探索之路并非一帆风顺,但探索的过程里也会产生非常有吸引力的玩法。这也印证了从远期来看,元宇宙的前景非常值得看好,但从短期来看,它依然存在着一些距离。
中国常态化疫情防控进一步促发了线上办公、线上考试、远程医疗、线上问诊以及直播电商等领域的持续迭代与进化。
此外,出海在中国也成了近几年的趋势,例如在互动娱乐方面,全球绝大多数畅销的直播 App 都来自于中国。
社交领域,“直播+”逐渐成为所有泛娱乐类场景下的常态标配。直播+派对、直播+短视频、直播+小游戏等玩法的出现极大的丰富了直播的体验,也让直播的互动性和趣味性得到了很大的提高。
语聊+游戏、语聊+Club 也逐渐成为全球范围内的社交默认形态。
教育领域,虽然监管要求推动行业发生了一些变化,但从某广告平台的投放数据来看,职业教育依然占据教育行业广告投放 Top10 榜单,这说明职业教育在“双减”之后仍有希望持续发展。
在新的监管要求下,很多从业者开始从规模竞争走向精细化运营,持续迭代业务和进化服务,比如已经成为社会事件的“新东方全面转型电商”,也是教育行业再创业的一种进化,我们很高兴看到,我们所持续努力的实时互动方向,为他们创造了更多可能性。
游戏领域,版号重发带动行业回暖,但更重要的是,在游戏出海方面,中国厂商取得了巨大成长,并成为越来越无法忽视的核心玩家。游戏技术融合的游戏引擎、虚拟人、XR、实时互动以及云游戏等“数实融合”的形态,成为其重要的发展动力。
电商直播在海外市场逐渐主流化,它成功的验证了其可行性和商业价值。
IoT 领域,可视门铃/门锁在中国成为了爆品,流媒体能力在 IoT 品类的纵深渗透给行业创造了新的活力和价值空间。
与此同时,行业协作和探讨带来了标准体系的进化。今年,元宇宙国际标准联盟“元宇宙标准论坛”正式成立,声网也有幸成为了首批会员。该联盟一定会对未来元宇宙类的应用和业务发展提供很大的动力。
今年,ChinaJoy 首次在 MetaCJ 元宇宙数字世界中举办,除去疫情的原因,它所带来的吸引性、趣味性以及便利性,让所有参会的观众都拥有很好的体验。
互联网直播录音制品的试行付酬标准出台,行业逐渐走向规范化。声网携手音集协、AllBy Music 等版权合作伙伴,整合了国内数十万音乐人和数万家音乐版权公司的版权内容,提供了一个最为完整、全面以及规范的版权合作方案。覆盖在线K歌、多人语聊房、秀场直播、电商直播等业务场景。我们认为,这种规范的经营模型,未来将会变成主流。
WebRTC 在去年正式标准化之后,可以跟 WebRTC 标准实现配合的浏览器、W3C等标准的进化,为 WebRTC 能力提供了更大的空间。比如 WebAssembly 就为 WebRTC 支持噪声抑制、背景分割、视频特效、灯光效果等特性提供了可能。
WebCodecs、WebTransport 等标准进化,已经开始结合正式标准化的 WebRTC 能力,帮助 Web 端实时互动质量逐步对齐 Native 端的体验质量。未来,Web 端实时互动的应用也将带来非常多的全新场景和玩法。
实时互动行业从备受争议到全面发展、并在全世界范围受到认可,中国在这方面的产业研究和标准化都走在了前面,最具代表性的事件就是《实时互动产业发展研究报告》的发布。该报告系统且有深度的研究和界定了实时互动产业的概念以及未来的发展空间,RTE 行业在市场上以此为标志得到了广泛的认可。
继去年在实时互联网大会上发布了万象图谱之后,今年,声网又发布了行业首本聚焦 RTE 应用场景解析的专业书籍——《实时万象》,我们希望和各位合作伙伴一起聚焦和探讨 RTE 行业应用场景的前景。
行业共识逐步形成
RTE 边界逐渐清晰
随着行业共识的逐步形成,RTE 的概念以及边界也逐步清晰。RTC 从 Communication 的视角,更多是在强调对语义信息进行高质量和高效率的传递。而 RTE 更聚焦用户所需要的共享时空(场景),并且能够达到或者超越线下场景的互动体验和效果,这是 RTE 真正聚焦的部分,其内涵和外延的范围远远超过了 RTC 的领域。
从 RTC 到 RTE,是基础能力到场景化能力的快速进化,这也呼唤新一代 SDK 为 RTE 场景构建做好准备。
声网最近推出的 Native NG SDK 4.0.0 正是为下一代场景而生的,其在模块化设计上提供了更加灵活、易于解耦和组合的能力。还提供了强大的插件平台,让各种场景的构建、以及插件开发更加易用、方便。同时,还可以很容易构建各种应用场景的 aPaaS,这种场景工具库的完备,为下一代场景的诞生做好了充分的准备。
随着行业共识的逐步形成,虚拟网也逐渐成为行业标配。从 2015 年声网发布首个软件定义虚拟实时网 SD-RTN™ 以来,越来越多的厂商也开始提出自己的虚拟网计划。我们很高兴看到最早的设想和实践逐渐成为行业共识,也很荣幸带动了客户和开发者的整体服务体验提升。
与此同时,虚拟网在今天仍然有着巨大且崭新的发展空间,以 QoS 保障为例,如果不能达到 99.999%,就很难以一个高质量的体验来保证客户的质量体验需求。那么,一个高质量的虚拟网为什么有更高的发展空间呢?微延迟场景就是它能够赋能的一部分,微延迟场景的支持,进一步提高 RTE 服务的门槛。微延迟在 150 毫秒左右就能达到人所不能够感知质量差异的体验,但在平行驾驶、远程K歌等实际场景下,150 毫秒是远远不够的,这些场景一般都需要小于 100 毫秒的延迟,这就需要传输技术以及端上低延迟技术的进一步优化来保障。
另外,实时信令能力也逐渐成为 RTE 服务的新基建。声网 RTM 2.0,无论是从延迟大小、并发限制以及高可靠上都了达到更高的指标,同时在能力上也更能适应场景构建的诉求。
自从我们把AI算法首个全面引入到 RTC 领域之后,我们发现音频方向有很多进化空间。在过去一年里,我们利用 AI 降噪 + AI 回声消除+空间音频的组合,给各种场景带来了更加纯净与沉浸的听觉体验。
我们在AI降噪领域取得了突破性的进展,和传统的 DSP 算法相比,AI降噪能够有效降低各种突发式或不持续的噪声。在传统 DSP 的回声消除里,很难把音乐的外放回声消净,这导致很多喜欢 K 歌的用户的声音严重受损。有了 AI 回声消除之后,可以精准的把伴奏回声消除掉,同时又能精确的不伤害到歌手的回声。用户在不戴耳机、外放音乐的情况下仍然可以有非常好的效果,这就是 AI 回声消除能够创造的魔术般效果。
空间音频对元宇宙的重要性是不容忽视的。空间音频并不是只要有左右声道,就立刻有空间感了。人的耳朵是一个超级敏感的器官,对任何声音的变化都是有感知和分辨能力的,除了左右方位,还有空间大小、距离远近、空间塞满物体还是比较空旷等等。这些如果跟真实有差异,在元宇宙场景下的现场感、沉浸感和真实感就会有大大的损失。
过去一年,元宇宙的热度仍然在持续飙升,屡次有 App 冲到 App Store 榜首,但宣传效果距离现实仍然尚远。经过一年多的行业实践,我们对元宇宙也有了进一步新的认知。
BeReal 应用的爆火让我们看到,真人形象远比虚拟形象更能够在陌生人社交中满足需求。我们发现用户在使用陌生人社交应用时,一定程度上是在进行一场与孤独感的战争。当你与孤独感对抗的时候,虚拟形象的丰富度和真实度远远不如真人形象更能够让你感受克服了孤独感。
而在非陌生人社交领域,例如熟人社交、兴趣社交场景下,虚拟形象也是偏小众的弱需求。熟人社交很多时候融合了通讯工具的作用。这种情况下每个人大体上对另外一个人都是知道或了解的,甚至很熟悉,这时候形象的改造和变化其实是一个很弱的诉求。
再比如我们发现在很多兴趣社交应用下,玩家更感兴趣的是这个兴趣话题下你发表的观点、提供的信息和内容。而在个人身份识别上做形象补充,也是非常弱的诉求和价值点。
语聊房场景下,很多人认为在声音社交下补充虚拟形象可以让玩法更丰富、更好玩、趣味性更强。人的耳朵是非常敏感的,真实的声音可以让玩家产生很强的趣味性和丰富的联想。同时人也是一种视觉动物,当你放了一个虚拟形象时,人的注意力立刻会被吸引过去。关于说话人的想象,很大程度上就被视觉形象定义了,更糟糕的是,很多虚拟形象的丰富和细腻程度是远远不够的,这也是语聊房尝试使用虚拟形象的一个困境。
当然,这些困境也未必没有突破的方法,如果想在社交下有大的发挥,玩法上还有更多需要突破的地方。鉴于此,声网首发了 Meta 系列方案,并把自己元宇宙方面的能力和 API 的进化聚焦在了基础能力模块上,并且是以组合的方式来提供,从而方便合作伙伴灵活选用其中的组件,自行创造不同方式的组合和互动玩法。
我们相信,这些基础能力模块可以和我们广泛的合作伙伴一起持续打造新的玩法和场景,从而争取更快的发现高价值、高黏性与能够普及的玩法,创造社交泛娱乐实时互动领域的新空间。
还有一个值得关注的变化,传统直播模式正在受到新的挑战,电商直播进入中腰部主播竞争时代,直播保障对象逐渐从大主播“重保”转变为“普保”。另外,电商直播融合了社交新模式之后,更受行业青睐,电商用户的社交互动需求也开始受到重视。
实时盘直播、多视角直播、上架类电商直播等基于低延时互动的新兴直播受到关注。越来越多的直播场景和应用在尝试采用更低延时的互动直播能力,从而创造更强的黏性、体验和销售结果。据统计,声网低延时场景用量增长了 4 倍,经过技术的改进和提升,低延时直播的卡顿率低于 HLS、易用性对齐 CDN、画质突破现有条件限制,为直播平台提供了更高质量、全面超越过去的全新玩法和体验空间。
结合声网最新一代的视频技术 ARTnT,在同样的带宽下面,可以系统性持续实现更高画质.比如在 360p 分辨率下可以实现 480p 的画质,480p 可以感受到 540p 甚至是 720p 的画质,画质提升也间接带来业务增长。
在 IoT 行业,实时互动能力为 IoT 产品提供了更大的增值空间以及产品溢价。比如门铃门锁、宠物类设备、IP 摄像头等,在拥有实时互动能力之后,产品定价可以得到很大程度的提升。
RTE 体验提升或将让
新一代 Killer APP 成为现实
关于未来的展望。首先是办公的趋势,以美国为例,进入后疫情时代以来,混合办公模式成为主流现象,既不是纯粹的居家办公,也不是完全回到办公室;另外,“一起看场景”将借力世界杯迎来爆发,我们也预期,今年世界杯也许会给大家更多惊喜。不仅仅是一边看一边交流,还可能会涉及到很多有趣的玩法,也许你还可以体验到“先看一步”的乐趣,或者至少能够保证在同样的平台上大家的延迟是一致的。
元宇宙应用仍然会加速探索和发展,“错失恐惧症状(FOMO)”将发挥关键作用,但也会出现更多有趣的、扎实的进化。
随着各大车厂的加速验证以及多地政府紧锣密鼓的完善相关法规,在一些区域市场,无人驾驶有可能借助远程平行驾驶的方式更早的落地使用,这也对实时互动能力的保障,提出了更高的要求。
越来越多的传统企业将开始借用 RTE 能力在线上提供便利的服务以及内部协作机制,这意味着,移动化、云化、低代码封装将成为企业数字化应用的主流。
随着更高清的画面对业务价值的凸显,RTE 场景的主流分辨率将达到 720p。与此同时,和 720P 视觉体验相似的空间音频和音频沉浸式体验,也将成为 RTE 场景的重要指标。
RTE 场景虽然已经有了很多成熟的使用,但它的体验仍然在持续提升。这不由得让我想起 Union Square Ventures 曾经在 2018 年发表的一篇文章上的一个核心观点:每一代基础设施的提升将会促发新一代 Killer App 的诞生、成长和成熟。反过来,新一代 Killer App 的成熟也会促进下一代基础设施的出现。我们预期,前面提到的这些 RTE 体验的提升将让新一代 Killer APP 成为现实。
我们也很高兴跟各位开发者和合作伙伴、客户一起去探讨,怎么去利用这些体验的提升来去寻找创造新一代 Killer App 的机会,希望大家享受这两天的大会,共同探讨,一起有所发现,在未来的业务里面共同有所创造。
谢谢。