RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图-威尔德官网-成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图行业新闻

威尔德编辑 25天前 2952

10月25日，由声网和 RTE 开发者社区联合主办的 RTE2024 第十届实时互联网大会在北京正式开幕，本届大会主题为“AI 爱”，覆盖AI、出海、社交泛娱乐、IoT、Voice AI、空间计算等20+行业及技术分论坛。

今年是声网成立的十周年，也是 RTE 大会的第十届。十年间，实时互动从“理念”发展成一个“行业”。实时互动技术不仅助力社交泛娱乐、在线教育、IoT、企业服务等几十个行业、数百个场景实现了跨越式成长，也支撑了诸多互联网风口的进化，从过去的电商直播、互联网医疗、秀场直播到如今的大模型，都离不开 RTE 能力的参与。

在全新的生成式 AI 时代，RTE 与 AI 也将迎来更多可能性。25日上午的 RTE2024 主论坛中，声网创始人兼 CEO 赵斌、Lepton AI 创始人兼 CEO 贾扬清、声网首席科学家、CTO 钟声分别带来主题演讲。赵斌分享了声网十年以来专注实时互动行业的深刻洞察，以及他对 RTE 在生成式 AI 时代下未来发展的趋势判断。贾扬清则站在 AI 基础设施的视角下，分享了他对 AI 应用、云、和 GPU 算力云技术的独到观点。钟声的主题演讲聚焦在对实时 AI 基础设施的探讨上，并分享了 AI 与 RTE 结合的前沿技术实践。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

赵斌：生成式 AI 将驱动 IT 行业四大变革

生成式 AI 正在驱动 IT 行业发生大变革，赵斌认为，这一趋势主要体现在四个层面：终端、软件、云和人机界面。在终端上，大模型能力将驱动 PC 和 Phone 往 AI PC 和 AI Phone 的方向进化。在软件上，所有的软件都可以、也将会通过大模型重新实现，并从 Software with AI 发展至 AI Native Software 。在云的层面，所有云都需要具备对大模型训练和推理的能力，AI Native Cloud 将成为主流。此外，人机界面的主流交互方式也将从键盘、鼠标、触屏变成自然语言对话界面（LUI）。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

随着生成式 AI 成为下个时代 IT 行业进化的主题，RTE 也成为了多模态应用和基础设施中一个关键的部分。10月初，声网的兄弟公司 Agora 作为语音 API 合作者，出现在了OpenAI 发布的 Realtime API 公开测试版中。

在此次大会中，赵斌表示，声网与 MiniMax 正在打磨中国第一个Realtime API。赵斌也展示了声网基于 MiniMax Realtime API 打造的人工智能体。在演示视频中，人与智能体轻松流畅的进行实时语音对话。当人类打断智能体并提出新的疑问时，智能体也能够灵敏的快速反应，实现了与人类自然流畅的对话。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

在生成式 AI 的大潮下，RTE 将会提供更为广阔的空间。赵斌也在分享中宣布，声网正式发布了 RTE+AI 能力全景图。在全景图中，声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度，清晰呈现了当下 RTE 与 AI 相结合的技术能力与应用方案。生成式 AI 与RTE 结合带来的场景创新，将成为下一个十年的主题。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

过去十年，声网不仅见证并推动了 RTE 从一个理念变成一个行业的过程，更身体力行的打破了国内实时音视频领域的三无状态。赵斌称，10年前行业内没有行业会议、专业书籍、以及专业媒体和社区。如今，RTE 大会迈入第10年，声网也于今年8月正式出版行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》，同时，RTE开发者社区也持续繁荣，加速推动。

贾扬清：AI 是云的第三次浪潮

随着 AI 技术的发展，AI 时代的大模型应用开发、AI 云、以及 GPU 等基础设施建设逐渐成为热门话题，也成为了支撑整个行业发展、催生新应用诞生、新商业价值实现的基本底座。Lepton AI 创始人兼 CEO 贾扬清在 RTE2024 主论坛上分别从 AI 应用、云、GPU 算力云技术以及企业大模型自主性等层面带来了他对 AI 基础设施进化的解读。

针对 AI 应用，贾扬清指出，越是简洁的 AI 模型思路越容易产生优秀的效果。AI 能力加持后，应用本身的开发范式也在从数据、模型、应用构建三个维度发生变化，未来的应用开发将从“以流程为中心” 转化为“以模型为中心”。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

除了 AI 应用层面，传统的云架构也在大模型、GPU 优化等需求的催化下发生了翻天覆地的变化。贾扬清认为，AI 是云的第三次浪潮，继 Web 云、数据云之后，AI 将成为第三朵云。AI 云有以下三个特征：算力会成为智能的基础、AI 云需要大量计算与大规模的异构集群，以及少量但高质量的通讯。总体而言，云的产品形态，本质是计算和传输的平衡。贾扬清指出，在 AI 云的形态下，实时的交流和智能的结合在用户体验环节非常重要。毫不夸张的说，实时将直接与生产力划上等号。

企业在构建自己的大模型自主性上，到底该如何决策？贾扬清强调，企业应该将开源和闭源大模型都纳入考虑范畴。采用开源模型+定制化的优势不仅仅是具备更强的可定制性，还有更低的成本以及更高的速度，开源+定制化能够达到比闭源模型更好的效果。

钟声：分布式端边云结合的AI系统将成为现代基础设施的基本形态

在已经到来的 AI 时代，现代化基础设施应该是什么样？声网首席科学家、CTO钟声提到，大量用户设备往往会先接入边缘节点、并在需要的时候再接入云端，数据将在端设备、边缘节点和云之间往返传递。AI 时代的数据中心会包含以大量异构算力组成的超级计算集群（SuperScaler）。但是，停留在仅依赖超级计算集群的系统是远远不够的，万亿参数、多模态引入所造成的高昂计算成本、缺乏机制约束的数据隐私保护、几秒钟的延时都将阻碍大模型的普惠，极大地限制其在很多场景下的应用。

钟声认为，分布式端边云结合的 AI 系统将有效解决这些痛点。这个系统将把计算和传输在各节点做合理地配置，系统会智能地以自适应的方式把任务编排到端与边上执行，非常有效地降低了成本，同时提供了更低延时（低于1秒级的响应速度）、更高网络抖动容忍度、优秀的抗噪声能力，并且完整的用户数据只会保留在端上。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

分享过程中，钟声还在大会现场演示了一个由STT、LLM、TTS 、RTC四个模块组成的端边结合实时对话AI智能体，这也是首次有厂商在比日常实际场景更具挑战的环境下展示实时AI 对话能力。大会现场观众规模超过千人，面临复杂的噪声、回声、麦克风延迟等困难，但智能体与钟声的互动仍然表现出了优秀的对话能力，在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话，对话模型的极快响应速度、及时打断与被打断的自然程度、对抗噪声能力、遵循语音指令做等待能力都非常突出。

正如钟声在最后分享的，随着端设备的多样化以及能力的提升，AI 基础设施会变得更优化合理，使得 AI 无处不在，AI助理、AI分身帮助我们有效缓解时间稀缺性，改善工作效率和生活体验。

圆桌：AI 的6000亿难题，从基础设施到商业化落地

AI 的6000亿美元难题，一直都是整个行业非常关心的话题，在圆桌讨论环节中，Lepton AI 创始人兼 CEO 贾扬清、MiniMax 合伙人魏伟、面壁智能联合创始人＆CTO 曾国洋、Hugging Face 工程师王铁震、Agora 联合创始人 Tony Wang 五位嘉宾一起探讨了从 AI 基础设施到 AI 商业化落地的机会与挑战。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

针对商用大模型和开源大模型未来的发展趋势，贾扬清分享了两个核心观点：其一，同等质量模型的Size会变得越来越小，计算效率会越来越高，模型架构也会变得更加开放和标准。其二，除了极少数头部公司之外，越来越多的企业会采用开源架构来做下一代模型。因此，开源架构的应用会变的越来越普遍，通过开源架构训练出来的模型也都会有各自不同的风格。

王铁震则表示，我们将在未来看到越来越多 Infra 和 Realtime 的工作，大家不仅需要关注开源模型本身，还需要重视开源模型的基础设施和数据闭环，才能把开源模型跑得更好、更快。Realtime 需要TTS、也需要大模型，如果能够通过一些方式放在一起，放在边缘侧、离用户更近的地方，才能产生较好的效果。

关于如何看待音视频多模态模型的实际应用潜力，魏伟表示，随着多模态的出现，生成式人工智能的边界一定会被继续拓展，并加速这一产业的变革。从产品和用户服务过程中魏伟发现，文本、语音、音乐、视频这些模型可以帮助艺术、影视、音乐等领域的创作者极大地提高效率，并为他们提供新的思路和方法。

针对大模型技术巨大的成本使用问题，曾国洋分享到，随着技术的前进，算力一定会变得越来越便宜，相同能力的模型规模也会变得越来越小，但算力成本优化会最终转化为训练更强大的模型。真正达到 AGI 水平之前，我们只能感受到模型在变得越来越强，很难感受到成本的变化。雷峰网(公众号：雷峰网)了解到，由于面壁智能是做端侧模型的，所以很关注如何让模型在端上跑得更快，在实际部署过程中，他们会用各种量化压缩甚至是稀疏化方法去优化实际部署的开销。

总结来说，Tony Wang 认为想要推动 AI Infra 到模型、再到商业化落地，技术驱动和成本是最核心的两个点。此外，在产品真正走向市场的过程中，流量和口碑也是关键。

过去十年，声网不仅见证并推动了 RTE 从一个理念变成一个行业的过程，更身体力行的打破了国内实时音视频领域无行业会议、无专业书籍、无专业媒体及社区的三无状态。自此，RTE 大会迈入第10年，行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》于今年8月正式出版，RTE开发者社区也正在秉持着“开放、连接、共创” 的理念加速实时互动和 AI 的共生。

未来，声网将继续和大家一起，站在全新的起点、拥抱繁荣且充满挑战的 AI + RTE 新时代。

雷峰网原创文章，未经授权禁止转载。

注：本文转载自雷锋网，如需转载请至雷锋网官网申请授权，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权行为，请联系我们，我们会及时删除。