声网研究院联合 RTE 开发者社区推出了《对话式 AI 发展白皮书》。该白皮书基于声网对行业的深刻洞察和自身经验,从发展背景、技术模块、产品方案及生态、对话体验质量评估方法、应用实践落地等多个维度,系统地梳理了对话式 AI 的发展现状与未来趋势,为行业打造了一本可落地的实践指南。
《白皮书》指出,随着对话式 AI 技术的快速发展,VoiceAgent 是目前市场上极具代表性的产品形态。当前,Voice Agent 主要有传统的J联模式(ASR+LLM+TTS) 与端到端模式两种主流架构。J联模式以其高灵活度、成本优良带来的灵活性,仍是现阶段大多数企业的选;而端到端模式则在高性能、快速部署方面潜力更大,代表着未来演进方向。在声网看来,成熟的生态协作已成为推动对话式 AI 普及的关键。从 Deepgram、MiniMax、OpenAI 到国内的通义千问、智谱清言、豆包等 LLM 厂商,从语音识别、语音合成到实时通信技术提供商,一个覆盖技术链各环节的开放生态正在形成。
GPT-4o 的发布开创了 AI 实时语音交互的先河,推动了 AI 语音交互进入 对话延迟更低、互动更流畅的 RTC 方案。同时,在 10 月份,OpenAI 发布了与 Agora(声网 兄弟公司)、Livekit、Twilio 共建的 RealtimeAPI 公开测试版,用于构建基于 GPT-4o 语音 到语音的 AI 应用和智能体,所有付费的开发者都能在应用程序中构建低延迟、多模态的实 时互动体验。
当前对话式 AI 的应用有两个技术路线,分别是端到端模型方案和J联模型方案,两者 在性能、成本、灵活性、扩展性以及集成部署等方面各有优缺点。同时,对话式 AI 的交互 体验伴随着技术升J和应用扩展正在快速发展,对于开发者与 AI 创业者而言,如何选择Z 适合自身业务的技术方案与产品供应商显得至关重要。
对此,声网研究院联合 RTE 开发者社区推出《对话式 AI 发展白皮书》,基于对行业的洞 察、调研,并结合自身的业务经验,从对话式 AI 发展的背景、技术方案与产品生态、对话 体验质量评估方法、应用实践落地等多个维度系统的梳理对话式 AI 的发展现状与未来的趋 势方向,希望能为行业的从业者带来更多的帮助。
对话式 AI 的爆发开启了人与 AI 互动的新纪元,硬件、教育、社交等各个领域的应用场景也随之而来加速裂变。声网联合 RTE 开发者社区发布了《2025 对话式 AI 应用场景热力榜单》,AI 语音助手、AI 社交与陪伴、AI 潮玩位列前三,充分说明对话式 AI 在个人助理与情感陪伴领域的强劲需求。紧随其后的 AI 教育硬件、AI 硬件、AI 客服、口语训练、AI 招聘等多元场景,进一步表明对话式 AI 技术正从消费端向产业端加速渗透。
白皮书中还推荐了对话式 AI 模型评测平台,该平台在基于声网对话式 AI 引擎的基础上,可以实时横向评测J联大模型中 ASR、LLM、TTS 的延迟数据、词错误率、字母数字性能以及价格估算等多项指标,并涵盖了市场主流的模型供应商,开发者可根据性能的数据表现,选择更适配自身业务的模型。

![]() |
| 机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 具身智能教育机器人 智能配送机器人 导览机器人 |