|
|
| 当前位置:首页 > 人工智能应用 > 多轮对话的基本原理:采用 RTC 技术低延迟双全工人机对话,LLM 函数调用或结构化输 出连接后端系统 |
多轮对话的基本原理:采用 RTC 技术低延迟双全工人机对话,LLM 函数调用或结构化输 出连接后端系统 |
| 来源:声网研究院 时间:2025/11/21 |
|
对话式 AI 的核心职责是听懂人类讲话的内容和情感,并以语音对话的方式作出回应, 然后重复这个循环。 当前,几乎所有的J联对话式 AI 产品都普遍采用相似的架构:对话式 AI Agent 服务部署于云端,协调端到端语音对话(Speech-to-Speech)的交互闭环,整体采用 RTC 技术实现超低延迟双全工人机对话。支持行业主流 AI 模型接入,并通过 LLM 函数调用或结构化输 出连接后端系统。 整个循环流程如下: ◇ 用户设备麦克风捕获语音信号,编码后经实时传输网络传输至云端代理程序 ◇ 将用户语音实时转换(ASR)为高准确率的文字,作为 LLM 的输入 ◇ 文本被整合为上下文提示(Prompt),由大语言模型(LLM) 进行推理生成响应。 ◇ LLM 生成的文本发送至文本转语音(TTS) 模型合成音频 ◇ 合成音频通过实时传输网络传回用户设备完成交互 对话式 AI 的整个服务全部在云端运行,包括 ASR、LLM 和 TTS。从长远来看,人们期望 有更多的 AI 服务可以在端侧运行,但云端仍是未来很长一段时间的Z佳方案。 ◇ 对话式 AI 程序需调用高性能模型(ASR、LLM、TTS)以实现低延迟的复杂流程。当 前终端设备算力不足,无法在可接受延迟内运行Z优模型。 ◇ 当前,仍有大量商用场景用户是需要通过电话进行呼叫的,在此类场景中,服务无 法部署到用户的终端设备上,也迫使服务集中于云端。 ◇ 对话式 AI 需要跨终端使用,也导致云端部署成为Z高效的方案。 如果你正在开发一个对话式 AI 产品或应用,你可能已经发现对话式 AI 并没有想象中的 简单,我们会面临并思考以下问题: ◇ 对话式 AI 该选择哪些大语言模型和 TTS? ◇ 如何降低人机对话的端到端延迟? ◇ 如何让 AI 对话与人类一样自然? ◇ 如何在长会话中管理对话上下文? ◇ 如何将对话式 AI 集成到现有应用中? ◇ 如何评估对话式 AI 的性能表现?
|
| 相关推荐 |
|
»
机器人语音交互的智能打断的方式:发声即打断,持续时长打断,语音意图,手动
» 机器人如何锁定目标说话人:声纹识别,空间感知与波束形成,注意力机制建模 » 把 AI 放到指数位—2025新思维 » 老年人陪伴机器人关注的重点:表达能力 >理解能力 » 2025对话式AI发展白皮书-技术模块,产品方案及生态,对话体验质量评估方法,应用实践落地等发展现状与未来趋势 » AI工具深度测评与选型指南V1-5大类别 - 39个AI工具 - 92个实例测评 » 2025基于DeepSeek的详细规划智能管控体系创新与实践-智能助手 编制 审查 管理 » 以DeepSeek为代表的AI在能源行业的应用前景预测-精准预测风光发电功率,实时监测与故障诊断 » DeepSeek驱动下的地图生成-构建地图智能体实现自动化制图,虚实融合场景生成 » DeepSeek核心技术白话解读-学习策略创新,模型结构创新,五段位进阶指南 » DeepSeek应用场景梳理-理论+实践的结合,智能化转型的实战指导手册 » DeepSeek等大模型工具使用手册-实战篇:文本类,图片类,语音类,视频类应用实践,在辅助编程中的应用 » 疾控工作者应该怎么利用DeepSeek等Al大模型-舆情监测预警智能体、疫情预测与传播模拟智能体等 |
![]() ![]() ![]() |
![]() |
|
|
|||||||||||||||||||||||||||||||||||||||||
| 版权所有 © 创泽智能机器人集团股份有限公司 中国运营中心:北京·清华科技园C座五楼 生产研发基地:山东日照太原路71号 电话:4008-128-728 |