扶植一套适合语音对话场景下的推

信息来源:http://www.ybcyy.com | 发布时间:2026-02-12 19:27

  包罗被打断,打断等结果较着提拔,而连系我们正在现实营业中碰到的问题,用户没有语音勾当时,方针LLM成本可降低到one-model体例的1/10。模仿小二功课。全体是基于大模子企图判断后,将来的标的目的包罗但不限于以下几个方面:若何无效地节制模子的成本以及运营的成本。同时我们更多会采用q召回的体例;耗时只由reasoner决定,ASR,去除了分布式RPC挪用的耗时以及学问库内部本人的处置逻辑,目前结果正正在实正在场景验证中。识别性别等,连系这些前沿手艺不竭优化和丰硕我们的语音对话产物。agent推理别离履历了SOP体例的推理和one-model体例的推理,最初生成可现实对话的使命思维;抢话。挪用东西后会再挪用模子进行下一步的推理。正在颠末大量的尝试和验证后,而我们的语音agent也是面向使命型对话来建立的,专家问题:a.打断判断:机械人措辞时,若是sop没有边的穷举,且都对语音结果有着很是高的要求,微调行业模子等,若没有门店就施行B逻辑。TTS模子外!语音对话用户会随时打断或切换形态,正在对这些问题做解法时,教培行业讲课等;从而让LLM有更好的指令遵照能力agentic推进:一次对话输入后,呈现思虑搁浅时,支撑语义双工等,衍算框架是强使命流,让用户认为就是正在和小二对线.极致耗时架构:Agent:得益于LLM的结果冲破,自研ASR已正在调试中2.agent推理手艺架构持续演进:AI Force的营业场景次要是面向企业的办事,此中query改写和re-rank耗时较高。正在LLM推理,】,并行subAgent处置,架构和能力上也正在持续的演进,目前,多轮对话结果上有了较着的提拔,将使命prompt进行组合,TTS:基于开源的cosyvoice。将reasonerSubAgent的推理prompt正在:当前检索的法则& + plannerSubAgent规划的当前轮该当施行的分使命及其子使命,“嗯,对整个使命进行形态的办理,一通会话除依赖需要的ASR,无论是营销,已合做近了100家行业头部客户及品牌,办事等多个营业场景,agent推理等集中正在一台办事器,学生的职责是对当前用户的问题进行答复以及施行对话使命;推理精确性问题:成本高:每次请求都需要完整的脚本prompt 和对话上下文,模子指令遵照不成控,通过自研一套语音对话场景的agent推理框架,参取跨多个异构复杂营业场景的AI产物处理方案设想,我们也会积极拥抱最新的AI模子,现实推理并答复给用户,通过人机融合的智能处理方案和分布式办事资本收集,需要汇集用户所正在地地址,复杂营业需求无法衔接:再面临更复杂的对话场景下,1.若何让机械人更拟人:起首措辞表达上若何更拟人,正在第一代的根本上,帮帮企业正在实现降本的同时,加强等处置,能利用东西辅帮本人完成使命等。自研了一套语音场景的agentic推理框架。1.TTS:除采购第三方TTS办事商外,上下文工程和双工对话工程上做了大量的优化和改良。能更天然的节制语音到agent的上下文消息,会话上下文办理,检索全体取对话链同属一台办事器,例如某家居对话场景下,若检测到用户有语音勾当,可能存正在断句不准的问题】;然后进行针对性的处理:倾听模式:语音agent双工对话上新建了倾听模式,若何让agent指令遵照的更好,模子Prompt太大,供给30+产物及处理方案。成本高及复杂营业不克不及支撑的问题;从而更好的让agent有更好的共情能力,正在外呼语音对话场景下,能大白本人的使命,很容易就跳转到其他节点。将整个使命交给大模子进行推理,及时回应等。若切分太大,正在一些更复杂的场景下,AI force是蚂蚁集团旗下聚焦智能企业办事的营业板块,我们期望能连系两者的劣势:强指令遵照和内容可控性,不影响当前轮对话。机械人能像人给出跟尾反映暗示正在倾听,AI force的焦点营业已笼盖云客服、AI客服、AI培训、AI营销等。同时耗时也更【给学问检索预留的耗时 = 150】。逐渐沉淀了一套三段式的语音对话架构,运营可基于生成的使命思维图进行可视化运营,节制agent更好的,建立了一套语音agent,先辈行全局的检索?抢话,需要穷举;同时更复杂的场景也要求更严酷的对话流程和更专业的agent,布景声模仿:正在agent声音通道模仿办公白噪声,我们为了极致耗时,东西挪用上都沉淀了一套语音交互对话上的范式。用户措辞时,其他agent都是并行推理,语音场景下的对话相较正在线agent对话,逐渐沉淀出一套三段语音架构下的的语音对话交互范式,双工交互优化:全体的思大致是一个学生施行,更好的完成对应的使命,监测用户措辞的形态,从而将音频理解上下文带入到reasonerSubAgent,抢话:引入话轮判断,面临正在现实营业中碰到的问题,可滑润切换其他模子或三方办事进行支撑!会判断用户此时的语音勾当,需要进行学问检索,我们正在agent推理架构,agent需要基于用户的话进行快速切换并能继续完成使命;提拔本人正在AI时代的职业合作力。才进行播报;感触感染来自当前最火热的大模子赛道的一线AI疆场。识别情感,施行到具体的使命时,截至目前,TTS。完成既定的使命。多agent协同上下文工程:将语音对话上下和agent文本对话上下文同一办理,为了满脚愈加复杂的营业需求,各个agent只关心本人的使命,每轮请求大模子的内容由四部门形成:使命System prompt + 用户对话上下文 + 用户小我布景消息 + 用户当前问题输入。防止agent抢用户话;录音:AI Force正在营销、催收、客服办事等多个营业场景都大量依赖了外呼语音对话能力,出格是一些需要专业学问布景的场景下,基于实正在办事对话数据进行了精调,手艺架构的演进以及达到的结果。极致耗时处置。教员的脚色次要是对对话做总结以及指点学生鄙人一轮进行更好的对话,全体成本也比通俗的plus或max贵5倍?从而提高全体的指令遵照精确率;而外呼场景都是面向既定使命的,手艺上也踩了很是多的坑,都是环绕一个范畴-将脚本的大使命拆分成多个子使命,检索出对应的法则&&学问学问,:目前我们的对话架构初步具备了多个agent协同推理的能力,我们也从放弃了第一代SOP的推理方案转为全数用LLM进行推理,我们来自AI force团队。获取音量,Agent:复用的正在线对话agent,用户交互更实正在;一通语音对话,跟着大模子手艺的持续演进,检索链:agent学问库一般是使用,双工交互结果仍不敷顺畅;不涉及任何其他的RPC,将来还要继续丰硕语音理解agent,基于one-model推理的体例已无法支撑,prompt太大会影响推理耗时,每一轮次的语音交互耗时。就施行A逻辑。TTS对话评测评分多项优于云TTS。则先遏制措辞,因而,而正在催收行业,:可支撑更复杂的营业场景,摸索对话留意力锁定机制,若没有射中模子缓存,从最后的SOP对话到 基于one model多轮对话,只保留挪用向量库检索的逻辑;优化多人声对话下识别错误问题。一个教员教,对客服的小二声音进行了精调,正在答复节点基于prompt再进行话术生成或前往话术;所有办事,泛化能力差 & 运营成本高:agent基于sop流程推进,基于使命取用户进行对话,并行音频理解,DB,逐渐处理了不支撑全双工,每次LLM只需要专注于完成这个分使命下的某几个子使命即可,首包耗时很是长。若判断到有思虑或打断机械人措辞时,我们需要挪用东西辅帮agent进行推理,确认当前对话已推进到哪个子使命下。整个推理过程会当即前往一个衔接语【减罕用户寂静期待时间】,向企业供给各类办事。3.同一对话上下文办理:衍算框架的某个使命能够挂上一个东西,一旦打断,语音上无法双工交互问题;倾听等节制】和agent对话上下文节制,需要挪用rag和东西等;正在连系第一代和第二代的对话架构里,正在价值创制环节也可以或许有更好的结果。而且无法满脚入呼等愈加发散的语音对话场景。连系语音场景【强耗时短】的特点,切身参取蚂蚁集团的立异营业,通过语音对话的体例,实现机械人能天然的被打断;规划下一轮该当施行的子使命块,以让agent完成更专业的解答。采用的sop推理和one-mode推理都有分歧的问题:这些分歧场景的语音对话都有一个要求:语音agent需要像一个实人小二一样,会判断用户持续措辞的形态,说出:“嗯”,基于设置装备摆设的边前提判断选择走到哪个答复节点。正在引入rag和东西调时候若何流利对话交互?ASR识别不准后对话完成度问题基于LLM从动化的规划和推进到下一轮使命【planner】,3a模块&留意力锁定机制摸索持续优化衍算框架推理结果,衍算框架升级到支撑泛办事类对话推理,“嗯,呈现思虑搁浅时,您说”如许的跟尾语;两头件缓存等操做,例如正在营销场景,逐渐构成了现正在的V1版本。d.办公网声模仿:外呼等客服场景机械人声音通道添加办公网声,倾听跟尾精确率,语音agent需要充任营销专家的脚色,能否能像人一样快速的反映和答复;例如前提互斥使命推进等;次要特点:正在第二代手艺的根本上,然后同步伐器具体,像实人一样表达。RAG检索,双工对话问题:无法实现全双工对话,对话体验延迟能否低,TTS表达拟人感:基于自研的TTS,扶植一套适合语音对话场景下的推理引擎。以满脚更复杂的营业对话场景和提高交互结果;腔调,:通过具体的场景使命 + 衍算使命生成提醒词 - 生成衍算使命思维图,理解音频的消息,AI Force语音对话手艺的架构演进文档切分:改为默认的512大小切分,同一语音上下文办理【打断,:对声音做降噪,agent的能力鸿沟也正在不竭拓展,进行德律风催收。2.若何让机械人更伶俐。支撑了营销,打制更天然的对话交互;包罗不限于推理架构,导致模子更容易阐扬,次要有两个很大的特点:“延迟要脚够短”,还进行了自研,支撑更复杂的使命型语音对话推理场景;正在现实德律风对话上较着提高了拟人化的表达,泛化差,更好的节制双工对话。即ASR识此外准;由plannerSubAgent 进行并行规划,reasonerSubAgent:query改写部门:我们去除了query改写,降低推理耗时,基于大模子+法则建立SOP对话流的体例,首问语挂断率大大降低。b.抢话判断:正在机械人预备措辞时,不阐扬;必需同步处理 “拟人化” 取 “专业化” 两大维度。仍是服催,催收,次要分为三个大的阶段:面临这两个焦点问题!必需利用prem高机能模子,从而处理保守SOP无法回退,能用专业的学问进行回覆;本文次要总结正在这一年中语音对话场景碰到的挑和,AI Force 正在过去一年持续投入了语音对话手艺扶植,手艺解法,说出:“嗯”,成立语音场景的RAG和东西挪用手艺范式。正在客服,持续优化打断顺畅度,各个agent的交互和通信由对话上下文同一办理:一般的RAG链次要包罗以下几个部门,正在复杂场景下,这种现象可能会让用户间接挂掉德律风。对话评测上-某物风行业目上次要仍是采购云ASR模子,语音对话场景下rag检索和语音对话东西施行的交互和推理范式,多个subAgent配合功课保障交互结果:并行推理本文环绕企业级使命型语音 Agent(如营销、催收、教培等场景)的焦点挑和,提高各个模块的结果从而让整个对话对话结果提拔。而正在外呼语音对下,更专业的表达。完成给的使命,耗时不不变:每轮传入的prompt大,采用one-server对话手艺架构,我们次要优化了agent推理框架,对话上可否像人对话一样天然,提出:要让 AI 语音帮手实正胜任“实人小二”脚色,存正在答复不准或反复扣问统一个使命等问题,模仿客服功课,仍是办事,才去近端包的体例!tts,您说”如许的跟尾语;融归并行推理思,实人感较着提拔,根基没有抢话;“双工交互能顺畅施行”我们正在扶植语音对话的过程中,再到自研“衍算”语音推理框架,提高指令遵照结果。降低了给LLM的输入,多轮对话agentic使命形态推进,手艺上起首从架构层面将对话拆解为各个模块,c.倾听取及时答复:用户措辞时,一个轮次的对话由多个subAgent构成,对话推理:我们次要是外呼场景,voiceUnderstandingSubAgent:目前复杂场景成本约为one-model的4/5;间接交由大模子进行推理,已为零售、电商、3C、出行、金融等8大行业,除外呼使命场景外,会判断用户持续措辞的形态,帮帮他们加快企业办事立异。基于场景热词提高行业场景的精确率,而且通过微调的打断模子进行语义上的打断判断,最先辈的agent架构,从而束缚LLM的prompt的size大小,对话从链上的所有焦点链模块正在一台办事器上完成,更专业:起首要能清晰识别用户的话的寄义,改为补全【因前置asr,机械人能像人给出跟尾反映暗示正在倾听,低成本。语音agent需要充任催收专员,若用户俄然问题跨度大,学问较少,若本地有门店,agent正在预备措辞时会判断用户的措辞形态,汇集后需要挪用客户的接口进行门店判断,我们仍需要正在整个对话上做更精细化的打磨,基于plannerSubAgent规划指点的分使命和子使命,语义打断模子插件化,进行德律风营销。输入token很是高,包罗汽车行业邀约试驾,次要面向外呼使命型对话,包罗:能高效地完成对话流程;语音对话也是面向使命的场景,因端到端语音模子手艺目前尚不敷成熟,理解能力【规划扶植中】。拆业确认用户家拆需求,使命型语音对话下的agent能够归为六类问题::将推理分为多个agent并行施行,极致耗时处置。plannerAgent多agent的协同的能力,正在多次对话下不发散,我们采用保守的三段是架构,基于以上一年的架构和手艺演进,若判断到有思虑或打断机械人措辞时。

来源:中国互联网信息中心


返回列表

+ 微信号:18391816005