全球实时多模态语音翻译与同传系统技术评估及市场展望报告 全球实时多模态语音翻译与同传系统技术评估及市场展望报告引言同声传译的技术范式革命在全球化协作日益紧密的商业与技术生态中跨语言实时沟通的效率已成为决定企业国际化竞争力的关键要素。传统的同声传译系统长期依赖“级联架构”Cascaded Architecture即通过自动语音识别、机器翻译和文本转语音三个独立的模型进行串联处理。然而这种级联范式在实际应用中暴露出难以克服的固有缺陷各模块间的交接会累积物理延迟通常导致端到端延迟高达五秒以上同时声学信号在转化为文本中介的过程中会丢失原说话人的语气、情感和声学特征更严重的是前级识别的微小误差会在后续模块中成倍放大导致灾难性的翻译漂移。进入2025至2026年以阿里巴巴 Qwen 团队、OpenAI、DeepL、腾讯以及字节跳动为代表的行业前沿力量密集推出了新一代基于原生多模态大模型的实时语音传译解决方案。这些系统直接在单一神经网络中实现“声音/图像输入”到“声音/文本输出”的端到端映射彻底打破了级联架构的物理瓶颈。本报告将以阿里巴巴最新发布的 qwen3.5-livetranslate-flash-realtime 模型为核心系统性地剖析其技术架构、客户端实践并横向对比全球主流竞品为专业技术决策人员提供详尽的技术评估与选型参考。Qwen3.5-LiveTranslate 技术深度解构阿里巴巴 Qwen 团队于2026年5月19日正式推出 qwen3.5-livetranslate-flash-realtime 原生多模态同传模型该模型是对前代 Qwen3 模型的重大升级。其核心定位是提供低延迟、具备视觉增强能力和实时声音复刻的高保真同声传译服务。思考者-表达者双引擎架构与可读单元技术Qwen3.5-LiveTranslate 放弃了传统的管道堆叠构建在 Qwen3.5-Omni 统一模型的“Thinker-Talker思考者-表达者”系统架构之上。其中Thinker 引擎负责接收交错输入的流式视频和音频通过深层语义对齐直接输出翻译文本Talker 引擎则在无需传统独立 TTS 模块介入的情况下直接融合翻译文本和源音频的声学特征从而输出兼具源语音语调、情感和节奏的目标语音。为了解决不同语系之间例如英语和汉语、日语和汉语天然存在的语序颠倒问题模型引入了创新的“可读单元技术”Readable Unit Technology。该技术采用分块流式输入机制在连续的语音流中动态寻找最佳的“语义提交点”。模型无需等待发言者说出完整句子而是利用“可读单元”标记来动态控制合成粒度在保证翻译语义连贯性的前提下将平均语音到语音的延迟缩短至 2.8 秒。视觉增强的跨模态消除歧义机制在物理噪音干扰严重或多人口语交流的复杂环境下单一的音频输入往往面临严重的声音信号退化。Qwen3.5-LiveTranslate 将视觉特征Vision作为第一类输入通过并行分析实时视频流中的画面内容实现双重校准。模型能够提取发言者的唇部运动、面部表情、肢体手势并实时解析屏幕中显示的 PPT 演示文稿或招牌文本。当遇到同音异义词或物理噪声导致音频缺失时视觉上下文会作为强约束条件注入 Thinker 引擎从而显著消除语义歧义提高特定环境下的翻译准确性。语种覆盖与输出模态的跃升Qwen3.5-LiveTranslate-Flash-Realtime 支持多达 60 种语言的互译较前代 Qwen3 模型支持的 18 种语言实现了三倍以上的语种扩张。在输出模态上系统进行了精细化区分音频加文本双模态输出29 种语言支持包括中文zh、英语en、阿拉伯语ar、德语de、法语fr、西班牙语es、葡萄牙语pt、韩语ko、俄语ru、泰语th、越南语vi、日语ja等在内的全球核心主流语言。仅文本输出31 种语言支持粤语yue、希腊语el、南非荷语af、白俄罗斯语be、克罗地亚语hr、乌克兰语uk等较为垂直或资源有限的语言。声音复刻与运行时专业控制该模型原生集成了实时声音复刻能力确保翻译后的语音能够最大程度保留原发言者的特征声纹、语气和情绪起伏。通过 API 中的 session.update 配置声音复刻支持三种典型机制预复刻音色never直接加载用户在百炼控制台预先录制并生成的个性化音色 ID适用于固定发言人场景单次复刻模式once系统在会话初始阶段捕捉并分析第一句语音在整个会话期间维持该复刻音色适用于单人连续演讲每次复刻模式always在每次模型响应前重新提取当前输入音频的声学特征并进行快速复刻完美适应多角色、频繁轮流发言的交互场景。此外为了应对高度专业化的垂直领域如医疗、法律和金融会议Qwen3.5 允许开发者在会话配置中传入自定义热词字典session.translation.corpus.phrases。该功能可动态拦截并修正特定品牌名称、医药代号和法律条文的翻译路径有效规避了通用大模型在垂直术语上的幻觉风险。协议规程与会话生命周期Qwen3.5-LiveTranslate-Flash-Realtime 依赖状态化 WebSocketWSS协议进行低延迟的双向数据交换。其完整的交互生命周期包含以下关键阶段连接建立客户端向 DashScope 的 wss 端点发起握手。中国大陆区与国际区新加坡采用不同的域名和业务空间 ID 鉴权。会话配置建立连接后客户端必须首先发送 session.update 事件以配置源语种、目标语种、输出模态[“text”] 或 [“text”, “audio”]、声音复刻参数和热词词典。原文转写配置可选若需要同步获取源语言的语音识别文本可通过设置 session.input_audio_transcription.model 为 “qwen3-asr-flash-realtime”。服务端将在翻译的同时通过专用事件流式返回识别到的源语言原文。数据馈送客户端通过 input_audio_buffer.append 事件流式推送 Base64 编码的音频帧16kHz, 16-bit PCM Mono若启用视觉辅助则通过 input_image_buffer.append 异步推送图片数据。模型响应服务端 VAD 自动检测到静音或发言结束Turn detection后触发模型推理并根据配置的模态返回响应。仅文本模式下返回 response.text.done 文本加语音模式下流式推送 response.audio.delta 音频包并在结束时发送 response.audio_transcript.done。会话终止音频传输结束后客户端必须显式发送 session.finish 事件通知服务端待服务端返回 session.finished 后方能关闭连接。若直接断开连接会导致最后一帧音频无法完成识别与翻译。客户端产品实践以开源 my-translator 架构演进为例在客户端集成原生多模态同传大模型的实践中由独立开发者开发的开源桌面同传字幕工具 my-translator基于 Tauri 跨平台 Rust/JS 框架提供了一个极具参考价值的演进范例。该工具最近从早期的 Qwen3-Omni Plus 引擎全面迁移至 qwen3-livetranslate-flash-realtime展现了端到端流式模型对客户端架构的颠覆性重构。代码重构与服务端 VAD 的去复杂度效应在旧版本中由于底层模型不具备完善的实时交互管理能力客户端必须承担繁重的声学信号预处理工作。为了控制音频切片和发言状态检测客户端不得不使用基于能量均方根RMS-based Client VAD的算法在前端维护复杂的 commit_turn、rms_int16 等状态机逻辑。这不仅导致客户端 CPU 资源消耗过高而且由于本地设备硬件差异经常产生误切片或断句漏翻译的问题。在迁移至 Qwen3.5-LiveTranslate-Flash-Realtime 之后由于模型原生支持服务端 VAD 和自动会话管理客户端代码得到了极大的精简Rust 后端重构src-tauri/src/commands/qwen_realtime.rs 文件中的 Rust 后端代码从 486 行大幅缩减至 264 行所有本地 RMS-VAD 计算和切片提交状态机全部被剥离。JS 客户端简化负责建立连接和处理流的 src/js/qwen-realtime-client.js 从 148 行重写缩减至 90 行移除了本地输出队列管理和源 provisional 状态回调。流式缓冲机制的改变由于 Qwen LiveTranslate Flash 在每个心跳Tick推送的是“当前翻译片段加上已累积暂存区”的完整快照Snapshot而非增量Delta前端在接收到 provisional 状态数据时无需进行本地字符串追加拼接而是直接进行全量快照赋值替换极大地降低了前端文本渲染的逻辑复杂度。交互界面与双向翻译闭环设计my-translator 的界面设计深度契合了同传字幕场景其功能结构与交互细节极具行业代表性单面板与双面板视图提供 Single仅显示翻译文本和 Dual源语言原文与翻译文本左右独立滚动、智能贴底锁屏两种布局用户可根据演讲或会议场景自由切换。双向翻译防回授机制Two-Way Translation在双人双语会议场景下系统支持配置“双向翻译模式Language A↔ \leftrightarrow↔Language B。系统会将音频源设置为“系统音频加麦克风System Mic从而能够同时捕获本地发言和会议软件中远端参会者的声音。为了避免产生“TTS 翻译音→ \rightarrow→麦克风重新采集→ \rightarrow→二次循环翻译”的音频回授和噪声环路Feedback loop系统在检测到开启双向翻译模式时会自动强制关闭本地 TTS 播报。在单向同传模式下若使用的是 Windows 系统且需要捕获扬声器声音系统则会提示用户佩戴耳机以隔离扬声器对麦克风的声学物理回授。源语种配置机制由于 Qwen 引擎在流式实时处理中如果将源语种设置为“Auto”自动检测容易导致持续的输入挂起Stall。因此在 qwen-langs.js 配置文件中硬编码集成了 60 种语言的选择列表且显式剔除了“Auto-detect”选项强制用户在发起会话前明确指定源语言。行业核心类似产品深度横向评估除阿里巴巴 Qwen 团队外2026年的实时语音翻译市场中还活跃着 OpenAI、DeepL、腾讯、字节跳动等强力玩家各方在技术架构和目标市场上呈现出差异化的生态定位。OpenAI GPT Realtime TranslateOpenAI 于2026年5月初在其 API 平台正式推出 gpt-realtime-translate 低延迟流式翻译模型。译员专属优化与决策延迟该模型与通用的 GPT Voice/Omni 语音对话模型有着本质的技术区别。它使用了数万小时专业口译员、同传译员的真实口译音频和双语对齐文本进行专门微调。这使得模型具备了人类译员的“职业素养”它在会话中始终保持在“纯翻译”模式下绝对不会像普通 AI 助手那样去回答用户提出的问题或执行指令而只会忠实地翻译听到的每一句话。同时该模型被训练为能够像人类同传一样在累积到足够的句子语义成分之前保持静默以此来保证翻译长句特别是主谓语倒置句时的语义完整性。动态声音特征自适应模型能够实时提取输入音频中的情绪、基频和声强在流式输出 translated audio 过程中动态自适应使译音自然贴合原作者的发言风格。架构局限性该模型仅支持 13 种固定的目标输出语言。更为关键的是单次 WebSocket 连接只返回目标翻译文本和翻译音频不提供源语言的 ASR 转写结果。若开发者需要显示“原文-译文双语字幕”必须平行调用另一个 gpt-realtime-whisper 模型并额外付费。DeepL Voice-to-Voice翻译巨头 DeepL 于2026年4月16日推出了专门针对实时口语交流的 DeepL Voice-to-Voice 实时语音传译产品矩阵其核心包含了面向线上视频会议的 Voice for Meetings 以及针对移动端面谈的 Voice for Conversations。抑振渲染与术语一致性DeepL 指出在流式同传字幕中高频的“文本重写、闪烁撤回和振荡Caption Oscillation”会严重干扰用户的阅读理解。DeepL Voice 依托其专有的语言模型技术在模型内部实现了对句意推断的强置信度评估使最终输出的字幕展现出极高的平稳度大幅减少了闪烁重写。此外系统完美接入了 DeepL 的术语库机制Glossaries Spoken Terms V2能有效保障企业专有名词和技术术语的一致性。合规与盲测首选DeepL 重点锁定了对安全合规和翻译专业度要求极高的大型跨国企业、呼叫中心BPO。DeepL 拥有 ISO 27001 和 SOC 2 Type 2 认证并承诺绝对不使用任何用户语音数据来训练其基础大模型。在由第三方机构 Slator 独立进行的盲测评估中96% 的专业语言学家在流利度和上下文准确性上将 DeepL Voice 评为优于谷歌、微软以及 Zoom 的原生翻译方案。腾讯 Covo-Audio腾讯 AI 实验室于2026年3月开源了 7B 参数规模的端到端原生大语音模型 Covo-Audio。该模型摒弃了传统 ASR-LLM-TTS 级联管线采用统一端到端前向传播生成高保真音频。分级三模态交错技术Hierarchical Tri-modal Interleaving在预训练阶段Covo-Audio 在词组、短语和句子多重粒度上对连续声学特征、离散语音 Token 和自然文本进行深度交错对齐不仅保留了极其细腻的语气起伏也使得 7B 级别的模型具备了不亚于 32B 模型的语义推理能力。全双工机制控制 Token为了支持极为自然的“听答同步”与“实时打断”模型设计了三个专用的架构控制标记THINK指示模型当前处于单向聆听状态SHIFT指示话权发生转换模型开始流式输出音频BREAK打断检测。当用户在模型播报过程中强行发言Barge-in时声学编码器迅速识别该打断信号注入 BREAK 标记促使模型瞬间中断当前输出并转为接收模式。早期响应缺陷在 GaokaoEval 测试集中Covo-Audio 被暴露出在全双工环境下存在“早期响应”问题即当发言者在句子中间进行较长呼吸停顿时系统容易发生误判并提前开始插话翻译。字节跳动 Seed LiveInterpret 2.0字节跳动 Seed 团队于2025年7月24日发布了 Seed LiveInterpret 2.0 全双工端到端语音到语音同传模型主打中英双向高精度、超低延迟同声传译。评测表现与零样本克隆该模型在中英互译 S2T 任务中的人工评测准确度评分高达 74.8满分 100相较行业第二名高出 58%S2S 综合评测达到 66.3 分首字输出平均延迟仅为 2.21 秒语音到语音端到端延迟仅为 2.53 秒表现极其逼近人类专业同传译员。此外模型在零样本声音复刻、多人口语重叠交错、非流利语音如口吃、赘余词过滤等极端场景下表现出极高的技术鲁棒性。核心指标与商业化特征多维比对在商业化落地和开发选型中各平台的收费标准、技术指标和开放性存在显著差异。下表对2026年主流的实时语音传译系统进行了多维度对比产品名称研发主体开放形式 / API核心架构特色语言覆盖范围端到端延迟表现声音克隆与控制商业计费标准与综合估算Qwen3.5-LiveTranslate-Flash-Realtime阿里巴巴云端 API (WSS) 客户端集成基于 Qwen3.5-Omni 的 Thinker-Talker 架构结合“可读单元技术”与“视觉辅助解构”60 种语言互译29 种支持语音文本双输出31 种仅支持文本输出~2.8 秒支持三种声音克隆模式支持最大 1,000 个动态热词配置微粒化 Token 计费 音频输入7 Token/秒 音频输出12.5 Token/秒 图像输入0.5 Token/32*32 px 注百炼新用户赠送 70M 体验 TokenOpenAI GPT Realtime TranslateOpenAI云端 API (WebRTC/WSS)专职口译数据微调流式双向连续音频管线74 种源输入语言基于 Whisper 种固定目标输出语言~2.0 - 2.5 秒 (200 ms PCM 块推送)动态声线自适应控制通过运行参数支持 Hotwords 控制时长平铺计费 实时翻译$0.034/分钟约 $2.04/小时 若需源语言转写搭配 Realtime Whisper额外 $0.017/分钟约 $1.02/小时 两项并联总成本约$3.06/小时DeepL Voice (Voice-to-Voice)DeepL云端 API Teams/Zoom 插件专有翻译 LLMSpoken Terms 字幕抗振荡算法支持 40 种全球语言含 24 种欧盟官方语言及越、泰、阿、孟加拉语等~3.0 秒支持处于 Closed Beta 阶段Spoken Terms V2 术语校正企业级许可证年度订阅 会议版许可Meetings$15,000/12个月 面谈版许可Conversations$10,000/12个月 注基础文本 API 套餐不包含此功能Covo-Audio腾讯开源 (CC BY 4.0 协议)Whisper-large-v3 Qwen2 骨干网络THINK/SHIFT/BREAK 全双工控制多国语言~2.0 - 2.5 秒智脑-声线解耦技术极低 TTS 样本要求定制声音开源免费 需企业自行负担计算算力和服务器运维成本Seed LiveInterpret 2.0字节跳动企业定制方案端到端双向全双工流式对齐具备口吃鲁棒性过滤深度聚焦中英互译语音到文本2.21 秒 语音到语音2.53 秒零样本实时音色复刻商务定制计费 通常作为火山引擎大客户级解决方案销售无公开 API 阶梯报价Soniox TranslationSoniox云端 API统一模型原生整合 ASR, MT, 与 TTS 编解码60 种源语言60 种目标语言 2.0 秒原生双向、支持多说话人分离与 DiarizationToken 弹性计费 语音转写翻译STT约$0.18/小时语音到语音同传S2S约$0.82/小时相比 OpenAI 展现出极高价格优势行业面临的技术挑战与未来演进方向即便端到端原生大模型带来了同声传译延迟与保真度的飞跃但在具体业务落地和客户端开发中行业仍面临以下核心技术挑战1. 物理声学反馈与双向混音回授如 my-translator 在 Windows/Tauri 客户端开发中所遇到的实际困境在不强制佩戴耳机的情况下一旦系统输出翻译语音本地麦克风极易将音响播放出来的翻译 TTS 音频重新捕获并作为“新的源语言输入”再次送入 API 管线进行翻译。这种“声音循环回授”不仅会引发刺耳的啸叫更会导致系统陷入“自己翻译自己”的死循环。目前行业普遍采用物理隔离戴耳机或在双向翻译中强制静音 TTS 的硬性逻辑解决未来急需引入高精度的端侧主动声学回声消除AEC和基于说话人特征的分离算法。2. ASR 在长静音区段的挂起与断流在长时间静音或掌声、笑声、视频背景乐等非人类语音区段Non-speech activity流式同传的 ASR 模块经常发生转写停顿。Qwen3.5-LiveTranslate 在实践中被发现如果源音频流中混入了长时间的非语言掌声其 ASR 转写显示列往往会发生停顿Stall尽管此时翻译通道仍在工作。在连续同传场景下如何保持时钟同步和非语流对齐是目前大模型在长连接维护上面临的细节难题。3. 语义打断Barge-in与早期响应的冲突以腾讯 Covo-Audio 为代表的全双工模型虽然引入了 BREAK 打断标记以实现拟人化的双语自由交谈但在现实中“打断”与“呼吸停顿”存在天然的识别边界冲突。当演讲人进行正常的语义换气或由于紧张而出现断句时系统极易误判为“本轮发言结束Turn complete”从而引发抢说、抢译早期响应问题强行打断原发言者的发言。这要求模型不仅要进行声学 VAD 评判更要实时对输入句子进行在线未完结语义树Syntax parse tree的推断以识别发言者是否真的说完了整句话。4. 术语纠偏与热词冲突随着各家厂商均支持最大 1,000 个热词对或 Glossaries 的注入如何在运行时实现热词与通用大模型词表的软对齐成为了新的难点。简单的硬性字符替换容易导致句子语法解体、主谓不一致等问题而将热词作为前置词嵌入Embedding prompt注入模型又极易在多轮会话中发生漂移。DeepL 的“Spoken Terms V2”和 Qwen 的 Key-Value 动态 Phrase 对齐展示了未来的演进路径通过特定的限制性波束搜索Constrained Beam Search算法在生成目标 Token 的概率分布时硬性提高注册热词的概率权重从而兼顾语法正确度与词汇的一致性。结论与企业技术选型建议2026年是同声传译技术完成根本性换代的分水岭端到端原生多模态语音大模型已经成熟并实现商业落地。对于寻求引入实时翻译服务的企业和开发者本报告给出以下具体的选型与部署建议开发者、小微出海企业与多媒体平台 建议优先选择Qwen3.5-LiveTranslate-Flash-Realtime 方案。该方案具有最广阔的 60 种语言互译能力且支持直接在流连接中同步获取源语言识别结果ASR与翻译结果极大方便了双语字幕应用的开发。其微粒化的按秒 Token 计费模式也非常利于起步阶段的精细成本管控。在视频直播或在线课堂场景中还可以灵活开启其视觉辅助功能通过捕获 PPT 内容和讲师手势大幅提升翻译准确度。高合规性、注重专业体验的大型跨国集团与远程高管会议 应当首选DeepL Voice-to-VoiceMeetings / Conversations方案。其业界顶尖的 Spoken Terms 字幕防振荡平稳度能够最大化降低参会高管的阅读疲劳其极佳的 ISO 27001 / GDPR 安全合规资质能完全打消合规部门对公司会议机密外泄的顾虑。专业出海客服中心BPO与定制级声源交互应用 如果服务语言主要集中在欧美语系和主流中日韩语种且极度看重声音的“人类同传质感”及动态情绪对齐OpenAI GPT Realtime Translate是绝佳的选型方向。由于其专门使用了专业口译音频进行强化微调其纯翻译特性的可靠性极高。对于极其注重运营成本的企业也可以评估并选用Soniox Translation的按 Token 结算方案其语音同传价格~$0.82/小时相较 OpenAI~$3.06/小时在长连接高频通话场景下能够节省大量账单支出。自研智能硬件、智能座舱或私有云环境下的自主可控场景 建议基于开源的Tencent Covo-Audio-Chat-FD7B 模型进行二次开发与微调。Covo-Audio 的 THINK/SHIFT/BREAK 全双工打断逻辑和智脑-声线解耦定制技术能帮助硬件厂商以极低的定制化训练门槛在完全离线的环境下交付极具拟人化体验的端侧流式语音翻译硬件。引用的著作Qwen3.5-LiveTranslate: From Sound to Sight, From Word to Right, 访问时间为 六月 5, 2026 https://qwen.ai/blog?idqwen3.5-livetranslateDeepL unveils real-time spoken translation, breaking the next language barrier with Voice-to-Voice, 访问时间为 六月 5, 2026 https://www.deepl.com/en/press-release/deepl-unveils-real-time-spoken-translation-breaking-the-next-language-barrier-with-voice-to-voice效率高又经济实惠的AI 翻译解决方案 - Lionbridge, 访问时间为 六月 5, 2026 https://www.lionbridge.com/zh-hans/blog/translation-localization/translate-more-better-cheaper-with-our-ai-solutions-rmx-3/Tencent Releases Covo-Audio Open-Source 7B Speech AI Model - WinBuzzer, 访问时间为 六月 5, 2026 https://winbuzzer.com/2026/03/26/tencent-open-sources-covo-audio-7b-speech-language-model-xcxwbn/Tencent AI Open Sources Covo-Audio: A 7B Speech Language Model and Inference Pipeline for Real-Time Audio Conversations and Reasoning - MarkTechPost, 访问时间为 六月 5, 2026 https://www.marktechpost.com/2026/03/26/tencent-ai-open-sources-covo-audio-a-7b-speech-language-model-and-inference-pipeline-for-real-time-audio-conversations-and-reasoning/Alibaba Qwen Team Introduces Qwen3.5-LiveTranslate-Flash: Real-Time Multimodal Interpretation Across 60 Languages at 2.8-Second Latency - MarkTechPost, 访问时间为 六月 5, 2026 https://www.marktechpost.com/2026/05/20/alibaba-qwen-team-introduces-qwen3-5-livetranslate-flash-real-time-multimodal-interpretation-across-60-languages-at-2-8-second-latency/Alibaba Qwen Team Introduces Qwen3.5-LiveTranslate-Flash: Real-Time Multimodal Interpretation Across 60 Languages at 2.8-Second Latency : r/machinelearningnews - Reddit, 访问时间为 六月 5, 2026 https://www.reddit.com/r/machinelearningnews/comments/1tifbpg/alibaba_qwen_team_introduces/Real-time, voice-to-voice translation is here, and it’s ready to transform global business, 访问时间为 六月 5, 2026 https://www.deepl.com/en/blog/voice-to-voice-translation-is-hereAlibaba Updates Speech Translation Model, Triples Language Coverage - Slator, 访问时间为 六月 5, 2026 https://slator.com/alibaba-speech-translation-model-triples-language-coverage/Build Live Translation Apps with gpt-realtime-translate - OpenAI Developers, 访问时间为 六月 5, 2026 https://developers.openai.com/cookbook/examples/voice_solutions/realtime_translation_guideSeed LiveInterpret 2.0 Seed LiveInterpret 2.0 可在多 … - 字节跳动Seed, 访问时间为 六月 5, 2026 https://seed.bytedance.com/zh/seed_liveinterpretAlibaba Cloud Model Studio:Real-time audio and video translation - Qwen, 访问时间为 六月 5, 2026 https://www.alibabacloud.com/help/en/model-studio/qwen3-5-livetranslate-flash-realtimeReleases · phuc-nt/my-translator - GitHub, 访问时间为 六月 5, 2026 https://github.com/phuc-nt/my-translator/releasesQwen3.7-Plus: Multimodal Agent Intelligence, 访问时间为 六月 5, 2026 https://qwen.ai/research实时语音/音视频翻译-千问 - 阿里云文档, 访问时间为 六月 5, 2026 https://help.aliyun.com/zh/model-studio/qwen3-5-livetranslate-flash-realtimephuc-nt/my-translator: Real-time speech translation — macOS Windows, free TTS, no server, your API keys only - GitHub, 访问时间为 六月 5, 2026 https://github.com/phuc-nt/my-translatorgpt-realtime-translate - AI Model Catalog | Microsoft Foundry Models, 访问时间为 六月 5, 2026 https://ai.azure.com/catalog/models/gpt-realtime-translateIs OpenAI’s New Real-Time Interpreter a Big Deal? - Slator, 访问时间为 六月 5, 2026 https://slator.com/openai-new-real-time-interpreter/Gemini Live Translation: Google’s Real-Time AI That Speaks 70 Languages - Reddit, 访问时间为 六月 5, 2026 https://www.reddit.com/r/AISEOInsider/comments/1qszty0/gemini_live_translation_googles_realtime_ai_that/Soniox vs OpenAI: real-time speech translation compared, 访问时间为 六月 5, 2026 https://soniox.com/compare-translationgpt-realtime-translate (2026-05-06, GA) deploys successfully but inference always fails with OperationNotSupported - Microsoft Learn, 访问时间为 六月 5, 2026 https://learn.microsoft.com/en-us/answers/questions/5912093/gpt-realtime-translate-(2026-05-06-ga)-deploys-sucDeepL Voice: instant, secure voice translation for global teams, 访问时间为 六月 5, 2026 https://www.deepl.com/en/products/voiceTranslate Speech in Realtime - DeepL Documentation, 访问时间为 六月 5, 2026 https://developers.deepl.com/api-reference/voiceHow real-time translation powers borderless, fast-moving contact center teams - DeepL, 访问时间为 六月 5, 2026 https://www.deepl.com/en/blog/borderless-contact-center(PDF) Covo-Audio Technical Report - ResearchGate, 访问时间为 六月 5, 2026 https://www.researchgate.net/publication/400661981_Covo-Audio_Technical_Report字节跳动Seed团队发布端到端同声传译模型 - 证券时报, 访问时间为 六月 5, 2026 https://www.stcn.com/article/detail/2733213.htmlGPT Realtime Translate overview - Microsoft Foundry, 访问时间为 六月 5, 2026 https://learn.microsoft.com/en-us/azure/foundry/openai/concepts/gpt-realtime-translateA New Chapter for Realtime AI: Reasoning, Translation, and Real-Time Transcription, 访问时间为 六月 5, 2026 https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/a-new-chapter-for-realtime-ai-reasoning-translation-and-real-time-transcription/4517124DeepL Voice - AWS Marketplace, 访问时间为 六月 5, 2026 https://aws.amazon.com/marketplace/pp/prodview-zfiljqn4qrmns