ISCSLP 2026 | 真实世界视听语音增强挑战赛正式开赛

发布时间：2026/6/26 17:03:38

为推动视听语音增强技术走向真实场景由台湾大学、清华大学、香港理工大学、武汉大学、俄亥俄州立大学、名古屋大学、Academic Sinica、香港中文大学深圳以及 Meta、NVIDIA 等高校与研究机构的研究者联合发起的Real-World AVSE Challenge真实世界视听语音增强挑战赛已正式启动。作为ISCSLP 2026的挑战赛之一本次比赛聚焦真实多人对话环境下的视听语音增强问题并设置“真实世界混合场景”与“视觉退化”两条赛道旨在推动 AVSE 研究从理想化实验走向真实应用。随着多模态大模型与人机交互技术的发展机器“听懂人话”的能力不断提升。然而在嘈杂、复杂的真实环境中仅依靠音频往往难以准确分离和增强目标语音。正如人在喧闹餐厅中会通过观察对方嘴型来辅助理解让机器同时“看”和“听”利用说话人的唇动与面部信息增强目标语音已成为语音处理走向真实落地的重要方向。从在线会议、智能助听设备到车载交互和多人实时通信如何在复杂环境中稳定地“看清并听清”目标说话人是视听语音增强研究亟需解决的核心问题。然而现有许多 AVSE 方法仍主要依赖“干净视频合成语音”的理想化设定与真实场景存在明显差距。现实对话中人声重叠、环境噪声、混响、远场拍摄以及人脸遮挡、模糊、丢帧等视觉退化问题往往同时出现对模型的鲁棒性与泛化能力提出了更高要求。Real-World AVSE Challenge正是面向这一关键挑战而设立期待推动视听语音增强技术在真实复杂场景中的进一步突破。核心目标Real-World AVSE Challenge 希望推动研究者重新思考视听语音增强在真实环境中的关键问题当音频不再是人工合成的理想混合语音当视频不再总是清晰稳定当目标说话人处于多人、远场和视觉退化环境中AVSE 模型是否仍然能够稳定工作本次比赛强调真实录制、真实混合、真实视觉退化与跨说话人泛化能力鼓励参赛者开发更加鲁棒、实用且具备真实部署潜力的视听语音增强系统。双赛道从真实混合到视觉退化Track 1真实世界天然混合场景第一条赛道聚焦真实多人对话环境下的语音增强问题。与传统基于人工合成混合语音的数据不同该赛道提供自然录制的多人视听数据其中语音重叠和环境干扰为真实场景。该赛道旨在评估模型在真实天然混合语音和复杂声学环境下的增强能力。Track 2视觉退化场景第二条赛道进一步关注视觉信息不可靠时的模型鲁棒性。在真实应用中摄像头拍摄到的人脸画面可能存在遮挡、低画质、模糊、丢帧、远场拍摄等问题。该赛道通过构造多种视觉退化条件系统评估 AVSE 模型在视觉模态受损时是否仍能有效利用音频与视频信息完成目标语音增强。数据特色本次挑战赛为每条赛道提供官方开发集和测试集数据包含单说话人语音与双说话人同时说话场景。数据包含天然录制的混合音档覆盖多个不同说话人组。开发集与测试集中的说话人完全不重叠从而更好地评估模型对未知说话人的泛化能力。此外比赛不限制参赛者使用的训练数据、预训练模型或数据增强方法鼓励研究者充分探索不同技术路线并在最终系统描述中清晰说明所使用的数据与方法。组织团队李凯清华大学任文泽台湾大学李俊杰香港理工大学余晟俄亥俄州立大学杨培君武汉大学吴海滨Meta傅思维Nvidia黄文劲名古屋大学王新民Academic Sinica李明香港中文大学深圳汪德亮香港中文大学深圳曹昱Academic Sinica日程安排2026.6.22比赛注册开始2026.6.23释出Baseline系统和Dev setTrack1和Track22026.7.12释出Testing set和开放排行榜2026.7.17关闭注册2026.7.24排行榜冻结2026.7.27公布最终结果2026.8.03ISCSLP论文提交截止日2026.8.31论文接受通知2026.9.21论文相机就绪版本提交参与方式Real-World AVSE Challenge 目前已开放报名。参赛者可通过官方网站提交报名信息主办方将在报名后通过注册邮箱发送数据链接。后续比赛规则、评估指标、提交方式与更多更新信息也将通过官方网站陆续发布。欢迎来自学术界与工业界的研究者共同参与推动视听语音增强技术从理想实验走向真实世界。官方网站https://real-world-avse.github.io/官方Githubhttps://github.com/Real-World-AVSE/Baseline报名链接https://forms.gle/xcEVR9UGRXdcjvh59期待与您在马来西亚滨城相聚

深挖 GEO 技术底层逻辑，展望 2026 年行业技术迭代新方向

中国信通院测算数据显示，2026 年国内生成式引擎优化（GEO）市场规模将突破 286 亿元，同比增速达 125%，行业渗透率由 2025 年的 38% 跃升至 71%。IDC 同期数据显示，2026 年全球 GEO 市场规模达到 220 亿美元&a…

2026/6/26 17:03:38 阅读更多

告别元数据管理烦恼：ExifToolGUI图形化工具终极指南

告别元数据管理烦恼：ExifToolGUI图形化工具终极指南【免费下载链接】ExifToolGui A GUI for ExifTool 项目地址: https://gitcode.com/gh_mirrors/ex/ExifToolGui 你是否曾为整理海量照片的拍摄信息而头疼？是否需要在数百张图片中批量添加版权信…

2026/6/26 17:02:25 阅读更多

从排列反演序列到q-导数算子：构建组合计数的统一框架

1. 项目概述：从排列到反演序列的统一视角在组合数学和离散数学的领域里，排列是一个基础得不能再基础的概念。我们通常关注排列本身，比如“123”和“321”是两种不同的排列。但如果你深入一步，去观察一个排列中“逆序”的数量——也…

2026/6/26 17:02:05 阅读更多

拓扑动力系统中平衡态的凸分析与相变理论：从数学框架到实践应用

1. 项目概述：从“平衡”到“突变”的数学之旅在动力系统的世界里，我们常常关注一个核心问题：一个系统在长时间演化后，最终会趋向于何种状态？这些最终状态，我们称之为“平衡态”或“不变测度”。想象一下&am…

2026/6/26 18:26:15 阅读更多

计算机毕业设计之基于微信小程序的疫苗预约系统设计与实现

本研究旨在设计与实现一个基于微信小程序的疫苗预约系统，以应对当前疫苗接种过程中存在的预约难、信息不透明等问题。随着信息技术的快速发展和智能手机的普及，移动互联网应用已成为人们日常生活的重要组成部分。微信小程序作为轻量级的应用平台&#xf…

2026/6/26 18:25:13 阅读更多

GPT-4.5不存在？一文厘清OpenAI官方模型体系与gpt-4o实战指南

我需要澄清一个关键事实：截至目前（2024年中）， OpenAI 官方从未发布、宣布或提供过名为 “GPT-4.5” 的模型，也不存在 “GPT-4.5 API” 这一正式服务接口。这并非技术细节的模糊地带，而是明确的公开事实…

2026/6/26 18:25:13 阅读更多

Java工程师年薪30W+的秘密武器（仅限内部技术圈流传）：IntelliJ IDEA高级调试技巧×Eclipse定制化开发流——双IDE协同工作法首次公开

更多请点击： https://intelliparadigm.com 第一章：Java工程师年薪30W的底层能力图谱高薪Java工程师的竞争力从来不止于“会写Spring”或“能调JVM参数”，而是由一套隐性但可验证的底层能力共同构筑——这些能力决定了技术深度、系统设计韧性…

2026/6/26 18:23:30 阅读更多

Java入门到精通Java 15中的 3 个双引号语法

Java 中的 3 个双引号 """ 是什么语法？ 这是 Java 15 新出的，刷新你的认知！ 前言在 Java 15 的推出的时候，Text Blocks 正式转正，我叫它 “文本块” 好了，栈长也做了简单介绍&#xff0…

2026/6/26 18:23:09 阅读更多

3分钟搞定JSXBIN解密：用Jsxer轻松解锁Adobe加密脚本的终极指南

3分钟搞定JSXBIN解密：用Jsxer轻松解锁Adobe加密脚本的终极指南【免费下载链接】jsxer A fast and accurate JSXBIN decompiler. 项目地址: https://gitcode.com/gh_mirrors/js/jsxer 你是否曾经面对过Adobe创意软件中那些神秘的.jsxbin加密文件？…

2026/6/26 18:22:48 阅读更多

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

1. 项目概述：这不是一次普通模型更新，而是一次上下文能力的质变跃迁“Qwen2.5-Turbo上线阿里云百炼平台，模型上下文长度扩展至百万tokens”——这句话里藏着三个关键信号：Turbo不是简单提速，而是面向生产环境的工程化重…

2026/6/26 0:00:43 阅读更多

Kotlin的@JvmStatic与@JvmField：与Java互操作的注解

Kotlin作为一门现代编程语言，与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java，Kotlin提供了多种注解来优化互操作体验，其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:05 阅读更多

AI 驱动下 GEO 与 SEO 融合实战指南

摘要：本文深入探讨了从传统SEO到生成式搜索（GEO）的范式转移，为技术内容创作者揭示了新搜索生态下的挑战与机遇。面对大模型直接生成答案的趋势，单纯的关键词排名已不足以保证流量。文章系统性地提出了三大核心策略&…

2026/6/26 0:02:25 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/26 1:06:03 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/26 1:06:07 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 1:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/26 12:42:30 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…