ISCSLP 2026 | 真实世界视听语音增强挑战赛正式开赛 为推动视听语音增强技术走向真实场景由台湾大学、清华大学、香港理工大学、武汉大学、俄亥俄州立大学、名古屋大学、Academic Sinica、香港中文大学深圳以及 Meta、NVIDIA 等高校与研究机构的研究者联合发起的Real-World AVSE Challenge真实世界视听语音增强挑战赛已正式启动。作为ISCSLP 2026的挑战赛之一本次比赛聚焦真实多人对话环境下的视听语音增强问题并设置“真实世界混合场景”与“视觉退化”两条赛道旨在推动 AVSE 研究从理想化实验走向真实应用。随着多模态大模型与人机交互技术的发展机器“听懂人话”的能力不断提升。然而在嘈杂、复杂的真实环境中仅依靠音频往往难以准确分离和增强目标语音。正如人在喧闹餐厅中会通过观察对方嘴型来辅助理解让机器同时“看”和“听”利用说话人的唇动与面部信息增强目标语音已成为语音处理走向真实落地的重要方向。从在线会议、智能助听设备到车载交互和多人实时通信如何在复杂环境中稳定地“看清并听清”目标说话人是视听语音增强研究亟需解决的核心问题。然而现有许多 AVSE 方法仍主要依赖“干净视频 合成语音”的理想化设定与真实场景存在明显差距。现实对话中人声重叠、环境噪声、混响、远场拍摄以及人脸遮挡、模糊、丢帧等视觉退化问题往往同时出现对模型的鲁棒性与泛化能力提出了更高要求。Real-World AVSE Challenge正是面向这一关键挑战而设立期待推动视听语音增强技术在真实复杂场景中的进一步突破。核心目标Real-World AVSE Challenge 希望推动研究者重新思考视听语音增强在真实环境中的关键问题当音频不再是人工合成的理想混合语音当视频不再总是清晰稳定当目标说话人处于多人、远场和视觉退化环境中AVSE 模型是否仍然能够稳定工作本次比赛强调真实录制、真实混合、真实视觉退化与跨说话人泛化能力鼓励参赛者开发更加鲁棒、实用且具备真实部署潜力的视听语音增强系统。双赛道从真实混合到视觉退化Track 1真实世界天然混合场景第一条赛道聚焦真实多人对话环境下的语音增强问题。与传统基于人工合成混合语音的数据不同该赛道提供自然录制的多人视听数据其中语音重叠和环境干扰为真实场景。该赛道旨在评估模型在真实天然混合语音和复杂声学环境下的增强能力。Track 2视觉退化场景第二条赛道进一步关注视觉信息不可靠时的模型鲁棒性。在真实应用中摄像头拍摄到的人脸画面可能存在遮挡、低画质、模糊、丢帧、远场拍摄等问题。该赛道通过构造多种视觉退化条件系统评估 AVSE 模型在视觉模态受损时是否仍能有效利用音频与视频信息完成目标语音增强。数据特色本次挑战赛为每条赛道提供官方开发集和测试集数据包含单说话人语音与双说话人同时说话场景。数据包含天然录制的混合音档覆盖多个不同说话人组。开发集与测试集中的说话人完全不重叠从而更好地评估模型对未知说话人的泛化能力。此外比赛不限制参赛者使用的训练数据、预训练模型或数据增强方法鼓励研究者充分探索不同技术路线并在最终系统描述中清晰说明所使用的数据与方法。组织团队李凯清华大学任文泽台湾大学李俊杰香港理工大学余晟俄亥俄州立大学杨培君武汉大学吴海滨Meta傅思维Nvidia黄文劲名古屋大学王新民Academic Sinica李明香港中文大学深圳汪德亮香港中文大学深圳曹昱Academic Sinica日程安排2026.6.22比赛注册开始2026.6.23释出Baseline系统和Dev setTrack1和Track22026.7.12释出Testing set和开放排行榜2026.7.17关闭注册2026.7.24排行榜冻结2026.7.27公布最终结果2026.8.03ISCSLP论文提交截止日2026.8.31论文接受通知2026.9.21论文相机就绪版本提交参与方式Real-World AVSE Challenge 目前已开放报名。参赛者可通过官方网站提交报名信息主办方将在报名后通过注册邮箱发送数据链接。后续比赛规则、评估指标、提交方式与更多更新信息也将通过官方网站陆续发布。欢迎来自学术界与工业界的研究者共同参与推动视听语音增强技术从理想实验走向真实世界。官方网站https://real-world-avse.github.io/官方Githubhttps://github.com/Real-World-AVSE/Baseline报名链接https://forms.gle/xcEVR9UGRXdcjvh59期待与您在马来西亚滨城相聚