南加州大学等机构联手打造“儿童声音全图鉴“ 这项由南加州大学、俄亥俄州立大学、加州大学洛杉矶分校、哈佛大学、波士顿大学和迈阿密大学联合开展的研究于2026年5月28日以预印本形式发布论文编号为arXiv:2605.29257有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。一个孩子从出生到上学用来说话的方式其实远比大人想象的丰富得多。刚出生时他们用哭声告诉父母肚子饿了或者不舒服几个月后他们开始咿咿呀呀地发出各种奇怪的声音再大一些他们会用ba、da这样的音节练习嘴巴的动作等到终于能开口说话他们的发音又和大人不一样带着各种童音特色。然而现有的人工智能语音系统几乎只会处理一件事——听懂大人说的话然后把它转成文字。对于孩子那些丰富多彩的声音AI基本上是一头雾水的。研究团队把这个现状比作一位只会阅读成年人写作的语文老师突然被派去评估一个还不会写字的幼儿园小朋友的表达能力——工具完全对不上号。为了解决这个问题他们构建了一个叫做ChildVox的基准测试平台专门用来衡量各种AI模型理解儿童声音的能力。这个平台涵盖了超过20个子任务整合了17个与儿童相关的音频和语音数据集就像是为AI专门设计的一套儿科听力检查而不仅仅是普通的成人听力测试。一、为什么光靠听懂说话远远不够要理解这项研究的出发点可以把儿童的声音世界想象成一栋四层楼的大楼每一层住着不同阶段的孩子。地下室住着刚出生的婴儿。他们的语言是心跳声、呼吸声这类身体发出的生理信号。当一个婴儿的心脏听诊有异常杂音或者呼吸声里出现了不该有的噼啪声这些声音本身就是重要的健康信息。一楼住着几个月到一岁左右的宝宝。他们还没学会说话但会用哭声、笑声、咿呀声来表达情绪和需求。二楼住着学步期的幼儿他们正在练习发音会发出ba、da、ma这样的音节语言学家称之为典型音节这是人类语言发展的重要里程碑。三楼才是会说话的学龄儿童他们的发音、流利度、语调和大人相比仍有明显差异而且常常带有言语障碍、语言发育迟缓等各种情况。目前市面上几乎所有的AI语音工具包括那些最先进的大模型都只认识三楼的住户而且还是个子高、发音标准的那种。地下室、一楼、二楼的孩子对这些AI来说几乎是透明的。ChildVox这个平台想做的就是让AI系统接受一次完整的四层楼测试看看它们对每一层的孩子理解到什么程度。二、这栋大楼里的每一层住了什么研究团队在构建这个测试平台时为四类声音分别设计了不同的测试任务每一类都配有真实的儿童音频数据集。从生理声音这一层开始说起。研究团队引入了三个数据集来测试AI识别儿童身体声音的能力。第一个是CirCor数据集包含来自1568名0到21岁儿童患者的5272段心脏听诊录音任务是判断心脏杂音是否存在。第二个是ICBHI数据集包含920段呼吸音录音要求AI判断是否有肺部啰音一种听起来像是湿润的噼啪声往往预示着肺部积液、哮鸣音一种高频的哨音常见于哮喘发作以及整体呼吸状况是否健康。第三个是SPRSound数据集专门为儿科呼吸音诊断设计要求区分正常呼吸音和各类异常呼吸音。这些任务对AI来说极具挑战性因为身体发出的声音往往细微而复杂和语音信号的规律完全不同。一楼的声音主要是婴幼儿的哭声和各类非语言表达。研究团队使用了两个哭声数据集Donate-a-Cry数据集包含465段婴儿哭声年龄从0到2岁需要AI判断宝宝是因为饿了还是其他原因在哭CryBank数据集则更细致来自24个家庭需要区分饥饿、孤独和不适三种哭声原因。此外研究团队还从YouTube上的大规模音频数据集AudioSet中筛选了与儿童相关的十种声音说话声、咿呀学语声、咯咯笑声、大叫声、笑声、哭声、呜咽声、唱歌声、玩耍声以及儿童音乐让AI来区分这些不同类型的儿童声音。另一类重要的数据来自ReCANVo这是一个专门研究神经发育障碍儿童和成人非语言表达的数据库录制了真实互动场景中的各种情绪性非语言发声包括高兴、情绪失控、沮丧、请求、自言自语和社交互动六种状态参与者年龄从6到23岁不等都有不同程度的神经发育障碍基本上很少使用语言交流。二楼的典型音节和语言萌芽期数据则由BabbleCor和SpeechMaturity两个数据集承担。BabbleCor是一个跨语言的婴幼儿语音语料库覆盖英语、西班牙语、马亚语等五种语言的52名参与者每段400毫秒的录音被标注为哭声、笑声、典型音节、非典型音节或无效录音五类。SpeechMaturity规模更大覆盖超过25种语言、242004段标注录音同样采用这五类标注体系。这两个数据集的核心任务是让AI判断一个婴幼儿的发声是否已经包含了典型音节——这被认为是人类语言发展的关键里程碑之一能反映孩子的语言发育水平。三楼的学龄儿童语音数据最为丰富。PERCEPT-R是一个专注于r音障碍的儿童语音数据集包含105232段单词级别的录音来自281名年龄在6到24岁之间的儿童其中既有发音正常的儿童也有被诊断为r音障碍的儿童任务是判断孩子发出的r音是否标准。SpeechOcean762是一个非母语英语发音评估数据集包含250名普通话母语者其中一半是儿童的5000段英语朗读录音由五位专家分别评分涵盖发音准确性、流利度和语调三个维度。UltraSuite则是一个结合了超声波舌头成像和声音录制的特殊数据集用来判断孩子发某个词时用的是哪个发音部位比如双唇音、齿音还是软腭音等八类。此外研究团队还纳入了两个与自闭症谱系障碍相关的私有数据集。NLS数据集包含73个英语母语儿童与父母的对话录音这些儿童大多是极少使用语言的自闭症患儿录音通过Zoom远程采集并由专家标注了说话人身份儿童还是成人和语音清晰度清晰、不清晰、非语音。ADOS2-Mod3数据集来自180名儿童参与的自闭症诊断评估录音其中约一半被诊断为自闭症其余多为多动症或其他神经发育障碍。语音识别任务则使用了MyST数据集这是目前最大的儿童对话语音语料库之一包含来自1371名三到五年级学生与虚拟科学辅导系统对话的393小时音频共228874段录音以及TinyVox数据集涵盖560名5到96个月大的儿童的超过50万段国际音标标注录音覆盖英语、法语、葡萄牙语、德语和西班牙语。三、测试台上的选手们研究团队选择了八个代表性的AI模型来接受这套测试可以把这些模型分成两大阵营精通某一技能的专科生和博学多闻但基础是通才的综合生。第一类是基于编码器的模型更像是专科生。SSAST是一种通用音频模型通过自监督学习从大量各类声音中学习音频规律包括环境音、非语言声音和语音。voc2vec-HuBERT则专门针对非语言发声进行训练相当于一个专门研究咕哝声和感叹词的专家。WavLM是目前音频领域自监督学习的代表性模型在语音处理的多个任务上都表现出色。这三个模型的共同点是它们不是为了做某个特定任务而训练的而是通过听大量声音来自己学习声音的内在规律然后再被调整来做具体任务。另一类是Whisper系列模型这是来自OpenAI的语音识别专家专门为了把人说的话转成文字而训练的。研究团队测试了三个不同规模的版本Whisper-Base约2010万参数相当于一本薄薄的字典、Whisper-Small约8800万参数一本厚实的百科全书和Whisper-Large-v3约6.35亿参数整个图书馆的规模。模型越大理论上学到的知识越多。此外研究团队还引入了Parakeet-TDT一个专门优化过的语音识别模型专门用于语音转文字任务。第二大阵营是大型音频语言模型可以理解为博学的通才。Qwen2-Audio-Instruct将Whisper-large-v3的音频处理能力和Qwen-7B大语言模型的理解能力结合在一起能够接受语音输入并用文字回答各种问题。AudioFlamingo 3是另一个类似架构的模型同样将音频编码器和语言模型结合声称具备强大的音频理解和复杂推理能力。这两个模型参数量分别约为70亿和80亿比前面那些专科生模型大了一个数量级。值得一提的是研究团队还将这些在ChildVox上训练过的模型与两个最新的商业闭源大模型Gemini 2.5 Flash和Gemini 3.5 Flash进行了对比后两者在没有经过任何儿童数据专项训练的情况下直接参与测试相当于让一位从未接触过儿科的全科医生去应对儿童专科检查。四、让AI做这套儿科体检在正式测试之前研究团队做了一些准备工作就像给所有选手统一分发考试工具。所有音频样本都被统一重采样到16000赫兹相当于把各种不同分辨率的照片统一调整到同一像素标准以确保所有模型收到的是格式一致的输入。录音最短不能低于200毫秒太短的片段会被过滤掉因为连人耳都很难从中提取有意义的信息。对于那些没有预设训练集和测试集的数据集研究团队采用了五折交叉验证的方式——把数据分成五份轮流用其中四份训练、一份测试确保结果的可靠性。模型调整方面研究团队采用了一种叫做LoRA的参数高效微调技术。可以把原来的大模型想象成一幢已经精装修的房子直接改装费时费力。LoRA的做法相当于在现有装修上加装一些可拆卸的模块化家具——只训练这些新增的模块而不动原来的墙壁和管道。具体来说对于voc2vec、WavLM和Whisper系列模型研究团队冻结了原始模型的权重只在前馈层加入了秩为64的LoRA模块。对于两个大型音频语言模型LoRA模块被插入到语言模型的查询、键值、下投影、上投影层以及音频编码器的前馈层。SSAST则采用了全模型微调因为它的规模相对较小完整调整更为可行。在数据准备上研究团队还构建了一个叫做ChildVox-Balanced的精简均衡版本专门用来训练和评估大型音频语言模型。这个版本只使用公开数据每个分类标签最多保留2000个训练样本和50个测试样本语音识别任务则分别使用10000和500个样本。最终这个均衡版本包含了来自14个子任务的64641条音频记录。之所以要做这个平衡版本是因为原始数据集规模差异悬殊直接混用会让模型偏向数据量大的任务就像考试卷子里某道题有一百个子题而其他题只有一个——这样的考试显然不公平。五、测试结果没有一个全科冠军测试结果相当有意思呈现出一幅各有所长、无人称霸的图景。在生理声音识别这一关通用音频模型SSAST和WavLM表现最好普遍优于专门训练语音识别的Whisper系列。WavLM在心脏杂音检测任务上拿到了最高分0.643SSAST则在肺部啰音检测、哮鸣音检测和SPRSound呼吸音分类上分别拿到最高分0.644、0.638和0.448。这个结果反映出一个直观的道理学过听各种声音的模型自然更擅长识别身体发出的特殊生理信号而只学过听人说话的Whisper面对心跳和呼吸声时就有些力不从心了。在婴幼儿发声和典型音节识别这一关格局相对均衡但SSAST仍然在多项任务上领先。在儿童声音事件分类这个综合任务上SSAST以0.657的成绩居首在ReCANVo的神经发育障碍儿童发声情绪识别任务上SSAST同样以0.444领先在SpeechMaturity的语音成熟度分类上SSAST以0.686取得最佳成绩。值得注意的是Whisper系列在某些任务上也表现得不错比如在BabbleCor的典型音节分类和Donate-a-Cry哭声识别上与SSAST相差不大。到了语音质量评估这一关风向转变了。专门做语音识别的Whisper-Large开始发力在SpeechOcean762的所有三项任务流利度、准确度、语调上都拿到最高分分别达到0.627、0.649和0.715。这说明大量多语言语音数据训练带来的语音理解能力确实能迁移到儿童语音质量评估上。不过在语音情感识别这个任务上WavLM Large以0.892的成绩遥遥领先而Whisper-Large只拿到了0.532——两者相差悬殊说明情感信息的捕捉需要不同于语音识别的感知能力。说话人分离和语音识别任务的冠军则无悬念地落在了Whisper-Large身上。在NLS数据集的说话人分离任务上Whisper-Large取得了17.70的错误率越低越好在ADOS2-Mod3上取得了42.50的错误率都好于其他模型。在语音识别方面Whisper-Large在MyST数据集上达到了14.80的词错误率在ADOS2-Mod3上达到了40.20。Parakeet-TDT在MyST上以15.82紧随其后排名第二。值得特别说明的是ADOS2-Mod3数据集上的语音识别错误率普遍偏高最好成绩也有40.20这反映出自闭症诊断评估场景的特殊性——录音质量参差不齐儿童发音不规则部分儿童发音非常不标准这对所有模型都构成了巨大挑战。六、大型音频语言模型一个惊喜一个意外当两个通才大模型Qwen2-Audio和AudioFlamingo 3加入测试时结果出现了明显的分化。Qwen2-Audio的表现出人意料地好。它在AudioSet儿童声音分类任务上拿到了0.699的最高分在ReCANVo任务上以0.514超过了所有编码器模型在SpeechMaturity上达到0.726与最好的编码器模型基本持平。在MyST语音识别上Qwen2-Audio以0.133的词错误率超过了Whisper-Base和Whisper-Small仅略逊于Whisper-Large的0.128。考虑到Qwen2-Audio本身并不是专门为儿童声音设计的这个成绩相当说明问题——大规模多模态训练带来的综合理解能力在一定程度上也能应对儿童声音的挑战。AudioFlamingo 3的情况则大相径庭。它在几乎所有任务上都表现不佳在AudioSet上只有0.089在SpeechMaturity上只有0.069在TinyVox音素识别上错误率高达0.958——基本上等于随机乱猜。研究团队手动检查了模型的输出后发现问题出在听话照做上AudioFlamingo 3经常不按照要求输出分类标签而是用自由描述的方式回应比如这段音频里是一个宝宝在笑而不是直接输出Laughing这个标签。在语音转写任务上它甚至会发散到总结内容而不是逐字转写——给定原文在没有电的情况下电磁铁是不可能存在的因为是电给了它磁性AudioFlamingo 3输出的是电磁铁不工作了。这种行为说明大语言模型在遵循严格格式指令方面还存在明显的不稳定性尤其在面对陌生领域的专业任务时。七、专门训练的模型完胜通用商业大模型研究团队还做了一个直接的横向对比把ChildVox上经过专项训练的最佳模型与Gemini 2.5 Flash和Gemini 3.5 Flash在五个公开数据集上的零样本表现做对比也就是让Gemini在没有任何针对性训练的情况下直接回答问题。为了安全起见研究团队只选择了不涉及私有数据或限制性授权数据的五个数据集确保没有受保护的儿童数据被传输给第三方商业接口。结果非常清晰在CirCor心脏杂音检测、SPRSound呼吸音分类、ReCANVo发声情绪识别、PERCEPT-R发音评估和SpeechOcean762语调评估这五项任务上经过ChildVox训练的模型全部超过了两个Gemini版本。两个Gemini模型在CirCor、SPRSound和ReCANVo上的表现特别糟糕宏平均F1分数都低于0.35说明即使是目前最先进的通用商业大模型在细粒度儿童生理声音和非语言发声识别这类高度专业化的任务上仍然有明显的能力盲区。专门针对特定领域数据进行训练依然是提升性能的关键路径。八、这些模型能在真实场景中干什么仅仅展示测试分数还不够研究团队还设计了两个真实的应用场景用来验证这些模型能否转化为有意义的实际工具。第一个场景聚焦于自闭症儿童的语言水平评估。研究团队将在ChildVox上训练好的说话人分离模型应用到NLS数据集的73组亲子对话录音上这些儿童都有自闭症且大多极少使用语言交流。专家事先根据每个孩子的语言发展水平将他们分为三组LL-1是前语言阶段基本不会用语言交流LL-2是单词阶段能说几个单独的词LL-3是词组阶段能把几个词组合在一起说。模型的任务是分离录音中的儿童声音统计每分钟儿童发出多少次语音话语率。结果显示出了一个非常干净的单调递增趋势从LL-1到LL-2再到LL-3话语率的中位数稳步上升语言水平越高的孩子每分钟说话次数越多。而且LL-3的分布范围也最宽说明已经进入词组阶段的孩子个体差异更大有人说很多有人仍然相对安静。这意味着只要用AI自动分析一段孩子的对话录音计算他的话语率就能粗略推断他的语言发展水平——这对于难以进行标准语言测评的重度自闭症儿童来说是一个非常有价值的辅助评估手段。这个应用的意义在于通过AI模型自动分析孩子的发音就能生成一个与年龄相对应的语音成熟度评估既可以用于早期筛查言语障碍也可以用于追踪治疗干预的效果。九、坦诚面对的局限性研究团队在论文中也毫不回避地列出了这个平台目前存在的不足之处。语言覆盖方面ChildVox中绝大多数语音数据集都是英语少数涉及多语言但基本局限于欧洲语系。语音识别任务的评估也仅针对英语子集。因此基于ChildVox的结论能否推广到普通话、西班牙语或其他语言的儿童目前尚无充分支持。标注可靠性方面像ReCANVo发声情绪分类、Donate-a-Cry哭声原因分类、SpeechMaturity语音成熟度分类这类任务本质上带有主观性不同的人对同一段录音可能会给出不同的标签。在这种情况下模型的正确率天花板受制于标注人员之间的一致性水平而不仅仅是模型本身的能力。模型选型方面研究团队没能覆盖当前所有主流的大型音频语言模型比如GAMA、SALMONN、Step-Audio和Kimi-Audio都没有被纳入测试。商业模型的对比也仅限于Gemini两个版本在零样本设置下的测试没有尝试不同的提示词工程方法这意味着对商业模型能力的评估可能并非最优条件下的结果。在伦理层面研究团队特别指出所有发布的模型代码和权重将采用负责任AI许可证RAIL明确禁止将这些模型用于临床诊断、监控、侵犯隐私的应用场景以及任何商业用途。儿童语音数据天然涉及隐私和敏感信息如何负责任地使用这些技术是研究团队格外重视的问题。说到底这项研究做的事情可以用一句话概括它为AI系统构建了一套完整的儿童声音考卷并认真地把现有的各类AI模型都送上了考场让我们第一次清楚地看到哪些AI擅长什么、在哪些地方还差得很远。测试的结果既有预期之中的也有意外发现。通用音频模型更擅长识别身体声音和婴幼儿非语言发声语音识别专用模型在语音质量评估和语音转写上更有优势而最强大的商业通用大模型在没有专项训练的情况下面对细粒度的儿童声音任务时反而不如规模小得多的专用模型。这说明在语音AI领域大不等于全能领域专注性仍然是提升性能的关键。对于普通父母或教育工作者来说这项研究的意义可能要过几年才能真正显现出来。当基于ChildVox训练的模型逐渐被应用到早期筛查、言语治疗评估、自闭症儿童语言发展追踪等实际场景中时那些目前依赖专业人士花费大量时间手动评估的任务就有可能通过一段几分钟的录音自动完成初步判断从而让更多有需要的儿童得到及时的关注和干预。有兴趣进一步了解的读者可以通过arXiv:2605.29257查阅完整论文或者关注南加州大学SAIL实验室的相关研究进展。QAQ1ChildVox基准测试平台和普通的语音识别评测有什么区别AChildVox专门针对儿童声音的全生命周期设计不只测语音识别还包括心跳声、呼吸音、婴儿哭声、典型音节等共20多个子任务覆盖从出生到学龄的所有发声类型而普通语音评测只关注成人或学龄儿童的语音转文字准确率。Q2Gemini这种顶级商业大模型为什么在儿童声音任务上表现不好A因为Gemini是通用模型没有专门针对儿科心脏杂音、婴儿哭声原因、神经发育障碍儿童非语言发声等细粒度任务进行训练。ChildVox的测试结果显示在这些高度专业化的任务上Gemini 2.5和3.5 Flash的宏平均F1分数都低于0.35经过专项训练的小模型反而表现更好。Q3ChildVox平台的研究对自闭症儿童有什么实际帮助A研究团队用ChildVox训练的说话人分离模型分析了自闭症儿童的亲子对话录音发现每分钟话语次数能有效反映儿童的语言发展水平语言水平越高话语率越高。这为难以进行标准语言测评的重度自闭症儿童提供了一种自动化的辅助评估工具有助于早期筛查和追踪干预效果。