上期视频大家过了一遍语言脑机接口的发展历史这期就来对比一下各篇文章的解码流程。切分单词或汉字首先我们让患者看着屏幕要求他/她朗读、默读或想象屏幕上的汉字同时记录侵入式的脑信号这篇论文里用的是 ECoG 电极。这时我们记录到的只是原始数据原始数据中包含很多噪声和毛刺这些是无用信息。懿轩注其实若计算资源丰富也可以试试能否从这些毛刺中挖掘出一些有用信息第1步我们要经过希尔伯特变换提取出原始曲线的包络从而去除这些噪声和毛刺。如图所示灰色的曲线是原始数据彩色的7条线是包络对应的是7个频段如果忘了频段可以回我上期的视频看一下。第1步后我们得到的数据是连续的一段比如说这是患者在说我很欣赏烟台这个城市时的脑信号。第2步我们要检测出患者说每个汉字的时刻把这一整句切成多个汉字比如图中的这条红线就是句子里的我。第3步我们训练一个深度学习解码器把刚才我的脑信号解码成我的音节也就是 wo。第4步我们接入一个语言模型得到汉字我。刚才我讲的4步是目前所有汉语语言脑机文章用的方法。只不过有的文章会在 ERP2Sylb 这步中加上解码声母、韵母、音调的中间步骤。这方面的工作有上海科技大学的李远宁、西湖大学的 Mohamad Sawan、浙江大学的杨洋、北京师范大学的柳昀哲、深圳河套学院的蔡思祺已经至少有5篇文章。汉语的这些解法是从英语研究学过来的。英语在2020年、2021年的文章也是一样的套路第1步做预处理第2步切成单词第3步解单词第4步把单词合成句子。但是2023年及之后英语还有一种做法——用【CTC Loss】——可以跳过切单词、解单词这两步。不切分单词或汉字CTC 全称是Connectionist Temporal Classification是2006年在语音识别中被提出的一种方法。当时统计机器学习方法例如隐马尔可夫链是语音识别领域的王者发明者Alex Graves把 Connectionist 直接加入名字中这样大家一眼就能看出来这方法在用循环神经网络。CTC的具体实现是——语音信号经分帧帧长 25ms帧移 10ms这俩数是古圣先贤帮你调好的后输入循环神经网络通过引入 blank 符号和动态规划算法绕过帧与标签的对齐从而解码出音素序列再经过语言模型得到英语句子。把第一步的语音信号换成神经信号就可以拿到语言脑机接口领域用了。懿轩注Alex Graves是Jurgen的博士生Hinton的博后LSTM就是他复兴的。看来那时候Jurgen和Hinton关系还不错今年3月末Neuralink发布了想象语音的视频。它的解码就是典型的【CTC Loss】因为它两个标签之间的空白可长可短。懿轩注我可以99%确定它用的就是【CTC Loss】但是因为它没有发论文或者技术报告所以还有一些不确定性。刚才我讲的两条英文解码路径已经概括了我上一篇视频讲的所有关于长期植入的文章。未来汉语语言脑机选择切分还是不切分中文脑机里【CTC Loss】未必就一定强于【切单字、解单字】原因如下中文1-3个音素就组成一个汉字英语四五个音素才组成一个单词。因此英语单词可以对英语音素进行一轮纠错而汉语单字不能。中文常用音节才四百个英语单词却有一万个。因此英语用切单词是注定做不到常用语的而汉语可以。当然中文上【CTC Loss】相比于【切单字、解单字】也有好处最大的好处是——未来真正给中风或渐冻症患者做的时候患者说每个汉字的发音时长肯定会有差别。若还采用【切单字、解单字】虽然我们可以通过线性变换进行拉伸或者压缩但肯定会降低解码准确率。综上两条路径都是值得尝试的。【CTC Loss】不一定非要以音素作为标签。实际上在CTC统治语音识别的十年里英文语音识别SOTA中CTC的标签经历了从音素到字符再到BPE的变化。中文语音识别SOTA中一直在使用汉字作为标签。那么中文语言脑机能用汉字作为【CTC Loss】的标签吗——一个难点是数据太少。语音识别领域里数据足够多动辄可以产生几百万汉字的数据。但是语言脑机由于患者很疲惫每周只能采集大约两万字的数据。并且长期植入时信号每周需要重新校准。因此恐怕难以产生类似语音识别那样的数据量。两万个汉字若均摊到3500常用字上每个汉字才出现5-6次解码难度可想而知。语言模型纠错无论切分还是不切分都需要用语言模型纠错。很容易想到我们可以用多个从小到大的大语言模型进行多轮纠错从而平衡解码准确率和解码速度。上图是已经发表文章中采用的大语言模型。从模型大小上你大概就能猜出来作者们是如何使用的了。未来汉语语言脑机有可能略过大语言模型纠错吗——在直接用汉字作为CTC标签前不太可能。参考文献Card, Nicholas S., Maitreyee Wairagkar, Carrina Iacobacci, et al. ‘An Accurate and Rapidly Calibrating Speech Neuroprosthesis’.New England Journal of Medicine391, no. 7 (2024): 609–18. https://doi.org/10.1056/NEJMoa2314132.Feghhi, Ebrahim, Junlin Hu, Nima Hadidi, and Jonathan C. Kao. ‘LightBeam: An Accurate and Memory-Efficient CTC Decoder for Speech Neuroprostheses’. arXiv:2603.14002. Preprint, arXiv, 14 March 2026. https://doi.org/10.48550/arXiv.2603.14002.Feng, Chen, Lu Cao, Di Wu, et al. ‘Acoustic Inspired Brain-to-Sentence Decoder for Logosyllabic Language’.Cyborg and Bionic Systems6 (January 2025): 257. https://doi.org/10.34133/cbsystems.0257.Liu, Yan, Zehao Zhao, Minpeng Xu, et al. ‘Decoding and Synthesizing Tonal Language Speech from Brain Activity’.Science Advances9, no. 23 (2023): eadh0478. https://doi.org/10.1126/sciadv.adh0478.Makin, Joseph G., David A. Moses, and Edward F. Chang. ‘Machine Translation of Cortical Activity to Text with an Encoder–Decoder Framework’.Nature Neuroscience23, no. 4 (2020): 575–82. https://doi.org/10.1038/s41593-020-0608-8.Metzger, Sean L., Kaylo T. Littlejohn, Alexander B. Silva, et al. ‘A High-Performance Neuroprosthesis for Speech Decoding and Avatar Control’.Nature620, no. 7976 (2023): 1037–46. https://doi.org/10.1038/s41586-023-06443-4.Moses, David A., Sean L. Metzger, Jessie R. Liu, et al. ‘Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria’.New England Journal of Medicine385, no. 3 (2021): 217–27. https://doi.org/10.1056/NEJMoa2027540.Real-Time Decoding of Full Spectrum Chinese Using Brain-Computer Interface. 2025.Silva, Alexander B., Jessie R. Liu, Sean L. Metzger, et al. ‘A Bilingual Speech Neuroprosthesis Driven by Cortical Articulatory Representations Shared between Languages’.Nature Biomedical Engineering8, no. 8 (2024): 977–91. https://doi.org/10.1038/s41551-024-01207-5.Willett, Francis R., Erin M. Kunz, Chaofei Fan, et al. ‘A High-Performance Speech Neuroprosthesis’.Nature620, no. 7976 (2023): 1031–36. https://doi.org/10.1038/s41586-023-06377-x.Yuan, Zhizhang, Yang Yang, Gaorui Zhang, et al. ‘Towards Unified Brain-to-Text Decoding across Speech Production and Perception’. arXiv:2603.12628. Preprint, arXiv, 13 March 2026. https://doi.org/10.48550/arXiv.2603.12628.Zhang, Daohan, Zhenjie Wang, Youkun Qian, et al. ‘A Brain-to-Text Framework for Decoding Natural Tonal Sentences’.Cell Reports43, no. 11 (2024): 114924. https://doi.org/10.1016/j.celrep.2024.114924.Zhang, Yizi, Linyang He, Chaofei Fan, et al. ‘Decoding Inner Speech with an End-to-End Brain-to-Text Neural Interface’. arXiv:2511.21740. Preprint, arXiv, 5 December 2025. https://doi.org/10.48550/arXiv.2511.21740.
语言脑机接口解码流程对比【脑机接口恢复语言2】
发布时间:2026/5/28 3:54:44
上期视频大家过了一遍语言脑机接口的发展历史这期就来对比一下各篇文章的解码流程。切分单词或汉字首先我们让患者看着屏幕要求他/她朗读、默读或想象屏幕上的汉字同时记录侵入式的脑信号这篇论文里用的是 ECoG 电极。这时我们记录到的只是原始数据原始数据中包含很多噪声和毛刺这些是无用信息。懿轩注其实若计算资源丰富也可以试试能否从这些毛刺中挖掘出一些有用信息第1步我们要经过希尔伯特变换提取出原始曲线的包络从而去除这些噪声和毛刺。如图所示灰色的曲线是原始数据彩色的7条线是包络对应的是7个频段如果忘了频段可以回我上期的视频看一下。第1步后我们得到的数据是连续的一段比如说这是患者在说我很欣赏烟台这个城市时的脑信号。第2步我们要检测出患者说每个汉字的时刻把这一整句切成多个汉字比如图中的这条红线就是句子里的我。第3步我们训练一个深度学习解码器把刚才我的脑信号解码成我的音节也就是 wo。第4步我们接入一个语言模型得到汉字我。刚才我讲的4步是目前所有汉语语言脑机文章用的方法。只不过有的文章会在 ERP2Sylb 这步中加上解码声母、韵母、音调的中间步骤。这方面的工作有上海科技大学的李远宁、西湖大学的 Mohamad Sawan、浙江大学的杨洋、北京师范大学的柳昀哲、深圳河套学院的蔡思祺已经至少有5篇文章。汉语的这些解法是从英语研究学过来的。英语在2020年、2021年的文章也是一样的套路第1步做预处理第2步切成单词第3步解单词第4步把单词合成句子。但是2023年及之后英语还有一种做法——用【CTC Loss】——可以跳过切单词、解单词这两步。不切分单词或汉字CTC 全称是Connectionist Temporal Classification是2006年在语音识别中被提出的一种方法。当时统计机器学习方法例如隐马尔可夫链是语音识别领域的王者发明者Alex Graves把 Connectionist 直接加入名字中这样大家一眼就能看出来这方法在用循环神经网络。CTC的具体实现是——语音信号经分帧帧长 25ms帧移 10ms这俩数是古圣先贤帮你调好的后输入循环神经网络通过引入 blank 符号和动态规划算法绕过帧与标签的对齐从而解码出音素序列再经过语言模型得到英语句子。把第一步的语音信号换成神经信号就可以拿到语言脑机接口领域用了。懿轩注Alex Graves是Jurgen的博士生Hinton的博后LSTM就是他复兴的。看来那时候Jurgen和Hinton关系还不错今年3月末Neuralink发布了想象语音的视频。它的解码就是典型的【CTC Loss】因为它两个标签之间的空白可长可短。懿轩注我可以99%确定它用的就是【CTC Loss】但是因为它没有发论文或者技术报告所以还有一些不确定性。刚才我讲的两条英文解码路径已经概括了我上一篇视频讲的所有关于长期植入的文章。未来汉语语言脑机选择切分还是不切分中文脑机里【CTC Loss】未必就一定强于【切单字、解单字】原因如下中文1-3个音素就组成一个汉字英语四五个音素才组成一个单词。因此英语单词可以对英语音素进行一轮纠错而汉语单字不能。中文常用音节才四百个英语单词却有一万个。因此英语用切单词是注定做不到常用语的而汉语可以。当然中文上【CTC Loss】相比于【切单字、解单字】也有好处最大的好处是——未来真正给中风或渐冻症患者做的时候患者说每个汉字的发音时长肯定会有差别。若还采用【切单字、解单字】虽然我们可以通过线性变换进行拉伸或者压缩但肯定会降低解码准确率。综上两条路径都是值得尝试的。【CTC Loss】不一定非要以音素作为标签。实际上在CTC统治语音识别的十年里英文语音识别SOTA中CTC的标签经历了从音素到字符再到BPE的变化。中文语音识别SOTA中一直在使用汉字作为标签。那么中文语言脑机能用汉字作为【CTC Loss】的标签吗——一个难点是数据太少。语音识别领域里数据足够多动辄可以产生几百万汉字的数据。但是语言脑机由于患者很疲惫每周只能采集大约两万字的数据。并且长期植入时信号每周需要重新校准。因此恐怕难以产生类似语音识别那样的数据量。两万个汉字若均摊到3500常用字上每个汉字才出现5-6次解码难度可想而知。语言模型纠错无论切分还是不切分都需要用语言模型纠错。很容易想到我们可以用多个从小到大的大语言模型进行多轮纠错从而平衡解码准确率和解码速度。上图是已经发表文章中采用的大语言模型。从模型大小上你大概就能猜出来作者们是如何使用的了。未来汉语语言脑机有可能略过大语言模型纠错吗——在直接用汉字作为CTC标签前不太可能。参考文献Card, Nicholas S., Maitreyee Wairagkar, Carrina Iacobacci, et al. ‘An Accurate and Rapidly Calibrating Speech Neuroprosthesis’.New England Journal of Medicine391, no. 7 (2024): 609–18. https://doi.org/10.1056/NEJMoa2314132.Feghhi, Ebrahim, Junlin Hu, Nima Hadidi, and Jonathan C. Kao. ‘LightBeam: An Accurate and Memory-Efficient CTC Decoder for Speech Neuroprostheses’. arXiv:2603.14002. Preprint, arXiv, 14 March 2026. https://doi.org/10.48550/arXiv.2603.14002.Feng, Chen, Lu Cao, Di Wu, et al. ‘Acoustic Inspired Brain-to-Sentence Decoder for Logosyllabic Language’.Cyborg and Bionic Systems6 (January 2025): 257. https://doi.org/10.34133/cbsystems.0257.Liu, Yan, Zehao Zhao, Minpeng Xu, et al. ‘Decoding and Synthesizing Tonal Language Speech from Brain Activity’.Science Advances9, no. 23 (2023): eadh0478. https://doi.org/10.1126/sciadv.adh0478.Makin, Joseph G., David A. Moses, and Edward F. Chang. ‘Machine Translation of Cortical Activity to Text with an Encoder–Decoder Framework’.Nature Neuroscience23, no. 4 (2020): 575–82. https://doi.org/10.1038/s41593-020-0608-8.Metzger, Sean L., Kaylo T. Littlejohn, Alexander B. Silva, et al. ‘A High-Performance Neuroprosthesis for Speech Decoding and Avatar Control’.Nature620, no. 7976 (2023): 1037–46. https://doi.org/10.1038/s41586-023-06443-4.Moses, David A., Sean L. Metzger, Jessie R. Liu, et al. ‘Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria’.New England Journal of Medicine385, no. 3 (2021): 217–27. https://doi.org/10.1056/NEJMoa2027540.Real-Time Decoding of Full Spectrum Chinese Using Brain-Computer Interface. 2025.Silva, Alexander B., Jessie R. Liu, Sean L. Metzger, et al. ‘A Bilingual Speech Neuroprosthesis Driven by Cortical Articulatory Representations Shared between Languages’.Nature Biomedical Engineering8, no. 8 (2024): 977–91. https://doi.org/10.1038/s41551-024-01207-5.Willett, Francis R., Erin M. Kunz, Chaofei Fan, et al. ‘A High-Performance Speech Neuroprosthesis’.Nature620, no. 7976 (2023): 1031–36. https://doi.org/10.1038/s41586-023-06377-x.Yuan, Zhizhang, Yang Yang, Gaorui Zhang, et al. ‘Towards Unified Brain-to-Text Decoding across Speech Production and Perception’. arXiv:2603.12628. Preprint, arXiv, 13 March 2026. https://doi.org/10.48550/arXiv.2603.12628.Zhang, Daohan, Zhenjie Wang, Youkun Qian, et al. ‘A Brain-to-Text Framework for Decoding Natural Tonal Sentences’.Cell Reports43, no. 11 (2024): 114924. https://doi.org/10.1016/j.celrep.2024.114924.Zhang, Yizi, Linyang He, Chaofei Fan, et al. ‘Decoding Inner Speech with an End-to-End Brain-to-Text Neural Interface’. arXiv:2511.21740. Preprint, arXiv, 5 December 2025. https://doi.org/10.48550/arXiv.2511.21740.