手把手教你用SenseVoice：会议录音自动转文字，还能识别说话情绪

发布时间：2026/6/7 7:43:36

手把手教你用SenseVoice会议录音自动转文字还能识别说话情绪想象一下开完两小时的会议后你不再需要花时间反复听录音做笔记。SenseVoice语音识别服务能自动将录音转成文字还能识别出谁在生气、谁在兴奋。这个基于ONNX量化的多语言语音识别工具正在改变我们处理语音内容的方式。1. 为什么选择SenseVoice进行语音转写在众多语音识别工具中SenseVoice脱颖而出主要因为它解决了传统方案的三大痛点1.1 传统语音转写工具的局限性语言单一大多数工具只支持主流语言遇到粤语或混合语言就束手无策纯文字输出丢失了语音中的情感和背景音等丰富信息部署复杂大型模型需要昂贵硬件支持难以在普通设备上运行1.2 SenseVoice的核心优势多语言支持自动识别中文、粤语、英语、日语、韩语等50种语言富文本输出不仅转文字还能识别说话人情绪和背景音轻量高效量化后的ONNX模型仅230MB10秒音频处理仅需70毫秒简单易用提供Web界面和REST API两种使用方式2. 快速部署SenseVoice语音识别服务让我们从零开始10分钟内搭建起完整的语音识别服务。2.1 环境准备与安装确保你的系统已安装Python 3.7然后执行以下命令# 安装必要依赖 pip install funasr-onnx gradio fastapi uvicorn soundfile jieba # 下载模型自动缓存到/root/ai-models/danieldong/sensevoice-small-onnx-quant python -c from funasr_onnx import SenseVoiceSmall; model SenseVoiceSmall()2.2 启动服务创建启动脚本app.py内容如下from funasr_onnx import SenseVoiceSmall import gradio as gr model SenseVoiceSmall(quantizeTrue) def transcribe(audio): result model([audio], languageauto, use_itnTrue) return result[0] iface gr.Interface( fntranscribe, inputsgr.Audio(sourceupload, typefilepath), outputstext, titleSenseVoice 语音识别演示 ) iface.launch(server_name0.0.0.0)启动服务python app.py3. 使用SenseVoice进行语音转写服务启动后你可以通过两种方式使用它。3.1 通过Web界面使用访问http://localhost:7860你会看到简洁的操作界面点击上传按钮选择音频文件支持mp3/wav/m4a等格式系统自动检测语言并转写查看结果包含转写文本识别出的语言情感标签如[高兴]、[生气]背景音事件如[音乐]、[掌声]3.2 通过API调用对于开发者可以直接调用REST APIcurl -X POST http://localhost:7860/api/transcribe \ -F filemeeting.wav \ -F languageauto \ -F use_itntrueAPI返回示例{ text: 我觉得这个方案有问题[生气], language: zh, emotion: angry, audio_events: [] }4. Python集成示例如果你想将SenseVoice集成到自己的Python项目中可以参考以下代码4.1 基本调用from funasr_onnx import SenseVoiceSmall # 初始化模型自动使用缓存模型 model SenseVoiceSmall( model_dir/root/ai-models/danieldong/sensevoice-small-onnx-quant, quantizeTrue ) # 转写单个文件 result model([meeting.wav], languageauto) print(f转写结果: {result[0][text]}) print(f识别情绪: {result[0][emotion]})4.2 批量处理会议录音import os def process_meeting_recordings(folder_path): audio_files [f for f in os.listdir(folder_path) if f.endswith(.wav)] full_transcript [] for file in audio_files: result model([os.path.join(folder_path, file)], languageauto) transcript { file: file, text: result[0][text], emotion: result[0][emotion] } full_transcript.append(transcript) return full_transcript # 使用示例 transcripts process_meeting_recordings(recordings/) for item in transcripts: print(f{item[file]}: {item[text]} ({item[emotion]}))5. 进阶使用技巧掌握这些技巧你可以获得更专业的转写结果。5.1 提升转写准确率清晰录音尽量使用外置麦克风减少背景噪音分段处理长音频分成15-30秒片段处理效果更好语言提示如果知道确切语言指定语言代码而非auto5.2 情感识别优化语气明显表达时情绪越明显识别越准确多角度验证结合多个语音片段判断整体情绪趋势自定义标签基于原始输出开发自己的情绪分析模型5.3 处理特殊场景混合语言系统会自动检测语言切换无需特别处理专业术语对专业领域词汇可后期进行文本替换背景音乐使用音频编辑软件先降噪效果更好6. 实际应用案例让我们看几个SenseVoice在不同场景下的应用实例。6.1 会议记录自动化场景科技公司每周产品会议痛点会议内容分散后续整理耗时解决方案录制会议音频用SenseVoice转写并标记关键讨论点根据情绪标签识别争议话题效果会议纪要制作时间从2小时缩短到15分钟6.2 客户服务质检场景电商平台客服电话质检痛点人工抽检效率低难以及时发现问题解决方案批量转写客服通话筛选出包含[生气]标签的对话重点分析这些对话的服务问题效果质检覆盖率从5%提升到100%投诉率下降30%6.3 多媒体内容生产场景视频博主制作字幕痛点手动添加字幕费时无法捕捉语气变化解决方案转写视频音频根据情感标签添加表情符号自动生成带情绪提示的字幕效果字幕制作时间减少80%观众互动率提升7. 总结SenseVoice语音识别服务将复杂的AI技术封装成简单易用的工具无论是通过Web界面还是API都能快速获得高质量的语音转写结果。它的三大独特价值多语言无缝识别自动处理中文、粤语、英语等多种语言混合的场景超越文字的理解捕捉说话人情绪和背景音提供富文本输出高效轻量量化ONNX模型让高质量语音识别能在普通设备上运行从会议记录到客服质检从内容创作到情感分析SenseVoice正在改变我们处理语音数据的方式。现在就开始使用它让你的工作流程变得更加智能高效。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

WiFi DensePose：用无线电波“看透“世界 — 无摄像头人体感知革命

No cameras. No wearables. No Internet. Just radio waves. 没有摄像头，没有可穿戴设备，不需要联网。只有物理世界的无线电波。🌟 引言：重新定义"感知" 想象这样一个场景：一位独居老人在浴室摔倒&#xff0…

2026/6/4 22:06:22 阅读更多

AI辅助数据库设计：让快马平台智能分析ER图，推荐并生成优化后的SQL代码

最近在做一个员工管理系统的数据库设计，发现ER图的设计和SQL代码生成其实是个挺费脑子的活儿。好在现在有了AI辅助工具，整个过程变得轻松多了。今天就用一个实际案例，分享一下如何用智能工具优化数据库设计。初始ER图分析系统最初的设计很简…

2026/6/4 14:23:33 阅读更多

Scholar-Agent

✅ 双栏对照预览：现在支持全文 Markdown 展示。高亮追踪：搜索词、关键指标在原文中自动黄色高亮，再也不用手动 CtrlF 找关键词了。✅ 沉浸式文献助手 (Paper Chat)： 右下角新增 “脑机接口”式对话窗。局部 RAG：你可以…

2026/6/3 21:17:56 阅读更多

给 Qwen3.6 装上 MTP：本地部署、蒸馏、微调一条龙保姆教程

最近 Qwen3.6 和 Unsloth 的组合很值得折腾。原因不复杂：Qwen3.6 官方模型卡里已经写明 MTP: trained with multi-steps，也就是模型训练阶段就带了 Multi-Token Prediction 能力。Unsloth 又进一步放出了保留 MTP head 的 GGUF 量化版本。于是&#xf…

2026/6/7 7:43:19 阅读更多

AI结对编程：调用快马多模型助手，智能破解每日大赛中的疑难杂症

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请生成一个深度集成AI辅助的每日赛题分析工具。核心功能：页面中央展示赛题，侧边栏集成一个AI聊天助手（预设角色为‘编程教练’）。用…

2026/6/7 7:42:58 阅读更多

Proteus 8.9安装包+保姆级教程：手把手教你从零搭建51单片机仿真环境（附避坑指南）

Proteus 8.9安装与51单片机仿真环境搭建全指南第一次接触Proteus和51单片机时，光是安装软件就卡住了大半天——杀毒软件误报、路径含中文报错、许可证激活失败...这些坑几乎一个不落全踩了一遍。本文将用最直白的语言，带你零痛苦完成从软件安装到第一个L…

2026/6/7 7:42:38 阅读更多

哔哩下载姬downkyi完整教程：从入门到精通的B站视频批量下载指南

哔哩下载姬downkyi完整教程：从入门到精通的B站视频批量下载指南【免费下载链接】downkyi 哔哩下载姬downkyi，哔哩哔哩网站视频下载工具，支持批量下载，支持8K、HDR、杜比视界，提供工具箱（音视频提取、去水印…

2026/6/7 7:42:18 阅读更多

如何快速掌握DownKyi：5步实现B站视频高效下载的完整指南

如何快速掌握DownKyi：5步实现B站视频高效下载的完整指南【免费下载链接】downkyi 哔哩下载姬downkyi，哔哩哔哩网站视频下载工具，支持批量下载，支持8K、HDR、杜比视界，提供工具箱（音视频提取、去水印等&…

2026/6/7 7:42:18 阅读更多

Hermes+Obsidian+LLM Wiki 3个工具搭建AI知识库，附详细操作步骤

花了整整两天，我把推特收藏的200多篇文章全导进了一个本地知识库。不是手动分类，不是打标签，是AI自动帮我提取关键概念、建立双向链接、生成结构化的Wiki页面。整个过程我就做了一件事，把文件丢进去。以前用Notion存笔记&am…

2026/6/7 7:41:58 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/7 0:02:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/7 0:03:38 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

2026/6/7 0:02:57 阅读更多

索引堆及其优化

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

2026/6/7 0:03:38 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/6 9:33:50 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/6 9:33:47 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/6 9:33:47 阅读更多

相关文章

WiFi DensePose：用无线电波“看透“世界 — 无摄像头人体感知革命

AI辅助数据库设计：让快马平台智能分析ER图，推荐并生成优化后的SQL代码

Scholar-Agent

给 Qwen3.6 装上 MTP：本地部署、蒸馏、微调一条龙保姆教程

AI结对编程：调用快马多模型助手，智能破解每日大赛中的疑难杂症

Proteus 8.9安装包+保姆级教程：手把手教你从零搭建51单片机仿真环境（附避坑指南）

哔哩下载姬downkyi完整教程：从入门到精通的B站视频批量下载指南

如何快速掌握DownKyi：5步实现B站视频高效下载的完整指南

Hermes+Obsidian+LLM Wiki 3个工具搭建AI知识库，附详细操作步骤

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因