《Lumi:macOS 原生菜单栏语音 AI 助手,听你指令搞定查资料、写代码、操作系统全流程》 Lumi住在你菜单栏的 AI Agent。语音优先随时唤起懂你记你。一、项目简介Lumi是基于 Electron Next.js 打造的macOS原生语音AI Agent助手核心主打语音优先交互常驻系统菜单栏零桌面冗余、无坞站图标以轻量化后台模式运行。项目遵循优质人机交互逻辑语音为人类自然输入、视觉为机器最优输出整合ASR语音识别、TTS语音合成与大模型能力实现全流程语音智能操作。相较于传统桌面AI工具Lumi 最大亮点是内置长效智能记忆体系可持续沉淀对话数据、迭代用户认知模型。同时支持自定义AI角色、可拓展技能插件、十余种国内外大模型无缝切换适配开发者、办公人群使用二次开发门槛低。目前项目处于Demo迭代阶段持续深耕语音视觉的智能人机交互方向。二、核心应用场景Lumi凭借轻量化常驻、全语音交互、系统级操控能力覆盖多类高频使用场景开发者辅助语音查文档、生成代码片段、调试问题、执行简易开发指令解放双手编码高效办公语音全网检索、文案创作、内容整理、日程规划无需手动输入系统操控语音控制macOS系统功能、调整设备状态实现无触控操作个性化AI交互自定义工作、创作、学习专属AI角色按需切换适配不同场景长效智能适配依托记忆系统沉淀用户习惯持续优化交互效果越用越精准三、项目核心功能特性1. 全链路语音交互打通ASR语音识别AI智能处理TTS语音合成完整链路支持实时语音监听、转写与应答。配套透明悬浮字幕弹窗无需盯屏即可查看回复支持连续对话模式单轮交互结束后自动监听下一轮指令贴合自然对话逻辑。2. 双模式全局唤醒提供两种系统级唤醒方式随时快速调用AI能力适配不同使用习惯快捷键唤醒按住右侧Option键录音松开自动提交指令唤醒词唤醒自定义专属唤醒名称语音呼叫即可启动监听3. 可定制AI角色系统内置Persona角色管理体系通过Markdown文件可自定义AI头像、性格、语气及行为逻辑。支持创建多套独立角色配置一键切换工作助理、创意搭档、学习教练等不同身份场景适配性极强。4. 高拓展技能插件能力支持 Markdown、压缩包两种格式导入技能包可自定义拓展AI工具能力与工作流。内置可视化管理面板支持一键启用/禁用插件无需修改源码即可完成功能迭代二次开发成本极低。5. 长效智能记忆机制自动每日归档对话数据周期性提炼核心记忆、迭代用户模型。AI可自主学习用户使用习惯与需求偏好实现个性化适配用户可随时回溯历史记忆记录查看AI学习成果。6. 13款大模型全覆盖兼容主流国内外AI后端支持运行时无缝切换语音识别、合成服务可独立选配自由度极高国际模型Anthropic Claude、OpenAI ChatGPT国内模型智谱GLM、DeepSeek、Kimi、通义千问、火山豆包、小米MiMo等聚合模型OpenRouter、SiliconFlow语音服务火山引擎语音、阿里百炼Paraformer识别CosyVoice合成7. 轻量化菜单栏常驻无桌面窗口、无坞站占用静默常驻macOS菜单栏资源占用极低。托盘指示灯实时反馈状态灰色空闲、蓝色思考中、绿色执行完成、红色异常状态直观可控。四、项目技术架构解析1. 整体架构采用Electron 主进程 Next.js 15 嵌入式子进程架构摒弃传统REST通信基于IPC实现前后端交互响应更快、架构更轻量化。生产环境下Next.js以内嵌子进程运行在Electron中实现桌面一体化部署。职责分层清晰Electron主进程负责托盘、快捷键、语音流水线、进程调度Next.js负责页面渲染、状态管理与用户交互。2. 语音交互流水线基于sherpa-onnx实现唤醒检测与静音判定全链路自动化流转音频监听 → 唤醒词识别 → VAD静音检测 → 音频录制 → ASR语音转文字 → Claude Agent AI处理 → TTS语音合成 → 悬浮字幕展示3. 标准化状态机全流程闭环状态管控保障交互稳定空闲(idle) → 录音中(recording) → 转写中(transcribing) → 思考中(thinking) → 执行中(executing) → 执行完成(completed) → 回归空闲五、项目目录结构目录分层清晰、职责明确便于二次开发与迭代维护Lumi/ ├── electron/ # Electron主进程核心 │ ├── main.ts # 核心调度(窗口、状态机、IPC、语音流水线) │ ├── tray.ts # 菜单栏托盘与状态指示 │ ├── shortcuts.ts # 全局快捷键监听 │ ├── recorder.ts # 音频录制与ASR处理 │ ├── tts.ts # 语音合成与语句解析 │ ├── voice-providers/ # 语音服务适配层 │ ├── voice-bar.ts # 悬浮录音指示器 │ ├── subtitle-popup.ts # 透明字幕悬浮窗 │ ├── wake-word.ts # 唤醒词引擎 │ ├── audio-listener.ts # 麦克风音频监听 │ └── native/ # Swift原生键盘模块 ├── src/ │ ├── app/ │ │ ├── (main)/ # 主页面(对话/记忆/角色/设置) │ │ └── (transparent)/ # 悬浮弹窗页面 │ ├── components/ # 通用UI组件 │ ├── lib/ # 公共工具库(状态管理/AI/记忆) │ └── types/ # TS类型定义 ├── resources/ # 图标、语音模型等静态资源 └── scripts/ # 项目构建脚本六、全套技术栈明细技术分层所用技术方案桌面框架Electron 35前端框架Next.js 15、React 19、TypeScript样式方案Tailwind CSS语音引擎sherpa-onnx唤醒词VAD检测语音识别火山引擎ASR、阿里百炼Paraformer语音合成火山引擎TTS、阿里百炼CosyVoiceAI调度核心Claude Agent SDK本地数据库better-sqlite3原生模块Swift、uiohook-napi打包工具electron-builderDMG安装包七、环境依赖与部署教程1. 前置环境系统macOS 13.0运行环境Node.js 18编译依赖Xcode Command Line Tools2. 项目启动流程下载源文件并解压https://pan.xunlei.com/s/VOtRldACB5goYd0N4w1ImUPNA1?pwdiv8x#https://pan.xunlei.com/s/VOtRldACB5goYd0N4w1ImUPNA1?pwdiv8x## 进入目录 cd Lumi # 安装依赖 npm install # 启动开发环境 npm run electron:dev3. 项目打包# 打包生成DMG安装包 npm run electron:build打包产物自动输出至项目release/目录。八、常用脚本说明执行脚本功能描述npm run electron:dev启动开发环境并行运行Next.js与Electronnpm run electron:build完整打包生成macOS DMG安装包npm run build:electron仅编译Electron主进程npm run build仅编译Next.js前端项目九、项目迭代规划项目处于快速迭代中后续重点更新四大核心能力智能意图路由自动判别任务复杂度简单问题极速响应复杂任务调用完整工具链前置语音应答任务执行前先语音反馈告别静默等待优化交互体验屏幕场景感知识别光标周边屏幕内容实现场景化上下文对话与操作语音克隆与切换支持自定义TTS音色少量样本即可完成语音克隆十、开源协议Lumi 基于MIT开源协议开源支持免费学习、二次开发与商用部署仅需遵守对应开源协议规范即可。十一、总结Lumi 是一款轻量化、高自由度的macOS专属语音AI开源助手凭借菜单栏常驻零冗余、全自然语音交互、智能长效记忆、可拓展技能体系、全主流大模型适配的核心优势完美适配开发、办公各类场景。项目架构清晰、部署简单、二次开发友好且持续迭代更新是macOS平台优质的开源AI桌面项目值得开发者收藏学习与落地使用。