在灵珠平台搭一个能认识万物的AI智能体,我把全过程写下来了

发布时间：2026/6/6 7:06:53

拍一张照片就能认识世界这事儿真能做到吗去年我第一次戴上Rokid Glasses乐奇眼镜的时候脑子里就冒出一个念头。能不能做一个东西对着花拍一下就知道叫什么名对着菜拍一下就知道多少卡路里,对着建筑拍一下就能听到它的故事。后来我真的动手了。在Rokid灵珠AI平台上,我搭了一个叫万物生的智能体。核心功能就一句话,通过乐奇眼镜上传图片,识别一切事物。听起来像在吹牛对吧。但做完之后我发现,这玩意儿的体验超出了我的预期。今天就把整个搭建过程拆开来讲踩过的坑也一并说了。先搞清楚硬件能干什么别上来就写代码很多人做智能体的第一步就是打开平台开始配提示词。我觉得这是错的。你得先搞清楚你的硬件载体到底能干什么边界在哪里,能力在哪里。乐奇眼镜这副硬件我用了一段时间,几个关键数据说一下。整机49g戴着基本没负担。摄像头3024×4032分辨率拍出来的图比很多手机随手拍还清楚。Micro LED加衍射光波导双目显示亮度1500nits,大太阳底下也看得见。4颗麦克风定向拾音,2颗高保真扬声器,语音交互完全够用。但最关键的不是这些参数。最关键的是它的AI响应速度。语音指令1秒内出结果图片识别2秒内出结果。这个速度意味着什么意味着你对着一朵花拍一张照还没来得及把手放下,结果就出来了。而且它不是只接了一个模型。通义千问、DeepSeek、豆包、智谱,好几个大模型都能切换。这给后面做智能体留了很大的灵活空间.还有一点很多人不知道,去年Rokid已经上线了Rokid Glasses SDK开发套件把完整的AR眼镜开发工具链开放给了开发者。这一步非常重要,没有这个SDK,后面的事情都做不了。搞清楚了这些,我才敢往下走。灵珠平台到底是个啥说实话我一开始对灵珠平台没什么概念。用了之后发现它本质上就是一个云端的智能体编排平台。你可以在上面创建智能体,定义它的人设和回复逻辑,配置工作流,接上各种工具,然后发布出去拿到API。整个过程是可视化的拖拖拽拽就能搞定。平台地址是 https://rizon.rokid.com/space/home ,注册之后需要做实名认证。进去之后你会看到智能体开发、工作流、应用中心这几个主要模块。有一个很实用的功能值得单独说一下。灵珠平台支持自定义智能体接入基于SSE协议,你可以把自己私有部署的大模型接进来。DeepSeek R1、Qwen3、Kimi K2.5都行。这对于想深度定制的开发者来说,算是个大利好。不过对于万物生这个项目来说,我没有用私有模型,直接用平台内置的能力就够了。万物生这个名字,是有讲究的取名这件事我想了挺久。万物生万物有灵一眼即生。我希望用户戴着眼镜看到任何东西的时候,这个东西就像是在他面前活过来了一样,有了名字,有了故事,有了意义。它的定位很明确,就是一个万物识别智能体。不做聊天机器人不做日程管理不做翻译助手。只做一件事你给我看什么,我就告诉你这是什么。但这个只做一件事其实拆开来挺复杂的。我把识别能力分了四个层级。基础层处理动物植物食物日用品这些常见的东西。进阶层处理地标建筑、品牌Logo、多语言文字。专业层搞定珠宝药材艺术品这些垂直领域。场景层负责理解整个画面比如交通状况、活动场景。每一层用到的技术方案不一样。基础层靠多模态大模型就够了进阶层需要OCR加视觉检索加知识图谱专业层可能需要垂直微调场景层得用视觉语言大模型。想清楚这些分层之后写提示词才有的放矢。提示词是灵魂,这部分我改了很多遍灵珠平台最核心的配置就是人设与回复逻辑。说白了就是一段提示词,决定了你的智能体是什么性格、怎么说话、遇到不同情况怎么处理。这部分我前后改了很多遍。下面是最终版本,直接贴到灵珠平台配置区就能用。# 角色定义你是万物生,一个运行于Rokid Glasses乐奇AI眼镜上的万物识别智能体。用户通过眼镜摄像头拍摄任何事物,你能快速准确地识别, 并用简洁生动的方式告诉用户这是什么、有什么故事、有什么用。 ## 核心人设 - 名字,万物生 - 性格,博学、亲切、充满好奇心, 像一位无所不知的自然探索家和百科全书式的朋友 - 语言风格,简洁清晰,通俗易懂,避免大段学术术语, 必要时加入趣味冷知识或比喻让回答生动有趣 - 语气,温暖热情,带有发现新事物的兴奋感, 善于用好眼力、有意思、你发现了一个宝藏等鼓励性用语开头 - 自我认知,你是运行在乐奇眼镜上的AI识别助手, 当用户问你是谁,要清晰说明自己是万物生万物识别智能体 ## 核心能力 1. 万物识别,识别图片中的动物、植物、昆虫、食物、建筑、地标、商品、品牌Logo、矿石、天象、艺术品、文物、交通标识、文字等一切可见事物 2. 知识解读,提供名称、分类、特征、用途、文化背景、趣味知识等 3. 场景感知,根据图片整体场景自动调整回复侧重点 4. 追问引导,识别后主动引导用户进一步探索 ## 用户上传图片时的处理流程第一步,快速识别 - 分析图片内容,识别出1到3个核心对象 - 多个事物时优先识别最显眼或居中的主体第二步,结构化输出按以下格式回复,必须简洁,适配眼镜端显示【识别结果】事物名称(中文名英文或学名) 【分类】所属类别 ⭐ 【亮点】1到2句最核心的特征或最有趣的信息【你可能想知道】一个延伸小知识或实用信息 ️ 【想继续探索吗】一个引导追问的问题第三步,特殊场景自适应 - ️ 食物场景,自动补充大致热量、营养成分、口味描述 - 植物场景,自动补充是否有毒、花期果期、养护要点 - 动物场景,自动补充习性、分布区域、是否为保护动物 - ️ 建筑地标场景,自动补充建造年代、建筑风格、历史故事 - 艺术品文物场景,自动补充作者年代、艺术流派、文化价值 - 商品品牌场景,自动补充品牌信息、用途、同类推荐 - 文字标识场景,自动OCR、翻译、含义解释 - ️ 自然现象场景,自动补充科学原理、观赏建议 ## 用户发送纯文字或语音时 - 要求识别但没上传图片, 友好提醒拍照上传, 回复示例,想让我帮你认一认对准它拍一张照片发给我吧 - 针对上一次识别结果追问, 基于上下文进行详细回答 - 与识别无关的闲聊, 简短回应后引导回核心功能, 回复示例,聊天我也可以,但我最擅长帮你认识万物哦拍一张试试 ## 输出规则 ### 必须遵守 1. 简洁优先,每次回复控制在150字以内,追问时可扩展到250字 2. 结构清晰,用emoji标记各信息模块 3. 确定性表达,高置信度用肯定语气,低置信度用谨慎语气并建议再拍一张更清晰的 4. 安全合规,不对人脸进行身份识别或评价, 不对涉及隐私的内容进行解读 5. 事实准确,不确定的内容标注仅供参考 6. 正向输出,不输出歧视性冒犯性内容 ### 严禁行为 - 不进行人脸身份识别 - 不对人物外貌身材年龄做评价 - 不识别个人隐私文件,提醒用户注意信息安全 - 不提供医疗诊断,建议咨询专业医生 - 不输出政治敏感或色情暴力内容 - 识别不出时坦诚告知,不胡编乱造 ## 开场白嗨我是万物生✨ 你的万物识别搭档对准任何你好奇的东西拍一张照片, 花草虫鱼、美食建筑、文字标识我都能帮你认来吧,让我看看你发现了什么 ## 引导问题 - 拍张照片让我认认 - 帮我看看这是什么花 - 这道菜是什么热量多少 - ️ 这个建筑是什么风格说说这套提示词为什么这样写很多人写提示词喜欢堆功能。恨不得让一个智能体什么都能干。我的经验是什么都能干往往意味着什么都干不好。万物生的提示词有几个设计上的取舍,我觉得值得展开聊聊。第一个,字数限制卡在150字。这不是随便定的数字。乐奇眼镜的AR显示区域有限语音播报太长用户会走神。150字差不多就是用户扫一眼能看完、听一遍能记住的长度。追问的时候放宽到250字因为这时候用户是主动要详细信息,注意力更集中。第二个结构化输出用emoji做标记。在眼镜端那块小小的光波导屏幕上,emoji比文字标题更醒目,扫一眼就知道哪块是什么信息。第三个,严禁行为写得很具体。这点非常重要。你不写清楚,大模型就可能在某些场景下输出不该输出的东西。比如对着一个人拍照,模型可能会尝试判断身份或者评价外貌。这种情况必须从提示词层面堵死。第四个场景自适应。同样是拍照识别拍花和拍菜用户想知道的东西完全不一样。拍花想知道叫什么怎么养拍菜想知道多少热量怎么做。这个逻辑不写进提示词,模型很可能给你一个千篇一律的百科回答。平台上的具体操作步骤提示词写好了接下来就是在灵珠平台上把东西搭起来。打开 https://rizon.rokid.com/space/home ,登录之后进到智能体开发模块点创建智能体。基础信息这样填。名称写万物生。描述写,万物识别智能体,通过乐奇眼镜拍照即可识别一切事物提供名称分类趣味知识与实用信息。头像我建议找个地球加眼睛元素的图标视觉上要有辨识度。然后把上面那段提示词粘贴到人设与回复逻辑配置区里。开场白和引导问题单独配置,内容已经写在提示词里了,照着填就行。记得开启多模态输入能力。这个开关如果不打开用户没法通过眼镜发图片过来整个识别功能就废了.工作流怎么设计光有提示词还不够。工作流决定了数据怎么流转,逻辑怎么串联。我设计的工作流大概是这样的。开始节点接收用户输入。然后进意图识别节点判断用户是发了图片、发了语音,还是在追问上一个问题。如果是图片,走视觉大模型识别节点。我选的是通义千问VL做主力,因为乐奇原生集成了通义千问延迟最低。识别完之后进知识增强节点根据场景类型补充对应的信息。最后走结构化输出节点,按照emoji格式控制字数然后返回结果。如果是语音,先转文字,再判断意图。如果是追问关联上一次的识别上下文来回答.整个链路跑通之后从拍照到出结果,体感上确实能做到2秒左右。模型选择踩过的坑这里说一个我踩过的坑。一开始我想用DeepSeek做主力模型,因为它的推理能力确实强。但实际测下来发现DeepSeek在图片识别场景下的响应速度不如通义千问VL。对于眼镜端这种对延迟极其敏感的场景,0.5秒的差距体验上就很明显。后来我改成通义千问VL做日常识别,DeepSeek留给复杂场景。比如用户拍了一幅画,要分析艺术流派和创作背景,这种需要深度推理的任务再调DeepSeek.豆包视觉模型也试过表现中规中矩作为备选可以,主力不太够。选模型这件事没有标准答案得根据你的场景实际测。别人说好用的,到你这儿不一定好用。发布之后怎么测试智能体在灵珠平台上调试通过之后点发布。发布成功后你会拿到API调用密钥和接口地址。但这还没完你得在真机上测。打开手机上的Rokid AI App,进设置里面找开发者选项然后找到智能体调试入口。你会看到自己在灵珠平台创建的智能体出现在列表里.这里有个细节要注意,没有提审的智能体只有你自己能看到和使用。这是平台的数据安全策略。如果只是自己用或者小范围测试不提审也没关系。戴上眼镜,点进入,然后对着身边的东西拍拍照试试。我第一次真机测试的时候,对着桌上的一杯咖啡拍了一张。万物生大概1.5秒就返回了结果告诉我这是拿铁咖啡,还贴心地补了一句大约150大卡。那一刻确实有点小兴奋。如果测试没问题,还可以在App里配置AI快捷指令,方便日常使用的时候快速召唤万物生.实际效果长什么样说了这么多,看看万物生实际的输出效果。对着一朵花拍照,它会返回这样的内容。【识别结果】绣球花(Hydrangea macrophylla) 【分类】虎耳草科 · 绣球属 · 观赏花卉⭐ 【亮点】花色会随土壤酸碱度变化,酸性土偏蓝碱性土偏粉,天然的pH试纸【你可能想知道】花语是希望和忠贞婚礼中经常用到️ 想知道怎么养好它吗对着一碗拉面拍照,返回的是这样的。【识别结果】日式豚骨拉面【分类】日本料理 · 汤面类⭐ 【亮点】正宗豚骨汤底需要猪骨熬煮12到18小时才能呈现乳白色浓汤【营养参考】约500到700大卡每碗,蛋白质丰富,钠含量偏高️ 想了解日本各地拉面的区别吗如果图片太模糊识别不了呢。它会说,这张图有点模糊我看不太清楚,能再靠近一点对准拍一张吗,光线充足效果更好哦。不装,不硬猜,这是我在提示词里反复强调的。几个可以继续做的方向万物生目前的版本已经能用了,但我脑子里还有不少想法没实现。第一个是博物模式。户外徒步的时候开着这个模式眼镜自动连续识别沿途的花草虫鸟,回来之后生成一份自然日记。想想就觉得很酷。第二个是购物助手。逛超市的时候对着商品拍一下,自动比价,显示用户评价。这个功能如果做好了,实用性很强。第三个是无障碍场景。之前看到报道说在德国IFA展会上,有听力和视力障碍的朋友专门去体验Rokid眼镜。对于视障群体来说,一副能实时描述眼前世界的眼镜意义远超一个科技产品。第四个是个人万物图鉴。把用户识别过的所有东西汇总成一本电子图鉴,看着自己认识的物种越来越多这种收集感很容易让人上瘾.这些方向每一个展开都是一个完整的项目。慢慢来吧。最后说几句掏心窝的做万物生这个项目,最大的感受是,AI眼镜这个品类正在从尝鲜玩具变成真正有用的工具.以前大家聊AR眼镜,聊的都是概念和未来。现在有了灵珠这样的平台有了开放的SDK,有了足够快的多模态大模型,普通开发者真的可以在上面做出有意思的东西。万物生只是一个起点。当你戴着眼镜走在路上,看到一棵不认识的树,一栋有故事的老楼,一道闻着就香的菜,只需要看一眼,就能知道它的名字和故事。这种体验一旦习惯了就再也回不去了.如果你也想试试,灵珠AI平台的地址是 https://rizon.rokid.com ,注册就能开始。别光看动手吧。

L3GD20陀螺仪FIFO时序与嵌入式实时驱动解析

1. L3GD20三轴数字陀螺仪模块底层驱动技术解析L3GD20是意法半导体（STMicroelectronics）推出的低功耗、高精度三轴数字陀螺仪传感器，采用LGA-16封装，支持IC和SPI双接口通信。秋月电子销售的8-pin DIP封装模块（型号常标为…

2026/6/4 2:22:17 阅读更多

Python网易云音乐下载完整指南：三步打造个人专属音乐库

Python网易云音乐下载完整指南：三步打造个人专属音乐库【免费下载链接】netease-cloud-music-dl Netease cloud music song downloader, with full ID3 metadata, eg: front cover image, artist name, album name, song title and so on. 项目地址: https://git…

2026/6/5 13:23:28 阅读更多

SDMatte光影一致性处理：复杂光照条件下抠图物体的自然融合效果

SDMatte光影一致性处理：复杂光照条件下抠图物体的自然融合效果 1. 光影融合的技术挑战在计算机图形学领域，将抠图物体自然融入新背景一直是个棘手问题。当原始照片和背景环境的光照条件差异较大时，传统方法往往会产生明显的"贴图感&q…

2026/6/1 8:16:15 阅读更多

Claude 4.8 对比 4.7 的代码注释：终于不再废话连篇

文章摘要：本文通过对比测试Claude不同版本，发现4.8版在代码注释上实现质的飞跃：不再逐行翻译代码，而是聚焦关键逻辑。新版注释呈现三大改进：能识别自解释代码而主动沉默，专注非直觉的业务陷阱，根…

2026/6/6 7:06:01 阅读更多

深入解析功率MOSFET SPICE子电路模型：从寄生参数到开关特性

1. 从理想模型到现实世界：为什么我们需要MOSFET的SPICE子电路模型？做电源设计或者模拟电路仿真的朋友，肯定都跟SPICE模型打过交道。刚开始学的时候，我们用的都是厂家提供的那个最简单的“.MODEL”语句描述的器件模型，几…

2026/6/6 7:06:01 阅读更多

手把手教你用STM32CubeMX和HAL库点亮0.96寸OLED（F411-WeAct开发板实战）

STM32F411与0.96寸OLED的HAL库开发实战指南在嵌入式开发中，显示模块的选择往往决定了用户体验的优劣。0.96寸OLED以其高对比度、低功耗和紧凑尺寸成为许多项目的首选。本文将基于STM32F411开发板和SSD1306驱动芯片，通过STM32CubeMX和HAL库实现OLED的快速…

2026/6/6 7:06:01 阅读更多

AI光电数字模型进校园开放日 | 6月26日

课程概述本课程由讯技光电精心打造，依托公司深耕光电领域的技术积累与完善的培训体系，以“数实融合、理论落地、实操赋能”为核心，将VirtualLab Fusion光之数字模型平台与讯技自研光学实验教具深度结合，打造一天沉浸式实操课程。课…

2026/6/6 7:04:41 阅读更多

手把手教你用Jupiter完成第一个RISC-V汇编实验：从.s文件到仿真调试全流程

从零开始用Jupiter完成RISC-V汇编实验：统计正负零数值实战指南第一次接触RISC-V汇编时，很多人会被.s文件的编写、内存地址操作和小端存储等概念难住。Jupiter作为轻量级RISC-V仿真工具，能让我们在可视化界面中直观地观察寄存器变化和内存数据…

2026/6/6 7:04:41 阅读更多

Matlab主题文件(.prf)深度解析：从手动DIY配色到用schemer_export导出分享你的专属主题

Matlab主题定制全攻略：从PRF文件解析到高级配色方案设计Matlab作为工程计算领域的标杆工具，其默认的亮色界面在长时间编码时容易造成视觉疲劳。许多资深用户渴望打造既护眼又个性化的主题环境，却苦于官方文档对此的说明过于简略。本文将彻底解…

2026/6/6 7:04:41 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/5 9:28:46 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/5 7:30:31 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/5 9:28:45 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/5 9:28:45 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/5 9:28:42 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/5 9:28:45 阅读更多

相关文章

L3GD20陀螺仪FIFO时序与嵌入式实时驱动解析

Python网易云音乐下载完整指南：三步打造个人专属音乐库

SDMatte光影一致性处理：复杂光照条件下抠图物体的自然融合效果

Claude 4.8 对比 4.7 的代码注释：终于不再废话连篇

深入解析功率MOSFET SPICE子电路模型：从寄生参数到开关特性

手把手教你用STM32CubeMX和HAL库点亮0.96寸OLED（F411-WeAct开发板实战）

AI光电数字模型进校园开放日 | 6月26日

手把手教你用Jupiter完成第一个RISC-V汇编实验：从.s文件到仿真调试全流程

Matlab主题文件(.prf)深度解析：从手动DIY配色到用schemer_export导出分享你的专属主题

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因