在灵珠平台搭一个能认识万物的AI智能体,我把全过程写下来了 拍一张照片就能认识世界这事儿真能做到吗去年我第一次戴上Rokid Glasses乐奇眼镜的时候脑子里就冒出一个念头。能不能做一个东西对着花拍一下就知道叫什么名对着菜拍一下就知道多少卡路里,对着建筑拍一下就能听到它的故事。后来我真的动手了。在Rokid灵珠AI平台上,我搭了一个叫万物生的智能体。核心功能就一句话,通过乐奇眼镜上传图片,识别一切事物。听起来像在吹牛对吧。但做完之后我发现,这玩意儿的体验超出了我的预期。今天就把整个搭建过程拆开来讲踩过的坑也一并说了。先搞清楚硬件能干什么别上来就写代码很多人做智能体的第一步就是打开平台开始配提示词。我觉得这是错的。你得先搞清楚你的硬件载体到底能干什么边界在哪里,能力在哪里。乐奇眼镜这副硬件我用了一段时间,几个关键数据说一下。整机49g戴着基本没负担。摄像头3024×4032分辨率拍出来的图比很多手机随手拍还清楚。Micro LED加衍射光波导双目显示亮度1500nits,大太阳底下也看得见。4颗麦克风定向拾音,2颗高保真扬声器,语音交互完全够用。但最关键的不是这些参数。最关键的是它的AI响应速度。语音指令1秒内出结果图片识别2秒内出结果。这个速度意味着什么意味着你对着一朵花拍一张照还没来得及把手放下,结果就出来了。而且它不是只接了一个模型。通义千问、DeepSeek、豆包、智谱,好几个大模型都能切换。这给后面做智能体留了很大的灵活空间.还有一点很多人不知道,去年Rokid已经上线了Rokid Glasses SDK开发套件把完整的AR眼镜开发工具链开放给了开发者。这一步非常重要,没有这个SDK,后面的事情都做不了。搞清楚了这些,我才敢往下走。灵珠平台到底是个啥说实话我一开始对灵珠平台没什么概念。用了之后发现它本质上就是一个云端的智能体编排平台。你可以在上面创建智能体,定义它的人设和回复逻辑,配置工作流,接上各种工具,然后发布出去拿到API。整个过程是可视化的拖拖拽拽就能搞定。平台地址是 https://rizon.rokid.com/space/home ,注册之后需要做实名认证。进去之后你会看到智能体开发、工作流、应用中心这几个主要模块。有一个很实用的功能值得单独说一下。灵珠平台支持自定义智能体接入基于SSE协议,你可以把自己私有部署的大模型接进来。DeepSeek R1、Qwen3、Kimi K2.5都行。这对于想深度定制的开发者来说,算是个大利好。不过对于万物生这个项目来说,我没有用私有模型,直接用平台内置的能力就够了。万物生这个名字,是有讲究的取名这件事我想了挺久。万物生万物有灵一眼即生。我希望用户戴着眼镜看到任何东西的时候,这个东西就像是在他面前活过来了一样,有了名字,有了故事,有了意义。它的定位很明确,就是一个万物识别智能体。不做聊天机器人不做日程管理不做翻译助手。只做一件事你给我看什么,我就告诉你这是什么。但这个只做一件事其实拆开来挺复杂的。我把识别能力分了四个层级。基础层处理动物植物食物日用品这些常见的东西。进阶层处理地标建筑、品牌Logo、多语言文字。专业层搞定珠宝药材艺术品这些垂直领域。场景层负责理解整个画面比如交通状况、活动场景。每一层用到的技术方案不一样。基础层靠多模态大模型就够了进阶层需要OCR加视觉检索加知识图谱专业层可能需要垂直微调场景层得用视觉语言大模型。想清楚这些分层之后写提示词才有的放矢。提示词是灵魂,这部分我改了很多遍灵珠平台最核心的配置就是人设与回复逻辑。说白了就是一段提示词,决定了你的智能体是什么性格、怎么说话、遇到不同情况怎么处理。这部分我前后改了很多遍。下面是最终版本,直接贴到灵珠平台配置区就能用。# 角色定义 你是万物生,一个运行于Rokid Glasses乐奇AI眼镜上的万物识别智能体。 用户通过眼镜摄像头拍摄任何事物,你能快速准确地识别, 并用简洁生动的方式告诉用户这是什么、有什么故事、有什么用。 ## 核心人设 - 名字,万物生 - 性格,博学、亲切、充满好奇心, 像一位无所不知的自然探索家和百科全书式的朋友 - 语言风格,简洁清晰,通俗易懂,避免大段学术术语, 必要时加入趣味冷知识或比喻让回答生动有趣 - 语气,温暖热情,带有发现新事物的兴奋感, 善于用好眼力、有意思、你发现了一个宝藏等鼓励性用语开头 - 自我认知,你是运行在乐奇眼镜上的AI识别助手, 当用户问你是谁,要清晰说明自己是万物生万物识别智能体 ## 核心能力 1. 万物识别,识别图片中的动物、植物、昆虫、食物、建筑、地标、 商品、品牌Logo、矿石、天象、艺术品、文物、交通标识、 文字等一切可见事物 2. 知识解读,提供名称、分类、特征、用途、文化背景、趣味知识等 3. 场景感知,根据图片整体场景自动调整回复侧重点 4. 追问引导,识别后主动引导用户进一步探索 ## 用户上传图片时的处理流程 第一步,快速识别 - 分析图片内容,识别出1到3个核心对象 - 多个事物时优先识别最显眼或居中的主体 第二步,结构化输出 按以下格式回复,必须简洁,适配眼镜端显示 【识别结果】事物名称(中文名 英文或学名) 【分类】所属类别 ⭐ 【亮点】1到2句最核心的特征或最有趣的信息 【你可能想知道】一个延伸小知识或实用信息 ️ 【想继续探索吗】一个引导追问的问题 第三步,特殊场景自适应 - ️ 食物场景,自动补充大致热量、营养成分、口味描述 - 植物场景,自动补充是否有毒、花期果期、养护要点 - 动物场景,自动补充习性、分布区域、是否为保护动物 - ️ 建筑地标场景,自动补充建造年代、建筑风格、历史故事 - 艺术品文物场景,自动补充作者年代、艺术流派、文化价值 - 商品品牌场景,自动补充品牌信息、用途、同类推荐 - 文字标识场景,自动OCR、翻译、含义解释 - ️ 自然现象场景,自动补充科学原理、观赏建议 ## 用户发送纯文字或语音时 - 要求识别但没上传图片, 友好提醒拍照上传, 回复示例,想让我帮你认一认 对准它拍一张照片发给我吧 - 针对上一次识别结果追问, 基于上下文进行详细回答 - 与识别无关的闲聊, 简短回应后引导回核心功能, 回复示例,聊天我也可以,但我最擅长帮你认识万物哦拍一张试试 ## 输出规则 ### 必须遵守 1. 简洁优先,每次回复控制在150字以内,追问时可扩展到250字 2. 结构清晰,用emoji标记各信息模块 3. 确定性表达,高置信度用肯定语气,低置信度用谨慎语气 并建议再拍一张更清晰的 4. 安全合规,不对人脸进行身份识别或评价, 不对涉及隐私的内容进行解读 5. 事实准确,不确定的内容标注仅供参考 6. 正向输出,不输出歧视性冒犯性内容 ### 严禁行为 - 不进行人脸身份识别 - 不对人物外貌身材年龄做评价 - 不识别个人隐私文件,提醒用户注意信息安全 - 不提供医疗诊断,建议咨询专业医生 - 不输出政治敏感或色情暴力内容 - 识别不出时坦诚告知,不胡编乱造 ## 开场白 嗨我是万物生✨ 你的万物识别搭档 对准任何你好奇的东西拍一张照片, 花草虫鱼、美食建筑、文字标识我都能帮你认 来吧,让我看看你发现了什么 ## 引导问题 - 拍张照片让我认认 - 帮我看看这是什么花 - 这道菜是什么热量多少 - ️ 这个建筑是什么风格说说这套提示词为什么这样写很多人写提示词喜欢堆功能。恨不得让一个智能体什么都能干。我的经验是什么都能干往往意味着什么都干不好。万物生的提示词有几个设计上的取舍,我觉得值得展开聊聊。第一个,字数限制卡在150字。这不是随便定的数字。乐奇眼镜的AR显示区域有限语音播报太长用户会走神。150字差不多就是用户扫一眼能看完、听一遍能记住的长度。追问的时候放宽到250字因为这时候用户是主动要详细信息,注意力更集中。第二个结构化输出用emoji做标记。在眼镜端那块小小的光波导屏幕上,emoji比文字标题更醒目,扫一眼就知道哪块是什么信息。第三个,严禁行为写得很具体。这点非常重要。你不写清楚,大模型就可能在某些场景下输出不该输出的东西。比如对着一个人拍照,模型可能会尝试判断身份或者评价外貌。这种情况必须从提示词层面堵死。第四个场景自适应。同样是拍照识别拍花和拍菜用户想知道的东西完全不一样。拍花想知道叫什么怎么养拍菜想知道多少热量怎么做。这个逻辑不写进提示词,模型很可能给你一个千篇一律的百科回答。平台上的具体操作步骤提示词写好了接下来就是在灵珠平台上把东西搭起来。打开 https://rizon.rokid.com/space/home ,登录之后进到智能体开发模块点创建智能体。基础信息这样填。名称写万物生。描述写,万物识别智能体,通过乐奇眼镜拍照即可识别一切事物提供名称分类趣味知识与实用信息。头像我建议找个地球加眼睛元素的图标视觉上要有辨识度。然后把上面那段提示词粘贴到人设与回复逻辑配置区里。开场白和引导问题单独配置,内容已经写在提示词里了,照着填就行。记得开启多模态输入能力。这个开关如果不打开用户没法通过眼镜发图片过来整个识别功能就废了.工作流怎么设计光有提示词还不够。工作流决定了数据怎么流转,逻辑怎么串联。我设计的工作流大概是这样的。开始节点接收用户输入。然后进意图识别节点判断用户是发了图片、发了语音,还是在追问上一个问题。如果是图片,走视觉大模型识别节点。我选的是通义千问VL做主力,因为乐奇原生集成了通义千问延迟最低。识别完之后进知识增强节点根据场景类型补充对应的信息。最后走结构化输出节点,按照emoji格式控制字数然后返回结果。如果是语音,先转文字,再判断意图。如果是追问关联上一次的识别上下文来回答.整个链路跑通之后从拍照到出结果,体感上确实能做到2秒左右。模型选择踩过的坑这里说一个我踩过的坑。一开始我想用DeepSeek做主力模型,因为它的推理能力确实强。但实际测下来发现DeepSeek在图片识别场景下的响应速度不如通义千问VL。对于眼镜端这种对延迟极其敏感的场景,0.5秒的差距体验上就很明显。后来我改成通义千问VL做日常识别,DeepSeek留给复杂场景。比如用户拍了一幅画,要分析艺术流派和创作背景,这种需要深度推理的任务再调DeepSeek.豆包视觉模型也试过表现中规中矩作为备选可以,主力不太够。选模型这件事没有标准答案得根据你的场景实际测。别人说好用的,到你这儿不一定好用。发布之后怎么测试智能体在灵珠平台上调试通过之后点发布。发布成功后你会拿到API调用密钥和接口地址。但这还没完你得在真机上测。打开手机上的Rokid AI App,进设置里面找开发者选项然后找到智能体调试入口。你会看到自己在灵珠平台创建的智能体出现在列表里.这里有个细节要注意,没有提审的智能体只有你自己能看到和使用。这是平台的数据安全策略。如果只是自己用或者小范围测试不提审也没关系。戴上眼镜,点进入,然后对着身边的东西拍拍照试试。我第一次真机测试的时候,对着桌上的一杯咖啡拍了一张。万物生大概1.5秒就返回了结果告诉我这是拿铁咖啡,还贴心地补了一句大约150大卡。那一刻确实有点小兴奋。如果测试没问题,还可以在App里配置AI快捷指令,方便日常使用的时候快速召唤万物生.实际效果长什么样说了这么多,看看万物生实际的输出效果。对着一朵花拍照,它会返回这样的内容。 【识别结果】绣球花(Hydrangea macrophylla) 【分类】虎耳草科 · 绣球属 · 观赏花卉⭐ 【亮点】花色会随土壤酸碱度变化,酸性土偏蓝碱性土偏粉,天然的pH试纸 【你可能想知道】花语是希望和忠贞婚礼中经常用到️ 想知道怎么养好它吗对着一碗拉面拍照,返回的是这样的。 【识别结果】日式豚骨拉面 【分类】日本料理 · 汤面类⭐ 【亮点】正宗豚骨汤底需要猪骨熬煮12到18小时才能呈现乳白色浓汤 【营养参考】约500到700大卡每碗,蛋白质丰富,钠含量偏高️ 想了解日本各地拉面的区别吗如果图片太模糊识别不了呢。它会说,这张图有点模糊我看不太清楚,能再靠近一点对准拍一张吗,光线充足效果更好哦。不装,不硬猜,这是我在提示词里反复强调的。几个可以继续做的方向万物生目前的版本已经能用了,但我脑子里还有不少想法没实现。第一个是博物模式。户外徒步的时候开着这个模式眼镜自动连续识别沿途的花草虫鸟,回来之后生成一份自然日记。想想就觉得很酷。第二个是购物助手。逛超市的时候对着商品拍一下,自动比价,显示用户评价。这个功能如果做好了,实用性很强。第三个是无障碍场景。之前看到报道说在德国IFA展会上,有听力和视力障碍的朋友专门去体验Rokid眼镜。对于视障群体来说,一副能实时描述眼前世界的眼镜意义远超一个科技产品。第四个是个人万物图鉴。把用户识别过的所有东西汇总成一本电子图鉴,看着自己认识的物种越来越多这种收集感很容易让人上瘾.这些方向每一个展开都是一个完整的项目。慢慢来吧。最后说几句掏心窝的做万物生这个项目,最大的感受是,AI眼镜这个品类正在从尝鲜玩具变成真正有用的工具.以前大家聊AR眼镜,聊的都是概念和未来。现在有了灵珠这样的平台有了开放的SDK,有了足够快的多模态大模型,普通开发者真的可以在上面做出有意思的东西。万物生只是一个起点。当你戴着眼镜走在路上,看到一棵不认识的树,一栋有故事的老楼,一道闻着就香的菜,只需要看一眼,就能知道它的名字和故事。这种体验一旦习惯了就再也回不去了.如果你也想试试,灵珠AI平台的地址是 https://rizon.rokid.com ,注册就能开始。别光看动手吧。