该文章主要是博主吐槽一点自己在做项目的时候遇到的一系列的问题真的无力了深深感觉到了自己的一些知识匮乏以及崩溃的瞬间。同时也是分享一些在做AI网络搜索这方面的一些自己的经验以及踩坑的地方。同时也是分享一下做这方面可以使用的工具都是博主查了好就才发现的( ´∀)つt[ ]一图片功能话题还是拉回到我们之前的图片识别的笔记我们之前不是讨论过最后采用serpAPI的方法来查询相似图吗博主花费了大半天才摸清楚他怎么用后来发现的问题是他的相似图有问题我们方案核心还是根据谷歌搜索引擎来查找相似图根据帖子来源来提取主题词但是会有以下问题帖子来源太杂我们没办法稳定提取主题词会导致图片功能还是没用如果图片太过小众根本没办法识别解决方案我们目前只能通过增加判定AI扩大帖子来源数量来提取高频词这只能做妥协策略因为本身他只能基于比较火的图片比如动漫人物二次元人物明星等进行准确识别博主测试了好几张二次元提取挺准确的但是问题是AI的提示词一定要非常准确严谨让AI根据帖子名称给出精确关键词。其实还有别的策略比如随机爬取一个相似度最高的帖子提取帖子内容高频出现的关键词用来当作图片关键词但是还是不稳定因为帖子内容太杂乱有的甚至全是广告。所以博主测了1天发现还是我们上面方案靠谱还有个问题是serpAPI以图搜图功能需要将图片暴露到公网上才能访问基于业务考虑我们采取了阿里云OSS保存用户上传图片的功能这样既可以保存图片也可以让serpAPI访问到二网络搜索功能实现关键词人物信息补全举个例子用户上传一张“卡提西亚”图片我们根据上面的方案准确提取图片人物信息但是如果AI知识不足就必须进行网络搜索功能搜索“卡提西亚”信息做知识增强返回给用户这里博主又无语了我们一开始采用serpAPI功能他有搜索帖子的功能我们把关键词传给他他去做帖子检索。但是问题是我们这里涉及到网页爬取知识这里算是知识盲区了博主一开始问AI,他给我推荐了几个自己搭建的爬取功能很麻烦博主快做完了做了大半天才发现一点不好用都快崩溃了问题是有点网页有反爬取有点网页全是垃圾根本没办法过滤不可能一股脑都塞给AI。但是网页爬取弄了好几天了最后快搞好了才发现根本不适用。最后才知道已经有专门的工具做这个了这个工具非常厉害他是专门用来做网页爬取的能返回给你过滤后的专门给AI的网页爬取的数据然后还能根据用户问题查找帖子还能进行向量化文本查询参数的高级调试等本身就是对serpAPI的封装调用更简单问题是好像不能查找相似图。除了这一点就是serpAPI的高级封装版工具可以说我们前面几天研究的serpAPI其实已经可以完全被替代了真的要崩溃了白做了现在还要研究jinaAI怎么调用。。。。所以我们目前又花了几天研究了一下jinaAI,同时整理了以下思路就是通过serpAPI查询出来的图片高频词然后调用jinaAI去查询帖子url,再根据他的爬取功能挨个爬取网页大致思路如此但是具体项目中实现还挺麻烦的三网页爬取的问题上面我们重新指定了整个过程但是博主再实际做下来还有问题1.网页虽然清洗过了但是如果是视频页面那种注水帖子信息含金量太低了不能全部都提取2.帖子里的图片用户评论怎么办这些也要处理…总之遇到了一堆问题如果返回视频url,那么大部分重要信息都在视频里而不是评论还有注水帖子等也是本身就没什么重要信息再一股脑给AI,风险太大。最后博主研究了半天查了很多资料打算采用过滤视频等信息极难提取的的网页图片全部过滤因为有点帖子图片太多且和用户问题相关性太低不能再视觉模型分析返回帖子链接让用户自己查看引入专门的markDown切分器因为jinaAI返回的网页数据是markdown形式用markdown切分器切分的话最能保存网页完整信息与语义引入AI最后筛选和总结让AI剔除注水帖子用户评论等含金量极低的消息然后专门对网页数据做一次总结将网页爬取数据放入向量数据库根据sessionID等信息作为元数据进行过滤条件后续用户提出相关问题先做一边网页爬取检索入库后返回给用户。这一套方案博主研究了很久和AI探讨打磨出来的一套能用的方案能最大程度的过滤无效信息提高检索效率保证信息准确性最后可以再回复用户问题时带上帖子链接来确保信息准确性让用户信服四.数据向量化与重排这里我们偶然间发现jinaAI本身具备了专门的网页爬取数据的向量化与重排功能功能很强大这一点也打消了我们采用其他厂商的向量化模型与自定义重排文档的想法。这里我们的思路是jina网页爬取-专门的过滤器过滤-切markdown切分AI-jina向量化模型-入库用户问题-jina向量化-根据元数据标签快速过滤向量检索高于设定阈值的文档-jina重排器重排-返回最相关的topK文档这一套链路也是做了很久才做好整体具有可用性。五再次崩溃我们这个做下来虽然可以准确查询用户信息但是可用性比较低她更偏向于网络搜索功能其实大部分AI都有网络搜索功能比如豆包kimi等我也挺好奇他们怎么做的很强。我们的问题是如果做网络搜索的话我们目前可以用但是很不完善太慢了毕竟要爬取完整数据加入库如果只做图片增强检索功能那么就是没必要因为你想啊每次上传图片都会触发检索完整入库如果用户就问一个问题就触发检索代价太大了。解决方案每次先检索数据库数据库知识不足或低于阈值再触发完整检索功能注意通过上下文对用户需求进行改写精确化用户需求搜索效果更好虽然说是解决方案但是本质还是治标不治本因为底层还是爬取完整页面入库远远比不了上面上吗AI搜索功能。还有就是一个关键是第三方已经提供了相关网络减速功能如百度MCP,检索效果和检索速度远远快于我们目前的方案。六再次解决当发现百度MCP可以直接解决我们的所有问题时博主心态已经炸了考虑了这么多方案查了这么多资料做了这么久研究了这么多最后还不如直接调用百度MCP。此时博主已经不想做了不知道做下去还有啥意义。但是突然间AI告诉我可以转方向把我们当前的这套链路打包成一个深度研究的搜索MCP,普通聊天用百度MCP,类似于做AI的深度研究功能因为百度虽然准确但是只能检索片面内容而且少量片段。我们这个可以做整个网页的爬取入库然后做深度研究功能因为完整帖子的内容都有非常适合这一点。突然间豁然开朗七再再次崩溃因为我们之前没想过单独做MCP,所以链路都是在主模块中会引出下面问题1.我们整体的链路都和主模块深度绑定直接拆分出来非常难很多东西都要改很不现实2.如果直接打包成tool工具放在主模块非常适合但是问题是我们想单独抽取一个深度研究智能体走不同链路设计多个client搭配做成tool工具的话所有client都会有权执行该工具不好调控3.如果打包成mcp的sse形式还需要单独部署再服务器上运行我个人感觉没必要也比较麻烦最终采取单独抽取一个MCP模块打包成stdio本地启动jar包然后尽量不动主模块所有工具都去主模块中寻找算是当下最好的解决方案了。但是实际测试下来出现一堆问题如POM文件依赖问题等等真的真的很恶心博主基本一座就是改一天有时候一天都改不好因为项目太大太杂非常不好改只能不断询问AI,加上博主基础有限简直是噩梦八再再次解决经过好几天的不懈努力也是终于打包成MCP了类似于图片但是很不稳定因为和主模块耦合太深比较不稳定后续调整吧九再再再次崩溃或许有人会好奇不都做完了吗为什么还会出现问题博主一开始也是这么想的直到博主偶然间发现一个非常厉害的工具----Tavily,太强了我的天我们前面基本全白做了只需要他就能完成所有功能而且最主要的是我们一开始还没发现serpAPI时就用过他一次只是没有深入研究等我们做完了才发现的真的崩溃了啊啊啊这几个星期全是白做了如果说serpAPI是调用原生搜索引擎查询帖子它就相当于全自动工具专门用于给AI做网络知识增强其返回数据都是清洗过的结构化数据他会根据你的问题爬取网页并且返回总结知识完全不需要再次入库,他的总结知识可以直接丢给AI你也可以选择他的帖子url进行网页爬取入库更牛逼的是他能调整查询参数比如返回的数据形式帖子中图片自己添加描述帖子时间等等高级参数非常强完全就是给AI的专门的网页搜索工具他这里可以选择多个功能都是可以API调用的如搜索网页爬取网页深度研究等最牛逼的是深度搜索功能太强了我的天完全可以用于AI的深度网页搜索功能用户可以自定义搜索次数消息的结构化返回等等用户可以自定义结构化返回形式比如人物性格xxx,人物背景xxx,它会搜索后将结果填充到对应结构中可以看见这就是一篇合格的深度研究报告甚至比一些AI的搜索还强而且厉害的是他会迭代搜索第一次搜索内容不足时发起第二次搜索迭代次数我们也可以控制这里做到通过API方式调用他的深度搜索功能可以看见我们自定义的字段都被填充了太强了我的天基本我们AI的网络搜索功能啥的只需要接入他就可以了它可以完全实现所有我们需要的功能而且做到更好这也是我们崩溃的原因自己做了一个多星期的深度搜索功能又白做了。。。。。十再再再次解决既然Tavily这么强我们就给他做一些辅助功能比如如果我们想要爬取页面将网页知识自动过滤塞入数据库库时就可以用它它可以做一个全自动的检索过滤入库的万能工具根据你的问题自动搜索网页补充知识入数据库长期保留介绍一下我们当前工具的新定位根据用户问题进行自动网页检索根据网页url自动爬取过滤入库根据用户问题自动检索相关网页片段目前知识分阶段展示他更多的是一个连续的操作即根据用户问题返回网页url,自动根据url爬取入库然后自动触发检索功能检索片段传给AI对应的MCP的tool十一总结与后续计划总结这一套链路花费了很大的心血因为这个是博主从未涉足的功能思路和方法都是一点一点研究出来的真的要被搞崩溃了从每次满怀期待到被深深打击再满怀期待再被打击每一次的碰壁真的很让人崩溃。目前整个项目东西太多了已经到博主能力的地步了每一次修改都会引入新的错误而且AI如果修改不好博主可能一做一整天都解决不了已经超出资深能力范围了。但是看到这里博主想说的是这种碰壁真的太正常了大伙在遇到问题时可以换个方向不用死磕。同时遇到的bug沉下心来心态放平问题总会迎刃而解。后续计划1可以重构一下当前项目太杂乱了内容一多耦合性就上来了对后续开发阻碍太大。但是能力有限只能通过AI一点一点修改2: 继续优化当前网络搜索功能因为本身功能还不稳定3.既然实现了图片功能核心问题已经解决了那么就可以推送扩展功能比如推送用户喜欢的图片比如动漫人物的功能4.博主又发现了一个牛逼的工具是minero,专门用来提取各种文档的数据的后续可以出一个用户上传文档处理功能
新人笔记---继图片搜索功能后续以及AI网络搜索功能一些经验与踩坑点,吐槽一下自己在做这方面的崩溃瞬间
发布时间:2026/6/5 20:51:06
该文章主要是博主吐槽一点自己在做项目的时候遇到的一系列的问题真的无力了深深感觉到了自己的一些知识匮乏以及崩溃的瞬间。同时也是分享一些在做AI网络搜索这方面的一些自己的经验以及踩坑的地方。同时也是分享一下做这方面可以使用的工具都是博主查了好就才发现的( ´∀)つt[ ]一图片功能话题还是拉回到我们之前的图片识别的笔记我们之前不是讨论过最后采用serpAPI的方法来查询相似图吗博主花费了大半天才摸清楚他怎么用后来发现的问题是他的相似图有问题我们方案核心还是根据谷歌搜索引擎来查找相似图根据帖子来源来提取主题词但是会有以下问题帖子来源太杂我们没办法稳定提取主题词会导致图片功能还是没用如果图片太过小众根本没办法识别解决方案我们目前只能通过增加判定AI扩大帖子来源数量来提取高频词这只能做妥协策略因为本身他只能基于比较火的图片比如动漫人物二次元人物明星等进行准确识别博主测试了好几张二次元提取挺准确的但是问题是AI的提示词一定要非常准确严谨让AI根据帖子名称给出精确关键词。其实还有别的策略比如随机爬取一个相似度最高的帖子提取帖子内容高频出现的关键词用来当作图片关键词但是还是不稳定因为帖子内容太杂乱有的甚至全是广告。所以博主测了1天发现还是我们上面方案靠谱还有个问题是serpAPI以图搜图功能需要将图片暴露到公网上才能访问基于业务考虑我们采取了阿里云OSS保存用户上传图片的功能这样既可以保存图片也可以让serpAPI访问到二网络搜索功能实现关键词人物信息补全举个例子用户上传一张“卡提西亚”图片我们根据上面的方案准确提取图片人物信息但是如果AI知识不足就必须进行网络搜索功能搜索“卡提西亚”信息做知识增强返回给用户这里博主又无语了我们一开始采用serpAPI功能他有搜索帖子的功能我们把关键词传给他他去做帖子检索。但是问题是我们这里涉及到网页爬取知识这里算是知识盲区了博主一开始问AI,他给我推荐了几个自己搭建的爬取功能很麻烦博主快做完了做了大半天才发现一点不好用都快崩溃了问题是有点网页有反爬取有点网页全是垃圾根本没办法过滤不可能一股脑都塞给AI。但是网页爬取弄了好几天了最后快搞好了才发现根本不适用。最后才知道已经有专门的工具做这个了这个工具非常厉害他是专门用来做网页爬取的能返回给你过滤后的专门给AI的网页爬取的数据然后还能根据用户问题查找帖子还能进行向量化文本查询参数的高级调试等本身就是对serpAPI的封装调用更简单问题是好像不能查找相似图。除了这一点就是serpAPI的高级封装版工具可以说我们前面几天研究的serpAPI其实已经可以完全被替代了真的要崩溃了白做了现在还要研究jinaAI怎么调用。。。。所以我们目前又花了几天研究了一下jinaAI,同时整理了以下思路就是通过serpAPI查询出来的图片高频词然后调用jinaAI去查询帖子url,再根据他的爬取功能挨个爬取网页大致思路如此但是具体项目中实现还挺麻烦的三网页爬取的问题上面我们重新指定了整个过程但是博主再实际做下来还有问题1.网页虽然清洗过了但是如果是视频页面那种注水帖子信息含金量太低了不能全部都提取2.帖子里的图片用户评论怎么办这些也要处理…总之遇到了一堆问题如果返回视频url,那么大部分重要信息都在视频里而不是评论还有注水帖子等也是本身就没什么重要信息再一股脑给AI,风险太大。最后博主研究了半天查了很多资料打算采用过滤视频等信息极难提取的的网页图片全部过滤因为有点帖子图片太多且和用户问题相关性太低不能再视觉模型分析返回帖子链接让用户自己查看引入专门的markDown切分器因为jinaAI返回的网页数据是markdown形式用markdown切分器切分的话最能保存网页完整信息与语义引入AI最后筛选和总结让AI剔除注水帖子用户评论等含金量极低的消息然后专门对网页数据做一次总结将网页爬取数据放入向量数据库根据sessionID等信息作为元数据进行过滤条件后续用户提出相关问题先做一边网页爬取检索入库后返回给用户。这一套方案博主研究了很久和AI探讨打磨出来的一套能用的方案能最大程度的过滤无效信息提高检索效率保证信息准确性最后可以再回复用户问题时带上帖子链接来确保信息准确性让用户信服四.数据向量化与重排这里我们偶然间发现jinaAI本身具备了专门的网页爬取数据的向量化与重排功能功能很强大这一点也打消了我们采用其他厂商的向量化模型与自定义重排文档的想法。这里我们的思路是jina网页爬取-专门的过滤器过滤-切markdown切分AI-jina向量化模型-入库用户问题-jina向量化-根据元数据标签快速过滤向量检索高于设定阈值的文档-jina重排器重排-返回最相关的topK文档这一套链路也是做了很久才做好整体具有可用性。五再次崩溃我们这个做下来虽然可以准确查询用户信息但是可用性比较低她更偏向于网络搜索功能其实大部分AI都有网络搜索功能比如豆包kimi等我也挺好奇他们怎么做的很强。我们的问题是如果做网络搜索的话我们目前可以用但是很不完善太慢了毕竟要爬取完整数据加入库如果只做图片增强检索功能那么就是没必要因为你想啊每次上传图片都会触发检索完整入库如果用户就问一个问题就触发检索代价太大了。解决方案每次先检索数据库数据库知识不足或低于阈值再触发完整检索功能注意通过上下文对用户需求进行改写精确化用户需求搜索效果更好虽然说是解决方案但是本质还是治标不治本因为底层还是爬取完整页面入库远远比不了上面上吗AI搜索功能。还有就是一个关键是第三方已经提供了相关网络减速功能如百度MCP,检索效果和检索速度远远快于我们目前的方案。六再次解决当发现百度MCP可以直接解决我们的所有问题时博主心态已经炸了考虑了这么多方案查了这么多资料做了这么久研究了这么多最后还不如直接调用百度MCP。此时博主已经不想做了不知道做下去还有啥意义。但是突然间AI告诉我可以转方向把我们当前的这套链路打包成一个深度研究的搜索MCP,普通聊天用百度MCP,类似于做AI的深度研究功能因为百度虽然准确但是只能检索片面内容而且少量片段。我们这个可以做整个网页的爬取入库然后做深度研究功能因为完整帖子的内容都有非常适合这一点。突然间豁然开朗七再再次崩溃因为我们之前没想过单独做MCP,所以链路都是在主模块中会引出下面问题1.我们整体的链路都和主模块深度绑定直接拆分出来非常难很多东西都要改很不现实2.如果直接打包成tool工具放在主模块非常适合但是问题是我们想单独抽取一个深度研究智能体走不同链路设计多个client搭配做成tool工具的话所有client都会有权执行该工具不好调控3.如果打包成mcp的sse形式还需要单独部署再服务器上运行我个人感觉没必要也比较麻烦最终采取单独抽取一个MCP模块打包成stdio本地启动jar包然后尽量不动主模块所有工具都去主模块中寻找算是当下最好的解决方案了。但是实际测试下来出现一堆问题如POM文件依赖问题等等真的真的很恶心博主基本一座就是改一天有时候一天都改不好因为项目太大太杂非常不好改只能不断询问AI,加上博主基础有限简直是噩梦八再再次解决经过好几天的不懈努力也是终于打包成MCP了类似于图片但是很不稳定因为和主模块耦合太深比较不稳定后续调整吧九再再再次崩溃或许有人会好奇不都做完了吗为什么还会出现问题博主一开始也是这么想的直到博主偶然间发现一个非常厉害的工具----Tavily,太强了我的天我们前面基本全白做了只需要他就能完成所有功能而且最主要的是我们一开始还没发现serpAPI时就用过他一次只是没有深入研究等我们做完了才发现的真的崩溃了啊啊啊这几个星期全是白做了如果说serpAPI是调用原生搜索引擎查询帖子它就相当于全自动工具专门用于给AI做网络知识增强其返回数据都是清洗过的结构化数据他会根据你的问题爬取网页并且返回总结知识完全不需要再次入库,他的总结知识可以直接丢给AI你也可以选择他的帖子url进行网页爬取入库更牛逼的是他能调整查询参数比如返回的数据形式帖子中图片自己添加描述帖子时间等等高级参数非常强完全就是给AI的专门的网页搜索工具他这里可以选择多个功能都是可以API调用的如搜索网页爬取网页深度研究等最牛逼的是深度搜索功能太强了我的天完全可以用于AI的深度网页搜索功能用户可以自定义搜索次数消息的结构化返回等等用户可以自定义结构化返回形式比如人物性格xxx,人物背景xxx,它会搜索后将结果填充到对应结构中可以看见这就是一篇合格的深度研究报告甚至比一些AI的搜索还强而且厉害的是他会迭代搜索第一次搜索内容不足时发起第二次搜索迭代次数我们也可以控制这里做到通过API方式调用他的深度搜索功能可以看见我们自定义的字段都被填充了太强了我的天基本我们AI的网络搜索功能啥的只需要接入他就可以了它可以完全实现所有我们需要的功能而且做到更好这也是我们崩溃的原因自己做了一个多星期的深度搜索功能又白做了。。。。。十再再再次解决既然Tavily这么强我们就给他做一些辅助功能比如如果我们想要爬取页面将网页知识自动过滤塞入数据库库时就可以用它它可以做一个全自动的检索过滤入库的万能工具根据你的问题自动搜索网页补充知识入数据库长期保留介绍一下我们当前工具的新定位根据用户问题进行自动网页检索根据网页url自动爬取过滤入库根据用户问题自动检索相关网页片段目前知识分阶段展示他更多的是一个连续的操作即根据用户问题返回网页url,自动根据url爬取入库然后自动触发检索功能检索片段传给AI对应的MCP的tool十一总结与后续计划总结这一套链路花费了很大的心血因为这个是博主从未涉足的功能思路和方法都是一点一点研究出来的真的要被搞崩溃了从每次满怀期待到被深深打击再满怀期待再被打击每一次的碰壁真的很让人崩溃。目前整个项目东西太多了已经到博主能力的地步了每一次修改都会引入新的错误而且AI如果修改不好博主可能一做一整天都解决不了已经超出资深能力范围了。但是看到这里博主想说的是这种碰壁真的太正常了大伙在遇到问题时可以换个方向不用死磕。同时遇到的bug沉下心来心态放平问题总会迎刃而解。后续计划1可以重构一下当前项目太杂乱了内容一多耦合性就上来了对后续开发阻碍太大。但是能力有限只能通过AI一点一点修改2: 继续优化当前网络搜索功能因为本身功能还不稳定3.既然实现了图片功能核心问题已经解决了那么就可以推送扩展功能比如推送用户喜欢的图片比如动漫人物的功能4.博主又发现了一个牛逼的工具是minero,专门用来提取各种文档的数据的后续可以出一个用户上传文档处理功能