2026年6月AI生产力再探再报:又出什么新东西了? 前言每个月都像在追一部永远不停更的连续剧剧名叫「AI圈又出什么新东西了」。上个月还在吹的模型这个月就成了上一代上周刚学会的框架这周就被官宣弃用总之还是工具不在多不在新在能用。下面开始各就各位。一、工具尝鲜快报好玩的初探感觉不错的工具。模型篇1. 海的那边Anthropic Claude Mythos/Fable 5还说啥呢因为过于强大都被川普封禁了管他反正上线了我也用不上。OpenAI GPT-5.6GPT-5.6 Sol是旗舰负责「硬骨头」编程、生物信息、网络安全GPT-5.6 Terra 干「日常工作」主打性价比性能据说可以对标GPT-5.5但便宜一半GPT-5.6 Luna是「价格敏感型用户」的福音最便宜。也是被A社的神话寓言逼急了搞起了日月大地但被曝跑分时作弊。变强了却没有那么强。Agnes 全家桶Agnes-2.0-Flash / Agnes-Image-2.1-Flash / Agnes-Video-2.0Agnes AI 是新加坡 Sapiens AI 公司的「全模态 AI 实验室」6月起向开发者开放了无限期免费、不限量的文本、图像、视频 AI不是、哥们全模态免费 API算力从哪来的呀先白嫖用了再说。Gemma 4 12B谷歌开源的多模态模型之前就开源了多个型号的这次是12B参数支持图像和音频直接输入无需独立编码器Apache 2.0协议256K上下文。阿美莉卡的源神大旗由谷歌扛起了。Qwythos-9B由独立 AI 实验室 Empero 推出的小模型从名字可以看出是 Qwen 和 Mythos的合体仅9B参数却吸收了 Claude Mythos 和 Fable 的高质量推理轨迹支持 1M 的超长上下文最低 4GB 显存即可本地运行证明了后训练技术可以让小模型拥有大模型的思维深度。gemma-4-12B-coder-fable5-composer2.5更震撼的来了个人开发者 luyuxin 在美研究生因学业太无聊而做的试验基于 gemma4 蒸的 FableOpus 4.8杀进了 Hugging Face 开源模型榜主打 Agentic 的 V2 和主打 Coder 的 V1 版分别位列第三、第四。顺便一提第一、第二分别是智谱GLM-5.2和百度Unlimited-OCR。2. 挑战者们GLM 5.2智谱再次憋了个大招1M上下文MIT协议完全开源Agentic Coding 对标 Claude Opus 4.8国内 Coding 模型的新标杆。Qwen3.7-Plus阿里的多模态交互混合智能体模型统一视觉与语言能力支持GUI操作、代码生成、多模态推理和真实世界感知。Qwen-AgentWorld业内首个原生语言世界模型LWM一个内置 「世界模拟器」 的大模型能在脑子里先模拟环境反馈再决定怎么行动。在概念上是很有趣的方向但实际表现还是得让子弹飞一会。WeLM微信团队自研的大语言模型不算上新但随着微信AI助手「小微」而再次浮出水面。WeLM 作为小微的幕后核心大脑完成大部分操作部分复杂问答也会借助 DeepSeek 配合属于「自研外援」的混合策略。这步棋下得很大目前还在灰度测试中。豆包Seed 2.1 Pro不来点硬货怎么对得起收费模式感兴趣可以在豆包客户端的任务模式中体验。Kimi K2.7 Code月之暗面的编程专用模型相比 K2.6 在长上下文编程场景上提升明显改善了过度思考的毛病配合 AI CLI 工具 Kimi Code似乎可以作为 Claude Code Opus 的易用替代。3. 视觉组PP-OCRv6百度飞桨PaddleOCR的第六代文本检测识别模型提供Tiny、Small、Medium三档从浏览器到嵌入式到服务器全覆盖支持50种语言。实测比之前的飞桨模型好用多了让 AI 配置环境没有那么奇奇怪怪的问题了。Unlimited-OCR百度开源的 OCR 模型基于 DeepSeek-OCR 2 架构此模型正是该团队研究员跳槽到百度后的新作采用 R-SWA 注意力机制支持长文档OCRMIT许可证。和 PP-OCRv6 的定位不同Unlimited-OCR 更偏向「长文档」场景有空再深入对比一下两者。LLaVA-OneVision-2.0一款面向下一代感知智能的视觉语言大模型利用视频Codec流和自研OneVision-Encoder实现跨帧、跨事件的增量观测和连续证据流建模。在视频理解、空间推理和目标追踪等任务中具有应用潜力。虽然名字长得像密码但技术方向很清晰让AI不仅能「看懂」单帧图片还能「看懂」视频里的时空关系。4. 图像组Ideogram4Ideogram终于开源了而且是从头训练、非基于现有模型微调的9.3B参数模型。文本渲染能力业界领先支持JSON提示接口、边界框布局、调色板控制原生2K分辨率。Boogu-Image 0.1统一图像生成与编辑模型家族支持文生图、指令式编辑和中英双语文本渲染。Boogu-Image-0.1-Base负责超密集文本渲染和下游微调Boogu-Image-0.1-Edit负责指令式编辑和跨风格迁移Boogu-Image-0.1-Turbo是蒸馏版3-4步出图。Krea2开源发布、磁力链下载这很极客,12B参数人像生成强悍据说可以把 Boogu-Image 按在地上暴打。缺点是中文渲染不行信息图密集文字会崩。但人像、场景、插画类生成质量很顶。Bonsai ImagePrismML公司发布的轻量级模型基于FLUX.2 Klein 4B架构通过1-bit或三进制量化压缩可在本地设备运行。配套还有iOS应用Bonsai Studio可离线生图这是「端侧AI」趋势的典型代表。JoyAI-Image-Edit京东开源的一体化图像模型把空间智能融入模型架构底层支持物体移动、旋转和相机控制等空间编辑能力。除了这些还屯了好多想测的开源模型得尽快肝出来 A 。Seedream 5.0 Pro字节的图像生成模型支持交互式精准编辑、多图层分离、高密度信息呈现支持10余种语言。国内的生图确实还是豆包最强。MAI Image 2.5微软自家的图像生成模型进入PowerPoint后续会扩展到OneDrive和Foundry。微软的打法很清晰模型不单独卖而是塞进你天天用的Office里让你在写PPT的时候顺手生成配图。5. 视频组Seedance 2.5字节视频生成模型支持最长30秒视频、50个全模态素材联合输入还有局部视频编辑能力。50个参考SD2.0还没玩明白呢世上还有谁能动摇2.0的地位吗哦是2.5啊。**DreamX-World **基于 Wan2.2-TI2V-5B 构建的长时程自回归视频模型支持根据图像文本相机动作指令生成视频分块因果自回归推理KV缓存这个系列的技术路线很硬核但长视频生成目前仍是能跑但不好用的阶段对硬件要求也很高。JoyAI-Echo京东开源的长音视频生成框架支持长达5分钟的跨镜头音视频双重一致、非线性剪辑与局部重绘、流式实时超分最高输出1472×2560分辨率。这是目前开源视频生成里的「时长天花板」。Grok Imagine Video 1.5xAI从预览转正全面可用。音频与语音更清晰、嘴型同步更好、运动物理更连贯谁才是真正的快乐马我不说。SCAIL-2智谱联合清华大学开源的影视级角色动画框架第二代基于DiT架构端到端训练直接实现动画迁移无需姿态估计中间环节。能驱动人体、动物、手绘角色支持多人物交互。Bernini字节开源的多模态统一视频模型采用「大模型负责语义理解与规划diffusion负责视觉渲染」的分工架构。覆盖了参考生成、视频编辑等多种任务。视频模型中在闭源上能打败字节的是字节开源上也是。6. 语音组MOSS-TTS-Local-Transformer-v1.5开源TTS模型支持48kHz立体声、零样本声音克隆、最长10分钟长文本合成核心采用Qwen3-4B骨干约2B参数的音频编解码器。SGLang-Omni三阶段流水线部署。MAI Transcribe 1.5微软的转录模型支持43种语言速度达到竞品5倍。正在往GitHub、Teams、Copilot、Dynamics 365里塞。微软在把AI塞进每一个Office按钮这件事上开始加速了。MAI Voice 2同样是微软推出支持15种语言的语音模型可通过短样本适配声音内置防滥用保护。这两个月开始涉猎 AI 短剧所以也开始关注更多样的模型了。应用篇1. AI CodingMiMo Code小米开源的终端AI编程助手基于OpenCode二次开发MIT协议。它的特点是「持久记忆系统无限上下文」还有独创的Compose模式和Dream记忆沉淀系统支持语音输入。Kimi Code同上类似非开源各家做这种都是对标 Claude Code 去的。Kimi 这款的特点是Qoder 新命令阿里推出的AI编程IDE。新增/run-skill-generator、/run和/verify三个命令实现知识录制、快速观察和闭环验证。另外此前 Mac 版 QoderWork 上线的 Computer Use 功能Windows 版也有了可自动执行桌面任务如启动应用、点击控件、输入文本等。PonytailAI Agent插件通过过滤链减少过度工程兼容13个主流AI Agent可减少代码量80-94%提升速度3-6倍。https://github.com/DietrichGebert/ponytailagentsview本地Web应用自动扫描并统计Claude Code、Codex、Cursor等20多种AI编码Agent的会话记录支持搜索、浏览、分析和统计token消耗与费用。如果你同时在用三四个AI编程工具这个工具就是你的「记账本监控器」。https://github.com/kenn-io/agentsviewSkillSpectorNVIDIA开源的静态分析扫描器检测AI Skills中的16大类64种漏洞模式包括恶意命令注入、prompt注入、凭证窃取、数据外泄等。https://github.com/NVIDIA/SkillSpectorCLI-Anything香港大学开源的工具能把任何有源码的软件自动生成命令行接口让AI Agent直接操控专业软件。这个思路很妙不是让软件适配AI而是让AI能适配任何软件。如果你的工作流里有很多专业工具比如MATLAB、AutoCAD、各种数据分析软件这个工具可以大幅降低AI接入的门槛。https://github.com/HKUDS/CLI-AnythingReact Bits开源 React 动画组件库130视觉冲击力组件是前端开发者的「动画弹药库」需要炫酷文本动画、交互动效、动画背景时这就是视觉升级的秘密武器。https://github.com/DavidHDev/react-bitsHermes Pets / clawdex终端宠物类工具它解决了一个真实痛点AI任务执行时用户不知道进展到哪了。宠物气泡通知、Dashboard状态展示、任务完成提醒这些都是「状态可视化」的创意解决方案谁不喜欢一个会动的桌面宠物呢https://github.com/asimons81/hermes-petshttps://github.com/danielkempe/clawdex2. 浏览器操作Kimi WebBridge面向本地AI Agent的浏览器插件让AI操作浏览器。它可以打开浏览器、搜索信息、填表、下单。配合Kimi Code和Kimi Work为本地AI生态增加了重磅机能。https://kimi.com/zh-cn/features/webbridgeBrowserAct面向AI Agent的浏览器自动化CLI支持Stealth反检测浏览器、动态代理、人机协作、多任务并发等。如果你在做爬虫、自动化测试或者需要AI Agent操作网页这个工具是基础设施级别的。https://github.com/browser-act/skillsbrowser-act-skill-forge网站能力锻造器可将任何网站操作封装成可复用的Skill自动发现API端点并生成脚本包。你在网页上的操作都可以被录制、封装、复用。https://github.com/browser-act/skillsCloakBrowser反检测浏览器的硬核方案。CloakBrowser直接在Chromium源码层面打补丁49个修改Canvas、WebGL、音频、字体、GPU等核心指纹生成逻辑。完美兼容Playwright和Puppeteer API。对于数据抓取、自动化测试和AI Agent项目来说这是强力的浏览器「伪装者」。https://github.com/CloakHQ/CloakBrowser3. 其他效率工具小微微信原生AI助手支持聊天、搜索、操作小程序、发消息、发红包、总结群聊、刷朋友圈、生图、P图、文件分析、创建待办事项等。微信终于把AI塞进了自己的生态而且是深度集成不是浮在表面的聊天机器人而是能真的操作微信功能14 亿人的 AI 入口未来可期~目前灰度测试中。PowerToys微软官方开源工具箱30多个独立小工具FancyZones窗口管理、PowerToys Run启动器、Text Extractor OCR文字提取、ColorPicker取色、PowerRename批量改名、Keyboard Manager快捷键重映射等。https://github.com/microsoft/PowerToysOpenToonz专业级2D动画制作软件吉卜力工作室定制使用。开源、免费、专业如果你想做手绘风格动画这是最好的起点。虽然不是AI原生工具但结合AI辅助绘图和SCAIL-2的动画能力传统动画工作流正在被重塑。https://github.com/opentoonz/opentoonzRecordly开源桌面录屏与编辑工具自动缩放、光标美化、时间线编辑支持导出MP4和GIF。录屏工具的痛点从来不是「录」而是「剪」。Recordly把时间线编辑和自动缩放做进去了让「录完就能发」成为可能。做教程、演示、短视频的朋友值得试试。https://github.com/webadderallorg/Recordly爱图表全球首个AI图表智能体并非首个真是看腻这些自称首个的 title 了…支持数据上传、自动生成图表、深度编辑、报告生成和数据可视化大屏。强调数据准确性和结果可控性感兴趣可以试试。千问高考志愿填报Agent国内首个全周期高考志愿填报Agent覆盖查分、填报到录取跟进。它代表了AI Agent在「民生服务」领域的渗透。教育、医疗、政务、金融这些传统行业的AI化正在从「概念」变成「产品」。二、生产力军火库好用的开箱即用的神器。1.全能型AI工作台Marvis腾讯推出的系统级AI助手具备 6 个可视化AgentPM、文件、系统、应用、知识库、浏览器支持端云协同和本地隐私模式可跨端联动、系统管理、文件处理等。其实和腾讯家另一款 WorkBuddy 比竞争力不明显不过人格化、可视化的多 Agent 协助是一个有趣的地方。Kimi WorkKimi 的桌面AI工作台支持目标模式和插件中心可连接百度网盘、Canva可画、钉钉、飞书、WPS等外部应用想必各家都会推出这类产品的又有很多玩意儿可以试试了。豆包专业版基于豆包2.1系列大模型的付费AI生产力工具提供办公任务模式支持本地电脑操作、浏览器操作、网站生成、Office集成、飞书协同、Skill技能调用和定时任务。免费久了突然收费天然就会令用户抗拒实际也就是WorkBuddy、QoderWork、KimiWork之类的竞品。QoderWake阿里推出的业界首个安全可控、持续进化的生产级AI数字员工平台。采用Harness-First架构能在真实工作中承担软件工程师、运营和分析师等角色。每次执行后将经验沉淀到记忆、技能、策略、验证规则和工作流五个维度。6月上线了「员工群组」功能创建一个群选好 Leader 和成员它们就自己协作去了。超越 QoderWork 的「助手」定位此乃「数字打工人团队」。Codex 的 Record ReplayCodex更新了很多功能录制与复现这个最值得一说。人类手动演示操作流程后AI 学习打包为 skill下次自动执行类似任务非常适合重复性办公任务。2. 数据与文档处理Duckle本地优先的可视化 ETL 桌面应用集成 290 数据连接器、可视化管道画布和本地AI助手基于 DuckDB 引擎执行 SQL数据全程不离开本地机器。像是 TableauAlteryx 的本地版但加上了 AI 助手数据分析小白也能拖拖拽拽完成复杂 ETL。https://duckle.orgZvec阿里开源的向量数据库以嵌入式范式运行pip install 即可在 Python 进程内使用。基于淘宝搜索、支付宝人脸支付等场景验证过的 Proxima 向量引擎。不是独立服务而是进程内的数据库这意味着你的 RAG、Agent 长期记忆、语义搜索不需要额外开端口直接在自己的代码里跑。https://github.com/alibaba/zvecOpenDataLoaderPDF 解析工具Apache 2.0许可证。在速度上有明显优势对于需要处理大量PDF文档的场景来说值得一试。https://github.com/opendataloader-project/opendataloader-bench3. 内容创作与研究PavoAgnes AI最新推出的视频创作平台在开放全模态免费 AI API 后又推出此等重磅产品这是要下大棋呀。在操作上你可以只写一句话说明短片想法Agent 会自动生成标题、大纲、时长、画幅、视觉风格等框架的文字信息你确认后即可再继续生图输出角色设计、场景设计等随后进入分镜视频生成最终将每颗镜头合成为一个短片。全流程都由 Agent 在与你的对话交互中实现品质自然是比自己精调要逊色但对新手而言完全是喂饭了。https://app.pavo-ai.work/wechat-publisher公众号运营者的福音。Markdown自动排版、上传图片、生成封面、推送草稿支持AI味检测、16套主题、本地运行。https://github.com/penxxy/wechat-publisherxiaohu-wechat-format另一个公众号排版利器支持85套主题、CJK排版修复、封面提示词生成。https://github.com/xiaohuailabs/xiaohu-wechat-formatFigEdit一款开源 Skill给它一张截图、论文配图、AI 生成的幻灯片、技术架构图、或者任何图片格式的图形它会把图片拆解重建成可编辑的矢量图形包。从此图片编辑自由不是梦https://github.com/giszzt/figeditalphaXiv面向 arXiv 论文的 auto research 功能可自动复现论文、修复代码配置、运行最小化复现并估算完整复现成本。科研人的「论文复现神器」现在 alphaXiv 可以帮你自动跑起来还能告诉你复现需要多少钱、多长时间。这个工具如果能做好将极大加速科研迭代速度。https://x.com/askalphaxiv/status/2067593673072877833PaperSeek将自然语言检索意图转化为可执行检索式的开源文献检索工具支持概念抽取、检索式生成、试搜校准、候选文献拉取、相关性排序、引用扩展和结果导出。你描述想要找什么它帮你生成检索式、试搜、优化、导出结果。对于不擅长构造复杂检索式的研究者来说这能大幅提升文献调研效率。https://modelscope.cn/studios/HongMingfeng/PaperSeekphuryn/pm-skills100多个产品经理方向的Agentic Skills3600 Star。产品经理的工作流程需求分析、竞品调研、原型设计、需规撰写已然被逐个拆解成可复用的Skill。https://github.com/phuryn/pm-skills三、前沿动态回顾好看的大公司的动作、行业动态或优质资料。1.大公司的生态布局Apple Intelligence苹果AI新架构包括与Gemini合作的端侧模型、Private Cloud Compute、系统编排器等。苹果的做法是「端侧优先隐私至上」能本地处理的绝不联网必须联网的用私有云计算。Siri AI、Image Playground等功能的推出标志着苹果正式加入AI大战。不过苹果的AI策略一向保守不求最早但求最稳。微信支付AI专属卡 / 各种下单SkillAI Agent正在从「聊天」「工作」走向「生活」「交易」。微信支付推出的AI专属卡支持从智能推荐到下单支付的完整消费流程。支付宝、麦当劳、瑞幸、飞猪、滴滴、高德、美团等也纷纷推出Skill/MCP。这意味着未来的 AI Agent 不只是「告诉你去哪吃」更会「直接帮你点好、付好、送到家」。飞书Skill / 钉钉Skill / 企业微信Skill / 腾讯文档Skill办公协同软件的AI化已经是必然趋势。飞书、钉钉、企业微信、腾讯文档都在提供Skill/MCP/CLI接入让AI Agent可以操作消息、待办、日程、审批、文档。网易云音乐Skill / 微信读书Skill / 美图Skill内容消费领域的AI接入。网易云音乐支持搜索、播放、歌单管理、偏好分析微信读书可查书架、进度、笔记、推荐美图支持图片编辑、文生图、文生视频、AI写真、换脸等。这些Skill的共同点是把「内容消费」变成「可编程的」。Kimi K2.7 Code Kimi WebBridge Kimi Work Kimi信用卡月之暗面这个月也动作频频。K2.7 Code巩固编程优势WebBridge打通浏览器Work模式整合办公生态。还有 Kimi 信用卡消费转化为AI算力额度AI服务和金融产品的跨界是一个相当有趣的商业创新。2. 优质资料坏蛋如何用3句话让大模型破防当一名遵纪守法的“好AI”有多难B站BV1WHVm6rEsU新名词诈骗你管这破玩意叫 Loop EngineeringB站BV1Xg7v6PEr9分享10本我觉得AI时代应该必读的好书。https://mp.weixin.qq.com/s/KQHWEERhWMN1p51Sm2WRoQ后记此处省略100字升华。好了本月的再探再报就到这里。如果你有什么新发现的工具或者对上面某个工具想深入了解欢迎留言。这里是你的AI工具猎人 Seon塞翁下个月见