写在前面欢迎大家关注Rocky的公众号WeThinkIn欢迎大家关注Rocky的知乎Rocky DingAIGC算法工程师/开发工程师面试面经秘籍分享WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家StarAIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源【三年面试五年模拟】AI算法工程师面试秘籍Rocky最新撰写AI AgentAI智能体的深入浅出全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识AIGC算法岗/开发岗面试面经交流社群涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源欢迎大家加入https://t.zsxq.com/33pJ0大家好我是Rocky。核心导读如果上一篇 Grounding DINO 的核心是“让语言调度视觉检测器”那么 Grounded SAM 这篇论文的核心就更进一步把语言驱动的检测、可提示分割、图像标注、生成式编辑、人体三维分析等能力装配成一套开放世界视觉工作流。Rocky 认为这篇工作真正值得读的地方不是它提出了一个全新的神经网络结构而是它提出了一种非常现实、也非常有产业意味的系统路线当单一模型还无法优雅覆盖所有视觉任务时不要执着于训练一个巨大的 unified model而是把已经足够强的 expert model 接起来让每个模型解决自己最擅长的子问题。这背后有一个很关键的判断视觉任务不像纯文本任务那样天然共享一种 token 表示。图像识别输出标签检测输出 box分割输出 mask人体分析输出 mesh视频跟踪输出轨迹图像生成输出像素。强行统一当然是长期方向但在工程落地上装配式系统往往比单体大模型更早形成可用生产力。Grounded SAM 的基础组合很简单Grounding DINO 负责根据自然语言生成开放词表检测框SAM 根据 box prompt 生成高质量 mask。这个组合把“文本到区域”的问题拆成两个子问题先定位再分割。随后系统可以继续接 RAM / BLIP 做自动标注接 Stable Diffusion 做可控图像编辑接 OSX 做 promptable 3D human motion analysis。论文给出的关键结果是Grounded-SAM 在 Segmentation in the WildSGinWzero-shot benchmark 上达到 48.7 mean APGrounded-HQ-SAM 进一步达到 49.6 mean AP超过 UNINEXT-H 的 42.1、OpenSeeD-L 的 36.7、ODISE-L 的 38.7、SAN-CLIP-ViT-L 的 41.4。这个结果说明装配式路线并不是“临时拼凑 demo”在开放世界分割任务上可以形成强基线。先看论文第一张图。它把 Grounded SAM 的定位讲得很直接用户用任意文本输入指定目标系统同时完成检测和分割并且可以继续接入其他开放世界模型完成更复杂任务。这张图是整篇论文的产品架构图。它真正表达的是Grounded SAM 不是单个视觉模型而是一条“语言 prompt - box - mask - downstream model”的视觉流水线。AIGC 和 Agent 系统里最缺的常常不是单点模型而是模型之间能稳定传递的中间表示。这里的 box 和 mask就是视觉工作流里的 API。问题背景作者到底想解决什么开放世界视觉任务的难点不只是类别开放还在于任务形态开放。真实应用里用户可能要做自动标注、目标擦除、对象替换、区域编辑、指定人物三维重建、文本提示跟踪、长尾物体分割。每个任务的输入输出都不同训练数据也不同。论文把当时开放世界视觉的路线分成三类。第一类是 task-specific vision models。识别、检测、分割、跟踪、生成、人体理解等模型在各自任务上很强但边界清楚很难自然扩展到复杂组合任务。第二类是 unified models。UNINEXT、OFA、LLaVA、InstructBLIP、Qwen-VL 等试图统一多任务或多模态能力。这条路线长期很重要但它受制于数据覆盖、任务格式、训练成本和性能折中。尤其开放词表分割这种任务既要知道文本指什么又要给出像素级 mask数据稀缺会成为瓶颈。第三类是 LLM as controller。HuggingGPT、Visual ChatGPT、LLaVA-Plus 等让大语言模型调用不同视觉工具。这条路线灵活但依赖 LLM 的规划能力、工具描述质量和调用可靠性。很多视觉子任务其实不需要先经过复杂语言推理直接用视觉模型流水线组合会更高效。Grounded SAM 选择的是第四种更工程化的表达foundation model assembly。也就是不一定让 LLM 做控制器也不强行训练一个全能模型而是把几个强 expert model 用清晰中间表示连接起来。路线优点短板Grounded SAM 的选择Task-specific model单任务性能强任务边界窄难组合复用专家模型能力Unified model长期愿景清晰数据和训练成本高性能易折中不从零统一所有任务LLM as controller灵活、可规划依赖 LLM 调度成本和可靠性不稳定不把 LLM 作为必要控制器Model assembly复用成熟能力解释性强工程快pipeline 误差传递接口设计重要Grounded SAM 的主路线Rocky 认为这个选择非常符合 AI 应用的产业周期。模型红利还在快速演进时硬训一个统一模型很容易被后来的基础模型吸收但把多个强模型组织成稳定工作流、形成数据闭环和产品闭环反而更容易产生阶段性价值。核心思路用一句主线串起来Grounded SAM 的主线可以概括成一句话用 Grounding DINO 把自然语言转成 box用 SAM 把 box 转成 mask再把 mask 作为视觉工作流的中间接口连接更多 expert model。这个主线有三个层次。第一层是 open-vocabulary detection and segmentation。SAM 会分割但 SAM 自身通常需要点、框、mask 等 promptGrounding DINO 会根据文本找目标但输出主要是 box。把两者接起来就得到“文本输入 - 目标定位 - 像素级 mask”的能力。第二层是 automatic dense image annotation。RAM 或 BLIP 可以从图像生成 tag / caption但不能给出准确 box 和 mask。把它们输出的标签交给 Grounded SAM就可以从“只有图像输入”走到“自动类别识别 实例 box mask”。第三层是 downstream task assembly。Stable Diffusion inpainting 需要 mask 做可控编辑OSX 需要具体人物 box 做单人 mesh recovery。Grounded SAM 正好把语言意图转换成这些下游模型需要的空间条件。从技术本质看这篇论文其实在强调一个简单但强大的思想开放世界视觉系统的关键不是把所有能力塞进一个模型而是找到稳定的中间模态。在这里中间模态就是 box 和 mask。方法展开沿着论文原始逻辑拆解1. Preliminary每个专家模型只解决自己最擅长的子问题论文先列出 Grounded SAM 依赖的基础模型。SAM 负责分割Grounding DINO 负责开放词表检测OSX 负责 expressive whole-body mesh recoveryBLIP 负责图像描述RAM 负责图像标签识别Stable Diffusion 负责图像生成和 inpainting。这些模型的能力边界非常互补。模型擅长不擅长在 Grounded SAM 中的位置SAM根据点/框等 prompt 生成高质量 mask不知道文本指定哪个对象被 box prompt 调用的分割器Grounding DINO根据任意文本做开放词表检测输出 box不输出精细 mask文本到空间区域的定位器RAM识别图像中可能存在的通用类别标签不输出 box / mask自动标注 pipeline 的标签来源BLIP生成图像 caption不做对象级定位caption 到检测 prompt 的来源Stable Diffusion Inpainting根据 mask 和 prompt 做图像编辑不负责理解目标位置下游生成编辑器OSX单人全身 mesh recovery需要先确定目标人物 box下游人体分析器这张表背后有一个工程判断系统的能力不等于单个模型能力相加而取决于模型之间的接口是否稳定。Grounding DINO 输出的 box 可以直接作为 SAM 的 box promptSAM 输出的 mask 可以直接作为 Stable Diffusion inpainting 的条件Grounded SAM 输出的 human box 可以直接送给 OSX。这些接口越自然系统越容易成立。2. Grounded SAM把开放词表检测和可提示分割拆成两步开放词表分割最难的是同时解决两个问题文本语义对齐和像素级边界。直接训练一个 text-to-mask 模型需要大量高质量开放词表分割数据而这种数据成本非常高。Grounded SAM 的拆法是先让 Grounding DINO 解决相对更成熟的 text-to-box再让 SAM 解决 box-to-mask。这其实是一个典型的“难问题分解”。第一步输入 image 和 text promptGrounding DINO 生成与文本匹配的 boxes。第二步把这些 boxes 作为 SAM 的 box prompt生成对应对象或区域的 masks。第三步把 box、mask、phrase 作为后续任务的结构化输出。图 2 展示了常见类别和长尾类别上的检测分割效果包括类似 “Zale Horrida”“Gazania Linearis” 这样的长尾对象。这张图证明的是系统层能力只要 Grounding DINO 能用文本定位到目标SAM 就可以进一步把 box 转成高质量 mask。Rocky 认为这个方法的价值不是“SAM 加了文字能力”这么简单。更准确地说是 Grounded SAM 给 SAM 提供了一个自动 prompt 生成器。过去 SAM 很强但需要人类或别的系统告诉它分哪里Grounded SAM 让自然语言变成 SAM 可以消费的空间 prompt。3. RAM-Grounded-SAM从“用户给 prompt”到“系统自动生成 prompt”Grounded SAM 的基础形态仍然需要用户输入文本 prompt。RAM-Grounded-SAM 更进一步如果用户连 prompt 都不给系统能不能自己识别图像中有哪些类别再自动标注整张图论文的做法是引入 RAM。RAM 根据图像生成 tags例如 “airliner, plane, cargo ship, container”。这些 tags 再被送入 Grounded SAM由 Grounding DINO 找到对应 boxes再由 SAM 输出 masks。于是系统从“图像输入”自动得到“类别 box mask”的密集标注。图 3 的意义很产业化。自动标注是视觉模型训练中最贵、最脏、也最容易形成数据飞轮的环节。RAM-Grounded-SAM 并不能完全取代人工标注但它可以先生成候选类别、候选框和候选 mask再让人类做筛选和修正。这种 human-in-the-loop 标注系统往往比“全自动”更接近真实生产。这也是论文结尾说的 prospect通过 expert model assembly 降低标注成本再让人类筛选或微调错误预测最后把更高质量标注继续用于训练模型。换句话说Grounded SAM 的长期价值不是一次推理而是数据闭环。4. Grounded-SAM-SD让生成模型获得可控空间条件Stable Diffusion 很强但它本身不负责理解图像中哪个对象应该被编辑。图像编辑产品的关键矛盾常常是用户想用语言表达操作但模型需要 mask 才能精准 inpaint。Grounded-SAM-SD 的组合路线是用户输入文本或交互 promptGrounded SAM 定位并分割目标区域Stable Diffusion inpainting 根据 mask 和生成 prompt 修改目标对象、替换区域或生成新数据。图 4 说明了一个对 AIGC 产品非常关键的点生成模型要从“玩具式生成”进入“工作流式编辑”必须有可靠的控制层。mask 就是控制层。Grounded SAM 不是生成模型但它让生成模型更可控、更可交互、更接近生产工具。Rocky 认为未来很多 AIGC 产品的护城河不会只在扩散模型本身而在这些控制链路对象定位、mask 质量、局部编辑一致性、多轮修正、素材数据闭环。Grounded SAM 正是这条链路中的关键一环。5. Grounded-SAM-OSX让人体分析从“检测所有人”变成“按语言指定人”OSX 做 expressive whole-body mesh recovery需要先得到人的检测框再做单人 mesh recovery。传统流程通常检测所有人然后逐个分析。但真实场景里用户经常想指定某个特定人例如“穿粉色衣服的人”“左边拿包的人”。Grounded-SAM-OSX 用 Grounded SAM 先根据文本 prompt 找到特定人物 box再把这个 box 交给 OSX 做对应人的 3D mesh recovery。这张图其实把 Grounded SAM 的能力边界又扩了一层它不仅能做对象分割还能成为更复杂人体理解任务的入口。对于安防、运动分析、虚拟人、影视制作、具身智能等场景“指定哪个人”往往比“图里有没有人”更重要。实验与证据结果能支撑到什么程度论文用 SGinWSegmentation in the Wildzero-shot benchmark 验证 Grounded SAM。SGinW 包含 25 个 zero-shot in-the-wild 数据集覆盖 Elephants、Hand-Metal、Watermelon、House-Parts、Brain-Tumor、Electric-Shaver、Phones、Ginger-Garlic 等多种长尾和真实场景分割任务。Table 1 的核心结果如下。方法mean SGinWRocky 解读X-Decoder-T22.6unified open-set segmentation 早期基线X-Decoder-L-IN22K26.6更大数据带来提升但仍有限X-Decoder-B27.7中等规模基线X-Decoder-L32.2相比小模型提升明显OpenSeeD-L36.7open-set segmentation 强基线ODISE-L38.7生成式/扩散相关语义能力带来提升SAN-CLIP-ViT-L41.4CLIP 语义侧增强后更强UNINEXT-H42.1unified model 代表性强基线Grounded-SAM (LH)46.0Grounding DINO-L SAM-HugeGrounded-SAM (BH)48.7Grounding DINO-Base SAM-Huge论文摘要主结果Grounded-HQ-SAM (BH)49.6换用 HQ-SAM 后进一步提升这个结果有两个值得注意的点。第一装配式系统超过了很多 unified segmentation 模型。这说明在开放世界分割任务上“强检测器 强分割器”的组合可以很有效。它不一定更优雅但很实用。第二Grounded-SAM (BH) 反而高于 Grounded-SAM (LH) 的 mean SGinW。论文没有在正文展开解释但从结果看模型规模更大不必然带来所有野外分割任务的平均提升。这再次提醒我们开放世界 benchmark 的结果受检测器、分割器、类别 prompt、阈值、数据分布共同影响不能简单把“更大模型”当作万能解。从单项任务看Grounded-SAM 也不是每一列都赢。例如 UNINEXT-H 在 Hand 上达到 93.7SAN-CLIP-ViT-L 在 Garbage 上达到 46.5OpenSeeD-L 在 Puppies 上达到 74.6。Grounded SAM 的强项是整体均值和大量任务的稳健性而不是每个子任务都压倒性领先。Rocky 认为这个实验足以支撑论文的核心主张model assembly 是开放世界视觉任务的强工程路线。但它不能证明 Grounded SAM 是所有分割任务的终局模型也不能证明 pipeline 一定优于端到端统一模型。更准确的结论是在当前数据和模型生态下装配式路线可以用更低训练成本、更强解释性、更快组合速度得到非常有竞争力的 zero-shot segmentation 能力。这篇工作的边界与可复现性第一Grounded SAM 的能力上限受 Grounding DINO 和 SAM 两端共同限制。Grounding DINO 找不到目标SAM 就没有正确 boxSAM 的 mask 对 box prompt 不稳下游编辑和标注也会受影响。装配式系统的优点是可解释缺点是误差会沿 pipeline 传递。第二开放词表分割不是完整语义理解。Grounded SAM 能根据 prompt 生成 mask但它不等于理解复杂关系、动作、事件和因果。对于“正在把杯子递给孩子的人”“刚从车里出来的乘客”这类动态语义单帧 box mask pipeline 仍有明显边界。第三SGinW 是重要证据但不是产品可靠性证明。25 个 zero-shot 数据集能反映开放世界泛化但真实产品还要评估 prompt 稳定性、阈值敏感性、误检/漏检成本、延迟、批处理成本、人机协同标注效率。第四论文更像系统报告而不是完整算法论文。它的创新主要在 model assembly 和应用扩展不是提出新的 loss、训练范式或统一架构。对研究者来说它的“论文新颖性”可能不如 Grounding DINO但对工程和产品来说它的“系统价值”反而非常高。第五可复现性取决于多个外部模型版本。Grounding DINO、SAM、HQ-SAM、RAM、Stable Diffusion、OSX 等组件的 checkpoint、阈值、prompt 模板和预处理都会影响结果。复现 Grounded SAM不只是跑一个模型而是复现一条 pipeline。如果继续研究/落地应该关注什么第一接口标准化。Grounded SAM 的核心接口是 text、box、mask、tag、caption、image。未来如果视觉 Agent 要规模化必须把这些中间表示标准化坐标系、置信度、mask 格式、类别同义词、实例 ID、时间轨迹、可解释日志都要成为稳定协议。第二数据闭环。自动标注不是为了炫技而是为了更便宜地产生训练数据。最有价值的系统形态是模型先自动生成候选标注人类快速筛选修正修正数据继续训练检测器、分割器或行业模型。这个闭环一旦跑通才会形成真正的行业壁垒。第三LLM 控制层。论文没有把 LLM 作为必要控制器但它也指出装配式 CV API 很容易被 LLM 通过语言 prompt 调用。Rocky 认为未来更自然的架构是LLM 负责任务拆解和工具选择Grounded SAM 负责视觉定位与 mask 生成生成/跟踪/分析模型负责后续动作。第四行业长尾适配。Grounded SAM 对长尾对象有展示但行业场景仍需要专门优化。例如工业缺陷、医疗影像、遥感目标、农业病虫害、仓储零件等任务中类别语义、视觉形态和错误成本都更复杂。通用 Grounded SAM 适合作为冷启动不能直接等同于行业可用系统。第五从静态图像走向视频和具身智能。论文提到可以接 tracking models如 DEVA做基于文本 prompt 的目标跟踪。这个方向非常关键。因为现实世界不是单张图而是连续时间中的对象、状态和动作。Grounded SAM 如果能稳定产生跨帧 mask 和 object identity就会更接近机器人和视频 Agent 的基础能力。术语与概念速查概念简明解释在本文中的作用Grounded SAMGrounding DINO SAM 的开放词表分割流水线本文主系统Grounding DINO根据任意文本做开放词表检测text-to-boxSAM根据 prompt 生成任意对象 maskbox-to-maskRAMRecognize Anything Model图像标签识别模型image-to-tagsBLIP图像 caption / vision-language modelimage-to-captionStable Diffusion Inpainting根据 mask 和 prompt 做局部生成编辑mask-to-edited-imageOSX单图 expressive whole-body mesh recoveryhuman-box-to-3D-meshSGinW / SegInWSegmentation in the Wild benchmarkzero-shot 分割评估HQ-SAM更高质量 mask 的 SAM 变体提升 mask 质量Model Assembly把多个专家模型按接口组合本文核心路线LLM as Controller让大语言模型调度工具本文对照路线拓展思考值得继续扩展研究与思考的创新点Grounded SAM 最重要的启发是它把“模型能力”重新解释成“可组合能力”。过去我们习惯问一个模型能做多少任务Grounded SAM 问的是如果每个专家模型都已经足够强怎样用最少的训练、最清晰的接口把它们装配成更多任务论文结尾提到一个公式如果以前n nn个模型只能做n nn个任务那么考虑所有模型组合理论上可以做2 n − 1 2^n-12n−1个任务。这个说法当然带有理想化成分因为不是任意模型组合都成立接口、误差和任务定义都会限制组合空间。但它抓住了一个趋势AI 系统的能力增长不只来自单模型 scaling也来自工具组合和工作流设计。Rocky 认为这篇论文放在 2024 年看最像一个开放世界视觉 Agent 的早期雏形。它还没有完整的规划、记忆、多轮反馈和自动错误修正但它已经把视觉任务拆成可调用模块识别、定位、分割、编辑、人体分析、自动标注。这就是 Agent 化的前提。对创业者和产品团队来说Grounded SAM 的启发不是“照抄一个 demo”而是建立自己的行业视觉工作流你的用户输入是什么中间表示是什么哪个模型负责定位哪个模型负责精修哪个环节需要人类确认哪些错误会回流成训练数据这些问题比单纯换一个更大的模型更重要。最后回到本文的核心判断Grounded SAM 的本质不是 SAM 的一个插件而是开放世界视觉系统的装配式路线。它告诉我们在基础模型快速演进的阶段真正有价值的工程能力往往不是把所有东西揉成一个黑盒而是把强模型变成可解释、可替换、可闭环的生产系统。推荐阅读Rocky一直在运营技术交流群WeThinkIn-技术交流群这个群的初心主要聚焦于技术话题的讨论与学习包括但不限于算法开发竞赛科研以及工作求职等。群里有很多人工智能行业的大牛欢迎大家入群一起学习交流请添加小助手微信Jarvis8866拉你进群1. 深入浅出完整解析AI AgentAI智能体的核心基础知识2025年可以说是AI Agent全面落地应用的元年因此Rocky在持续撰写对AI Agent的全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识和Rocky一起学习探究扩散模型的本质原理与和核心基础知识同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识3. 深入浅出完整解析FLUX.2、Seedream即梦、Z-image、GLM-Image核心基础知识https://zhuanlan.zhihu.com/p/19751746910491895624. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识5. 深入浅出完整解析DeepSeek系列核心基础知识深入浅出完整解析DeepSeek系列核心基础知识6、Sora等AI视频大模型的核心原理核心基础知识网络结构经典应用场景从0到1搭建使用AI视频大模型从0到1训练自己的AI视频大模型AI视频大模型性能测评AI视频领域未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Sora等AI视频大模型文章地址深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识7、Stable Diffusion 3和FLUX.1核心原理核心基础知识网络结构从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion 3和FLUX.1文章地址深入浅出完整解析Stable Diffusion 3SD 3和FLUX.1系列核心基础知识8、Stable Diffusion XL核心基础知识网络结构从0到1搭建使用Stable Diffusion XL进行AI绘画从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型AI绘画领域的未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion XL文章地址深入浅出完整解析Stable Diffusion XLSDXL核心基础知识9、Stable Diffusion 1.x-2.x核心原理核心基础知识网络结构经典应用场景从0到1搭建使用Stable Diffusion进行AI绘画从0到1上手使用Stable Diffusion训练自己的AI绘画模型Stable Diffusion性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion文章地址深入浅出完整解析Stable DiffusionSD核心基础知识10、ControlNet核心基础知识核心网络结构从0到1使用ControlNet进行AI绘画从0到1训练自己的ControlNet模型从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布码字不易欢迎大家多多点赞ControlNet文章地址深入浅出完整解析ControlNet核心基础知识11、LoRA系列模型核心原理核心基础知识从0到1使用LoRA模型进行AI绘画从0到1上手训练自己的LoRA模型LoRA变体模型介绍优质LoRA推荐等全维度解析文章正式发布码字不易欢迎大家多多点赞LoRA文章地址深入浅出完整解析LoRALow-Rank Adaptation模型核心基础知识12、深入浅出完整解析AIGC时代Transformer核心基础知识在AIGC时代中Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向成为AI技术架构大一统与多模态整合的关键核心基座大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析Transformer文章地址深入浅出完整解析AIGC时代Transformer核心基础知识13、最全面的AIGC面经《手把手教你成为AIGC算法工程师斩获AIGC算法offer2024年版》文章正式发布码字不易欢迎大家多多点赞AIGC面经文章地址手把手教你成为AIGC算法工程师斩获AIGC算法offer14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布码字不易欢迎大家多多点赞算法工程师三年面试五年模拟文章地址https://zhuanlan.zhihu.com/p/545374303《三年面试五年模拟》github项目地址希望大家能多多starhttps://github.com/WeThinkIn/Interview-for-Algorithm-Engineer15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识从0到1搭建AI绘画框架从0到1使用AI绘画框架的保姆级教程深入浅出介绍AI绘画框架的各模块功能深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布码字不易欢迎大家多多点赞AI绘画框架文章地址深入浅出完整解析主流AI绘画框架ComfyUI、Stable Diffusion WebUI、Fooocus核心基础知识16、GAN网络核心基础知识网络架构GAN经典变体模型经典应用场景GAN在AIGC时代的商业应用等全维度解析文章正式发布码字不易欢迎大家多多点赞GAN网络文章地址https://zhuanlan.zhihu.com/p/66315730617. AI算法工程师的《三年面试五年模拟》求职秘籍AIGC时代的算法工程师的求职面试秘籍持续更新中18. AIGC产业的深度思考与分析2023年3月21日微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示自从1980年首次看到图形用户界面graphical user interface以来以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。Rocky也认为AIGC及其生态会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期未来随着AIGC的全面落地和深度商用会深刻改变我们的工作、生活、学习以及交流方式各行各业都将被重新定义过程会非常有趣。那么在此基础上我们该如何更好的审视AIGC的未来我们该如何更好地拥抱AIGC引领的革新Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点希望能帮助各位读者对AIGC有一个全面的了解深入浅出全面解析AIGC时代核心价值与发展趋势2025年版
一文读懂Grounded SAM核心基础知识
发布时间:2026/6/17 18:28:54
写在前面欢迎大家关注Rocky的公众号WeThinkIn欢迎大家关注Rocky的知乎Rocky DingAIGC算法工程师/开发工程师面试面经秘籍分享WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家StarAIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源【三年面试五年模拟】AI算法工程师面试秘籍Rocky最新撰写AI AgentAI智能体的深入浅出全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识AIGC算法岗/开发岗面试面经交流社群涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源欢迎大家加入https://t.zsxq.com/33pJ0大家好我是Rocky。核心导读如果上一篇 Grounding DINO 的核心是“让语言调度视觉检测器”那么 Grounded SAM 这篇论文的核心就更进一步把语言驱动的检测、可提示分割、图像标注、生成式编辑、人体三维分析等能力装配成一套开放世界视觉工作流。Rocky 认为这篇工作真正值得读的地方不是它提出了一个全新的神经网络结构而是它提出了一种非常现实、也非常有产业意味的系统路线当单一模型还无法优雅覆盖所有视觉任务时不要执着于训练一个巨大的 unified model而是把已经足够强的 expert model 接起来让每个模型解决自己最擅长的子问题。这背后有一个很关键的判断视觉任务不像纯文本任务那样天然共享一种 token 表示。图像识别输出标签检测输出 box分割输出 mask人体分析输出 mesh视频跟踪输出轨迹图像生成输出像素。强行统一当然是长期方向但在工程落地上装配式系统往往比单体大模型更早形成可用生产力。Grounded SAM 的基础组合很简单Grounding DINO 负责根据自然语言生成开放词表检测框SAM 根据 box prompt 生成高质量 mask。这个组合把“文本到区域”的问题拆成两个子问题先定位再分割。随后系统可以继续接 RAM / BLIP 做自动标注接 Stable Diffusion 做可控图像编辑接 OSX 做 promptable 3D human motion analysis。论文给出的关键结果是Grounded-SAM 在 Segmentation in the WildSGinWzero-shot benchmark 上达到 48.7 mean APGrounded-HQ-SAM 进一步达到 49.6 mean AP超过 UNINEXT-H 的 42.1、OpenSeeD-L 的 36.7、ODISE-L 的 38.7、SAN-CLIP-ViT-L 的 41.4。这个结果说明装配式路线并不是“临时拼凑 demo”在开放世界分割任务上可以形成强基线。先看论文第一张图。它把 Grounded SAM 的定位讲得很直接用户用任意文本输入指定目标系统同时完成检测和分割并且可以继续接入其他开放世界模型完成更复杂任务。这张图是整篇论文的产品架构图。它真正表达的是Grounded SAM 不是单个视觉模型而是一条“语言 prompt - box - mask - downstream model”的视觉流水线。AIGC 和 Agent 系统里最缺的常常不是单点模型而是模型之间能稳定传递的中间表示。这里的 box 和 mask就是视觉工作流里的 API。问题背景作者到底想解决什么开放世界视觉任务的难点不只是类别开放还在于任务形态开放。真实应用里用户可能要做自动标注、目标擦除、对象替换、区域编辑、指定人物三维重建、文本提示跟踪、长尾物体分割。每个任务的输入输出都不同训练数据也不同。论文把当时开放世界视觉的路线分成三类。第一类是 task-specific vision models。识别、检测、分割、跟踪、生成、人体理解等模型在各自任务上很强但边界清楚很难自然扩展到复杂组合任务。第二类是 unified models。UNINEXT、OFA、LLaVA、InstructBLIP、Qwen-VL 等试图统一多任务或多模态能力。这条路线长期很重要但它受制于数据覆盖、任务格式、训练成本和性能折中。尤其开放词表分割这种任务既要知道文本指什么又要给出像素级 mask数据稀缺会成为瓶颈。第三类是 LLM as controller。HuggingGPT、Visual ChatGPT、LLaVA-Plus 等让大语言模型调用不同视觉工具。这条路线灵活但依赖 LLM 的规划能力、工具描述质量和调用可靠性。很多视觉子任务其实不需要先经过复杂语言推理直接用视觉模型流水线组合会更高效。Grounded SAM 选择的是第四种更工程化的表达foundation model assembly。也就是不一定让 LLM 做控制器也不强行训练一个全能模型而是把几个强 expert model 用清晰中间表示连接起来。路线优点短板Grounded SAM 的选择Task-specific model单任务性能强任务边界窄难组合复用专家模型能力Unified model长期愿景清晰数据和训练成本高性能易折中不从零统一所有任务LLM as controller灵活、可规划依赖 LLM 调度成本和可靠性不稳定不把 LLM 作为必要控制器Model assembly复用成熟能力解释性强工程快pipeline 误差传递接口设计重要Grounded SAM 的主路线Rocky 认为这个选择非常符合 AI 应用的产业周期。模型红利还在快速演进时硬训一个统一模型很容易被后来的基础模型吸收但把多个强模型组织成稳定工作流、形成数据闭环和产品闭环反而更容易产生阶段性价值。核心思路用一句主线串起来Grounded SAM 的主线可以概括成一句话用 Grounding DINO 把自然语言转成 box用 SAM 把 box 转成 mask再把 mask 作为视觉工作流的中间接口连接更多 expert model。这个主线有三个层次。第一层是 open-vocabulary detection and segmentation。SAM 会分割但 SAM 自身通常需要点、框、mask 等 promptGrounding DINO 会根据文本找目标但输出主要是 box。把两者接起来就得到“文本输入 - 目标定位 - 像素级 mask”的能力。第二层是 automatic dense image annotation。RAM 或 BLIP 可以从图像生成 tag / caption但不能给出准确 box 和 mask。把它们输出的标签交给 Grounded SAM就可以从“只有图像输入”走到“自动类别识别 实例 box mask”。第三层是 downstream task assembly。Stable Diffusion inpainting 需要 mask 做可控编辑OSX 需要具体人物 box 做单人 mesh recovery。Grounded SAM 正好把语言意图转换成这些下游模型需要的空间条件。从技术本质看这篇论文其实在强调一个简单但强大的思想开放世界视觉系统的关键不是把所有能力塞进一个模型而是找到稳定的中间模态。在这里中间模态就是 box 和 mask。方法展开沿着论文原始逻辑拆解1. Preliminary每个专家模型只解决自己最擅长的子问题论文先列出 Grounded SAM 依赖的基础模型。SAM 负责分割Grounding DINO 负责开放词表检测OSX 负责 expressive whole-body mesh recoveryBLIP 负责图像描述RAM 负责图像标签识别Stable Diffusion 负责图像生成和 inpainting。这些模型的能力边界非常互补。模型擅长不擅长在 Grounded SAM 中的位置SAM根据点/框等 prompt 生成高质量 mask不知道文本指定哪个对象被 box prompt 调用的分割器Grounding DINO根据任意文本做开放词表检测输出 box不输出精细 mask文本到空间区域的定位器RAM识别图像中可能存在的通用类别标签不输出 box / mask自动标注 pipeline 的标签来源BLIP生成图像 caption不做对象级定位caption 到检测 prompt 的来源Stable Diffusion Inpainting根据 mask 和 prompt 做图像编辑不负责理解目标位置下游生成编辑器OSX单人全身 mesh recovery需要先确定目标人物 box下游人体分析器这张表背后有一个工程判断系统的能力不等于单个模型能力相加而取决于模型之间的接口是否稳定。Grounding DINO 输出的 box 可以直接作为 SAM 的 box promptSAM 输出的 mask 可以直接作为 Stable Diffusion inpainting 的条件Grounded SAM 输出的 human box 可以直接送给 OSX。这些接口越自然系统越容易成立。2. Grounded SAM把开放词表检测和可提示分割拆成两步开放词表分割最难的是同时解决两个问题文本语义对齐和像素级边界。直接训练一个 text-to-mask 模型需要大量高质量开放词表分割数据而这种数据成本非常高。Grounded SAM 的拆法是先让 Grounding DINO 解决相对更成熟的 text-to-box再让 SAM 解决 box-to-mask。这其实是一个典型的“难问题分解”。第一步输入 image 和 text promptGrounding DINO 生成与文本匹配的 boxes。第二步把这些 boxes 作为 SAM 的 box prompt生成对应对象或区域的 masks。第三步把 box、mask、phrase 作为后续任务的结构化输出。图 2 展示了常见类别和长尾类别上的检测分割效果包括类似 “Zale Horrida”“Gazania Linearis” 这样的长尾对象。这张图证明的是系统层能力只要 Grounding DINO 能用文本定位到目标SAM 就可以进一步把 box 转成高质量 mask。Rocky 认为这个方法的价值不是“SAM 加了文字能力”这么简单。更准确地说是 Grounded SAM 给 SAM 提供了一个自动 prompt 生成器。过去 SAM 很强但需要人类或别的系统告诉它分哪里Grounded SAM 让自然语言变成 SAM 可以消费的空间 prompt。3. RAM-Grounded-SAM从“用户给 prompt”到“系统自动生成 prompt”Grounded SAM 的基础形态仍然需要用户输入文本 prompt。RAM-Grounded-SAM 更进一步如果用户连 prompt 都不给系统能不能自己识别图像中有哪些类别再自动标注整张图论文的做法是引入 RAM。RAM 根据图像生成 tags例如 “airliner, plane, cargo ship, container”。这些 tags 再被送入 Grounded SAM由 Grounding DINO 找到对应 boxes再由 SAM 输出 masks。于是系统从“图像输入”自动得到“类别 box mask”的密集标注。图 3 的意义很产业化。自动标注是视觉模型训练中最贵、最脏、也最容易形成数据飞轮的环节。RAM-Grounded-SAM 并不能完全取代人工标注但它可以先生成候选类别、候选框和候选 mask再让人类做筛选和修正。这种 human-in-the-loop 标注系统往往比“全自动”更接近真实生产。这也是论文结尾说的 prospect通过 expert model assembly 降低标注成本再让人类筛选或微调错误预测最后把更高质量标注继续用于训练模型。换句话说Grounded SAM 的长期价值不是一次推理而是数据闭环。4. Grounded-SAM-SD让生成模型获得可控空间条件Stable Diffusion 很强但它本身不负责理解图像中哪个对象应该被编辑。图像编辑产品的关键矛盾常常是用户想用语言表达操作但模型需要 mask 才能精准 inpaint。Grounded-SAM-SD 的组合路线是用户输入文本或交互 promptGrounded SAM 定位并分割目标区域Stable Diffusion inpainting 根据 mask 和生成 prompt 修改目标对象、替换区域或生成新数据。图 4 说明了一个对 AIGC 产品非常关键的点生成模型要从“玩具式生成”进入“工作流式编辑”必须有可靠的控制层。mask 就是控制层。Grounded SAM 不是生成模型但它让生成模型更可控、更可交互、更接近生产工具。Rocky 认为未来很多 AIGC 产品的护城河不会只在扩散模型本身而在这些控制链路对象定位、mask 质量、局部编辑一致性、多轮修正、素材数据闭环。Grounded SAM 正是这条链路中的关键一环。5. Grounded-SAM-OSX让人体分析从“检测所有人”变成“按语言指定人”OSX 做 expressive whole-body mesh recovery需要先得到人的检测框再做单人 mesh recovery。传统流程通常检测所有人然后逐个分析。但真实场景里用户经常想指定某个特定人例如“穿粉色衣服的人”“左边拿包的人”。Grounded-SAM-OSX 用 Grounded SAM 先根据文本 prompt 找到特定人物 box再把这个 box 交给 OSX 做对应人的 3D mesh recovery。这张图其实把 Grounded SAM 的能力边界又扩了一层它不仅能做对象分割还能成为更复杂人体理解任务的入口。对于安防、运动分析、虚拟人、影视制作、具身智能等场景“指定哪个人”往往比“图里有没有人”更重要。实验与证据结果能支撑到什么程度论文用 SGinWSegmentation in the Wildzero-shot benchmark 验证 Grounded SAM。SGinW 包含 25 个 zero-shot in-the-wild 数据集覆盖 Elephants、Hand-Metal、Watermelon、House-Parts、Brain-Tumor、Electric-Shaver、Phones、Ginger-Garlic 等多种长尾和真实场景分割任务。Table 1 的核心结果如下。方法mean SGinWRocky 解读X-Decoder-T22.6unified open-set segmentation 早期基线X-Decoder-L-IN22K26.6更大数据带来提升但仍有限X-Decoder-B27.7中等规模基线X-Decoder-L32.2相比小模型提升明显OpenSeeD-L36.7open-set segmentation 强基线ODISE-L38.7生成式/扩散相关语义能力带来提升SAN-CLIP-ViT-L41.4CLIP 语义侧增强后更强UNINEXT-H42.1unified model 代表性强基线Grounded-SAM (LH)46.0Grounding DINO-L SAM-HugeGrounded-SAM (BH)48.7Grounding DINO-Base SAM-Huge论文摘要主结果Grounded-HQ-SAM (BH)49.6换用 HQ-SAM 后进一步提升这个结果有两个值得注意的点。第一装配式系统超过了很多 unified segmentation 模型。这说明在开放世界分割任务上“强检测器 强分割器”的组合可以很有效。它不一定更优雅但很实用。第二Grounded-SAM (BH) 反而高于 Grounded-SAM (LH) 的 mean SGinW。论文没有在正文展开解释但从结果看模型规模更大不必然带来所有野外分割任务的平均提升。这再次提醒我们开放世界 benchmark 的结果受检测器、分割器、类别 prompt、阈值、数据分布共同影响不能简单把“更大模型”当作万能解。从单项任务看Grounded-SAM 也不是每一列都赢。例如 UNINEXT-H 在 Hand 上达到 93.7SAN-CLIP-ViT-L 在 Garbage 上达到 46.5OpenSeeD-L 在 Puppies 上达到 74.6。Grounded SAM 的强项是整体均值和大量任务的稳健性而不是每个子任务都压倒性领先。Rocky 认为这个实验足以支撑论文的核心主张model assembly 是开放世界视觉任务的强工程路线。但它不能证明 Grounded SAM 是所有分割任务的终局模型也不能证明 pipeline 一定优于端到端统一模型。更准确的结论是在当前数据和模型生态下装配式路线可以用更低训练成本、更强解释性、更快组合速度得到非常有竞争力的 zero-shot segmentation 能力。这篇工作的边界与可复现性第一Grounded SAM 的能力上限受 Grounding DINO 和 SAM 两端共同限制。Grounding DINO 找不到目标SAM 就没有正确 boxSAM 的 mask 对 box prompt 不稳下游编辑和标注也会受影响。装配式系统的优点是可解释缺点是误差会沿 pipeline 传递。第二开放词表分割不是完整语义理解。Grounded SAM 能根据 prompt 生成 mask但它不等于理解复杂关系、动作、事件和因果。对于“正在把杯子递给孩子的人”“刚从车里出来的乘客”这类动态语义单帧 box mask pipeline 仍有明显边界。第三SGinW 是重要证据但不是产品可靠性证明。25 个 zero-shot 数据集能反映开放世界泛化但真实产品还要评估 prompt 稳定性、阈值敏感性、误检/漏检成本、延迟、批处理成本、人机协同标注效率。第四论文更像系统报告而不是完整算法论文。它的创新主要在 model assembly 和应用扩展不是提出新的 loss、训练范式或统一架构。对研究者来说它的“论文新颖性”可能不如 Grounding DINO但对工程和产品来说它的“系统价值”反而非常高。第五可复现性取决于多个外部模型版本。Grounding DINO、SAM、HQ-SAM、RAM、Stable Diffusion、OSX 等组件的 checkpoint、阈值、prompt 模板和预处理都会影响结果。复现 Grounded SAM不只是跑一个模型而是复现一条 pipeline。如果继续研究/落地应该关注什么第一接口标准化。Grounded SAM 的核心接口是 text、box、mask、tag、caption、image。未来如果视觉 Agent 要规模化必须把这些中间表示标准化坐标系、置信度、mask 格式、类别同义词、实例 ID、时间轨迹、可解释日志都要成为稳定协议。第二数据闭环。自动标注不是为了炫技而是为了更便宜地产生训练数据。最有价值的系统形态是模型先自动生成候选标注人类快速筛选修正修正数据继续训练检测器、分割器或行业模型。这个闭环一旦跑通才会形成真正的行业壁垒。第三LLM 控制层。论文没有把 LLM 作为必要控制器但它也指出装配式 CV API 很容易被 LLM 通过语言 prompt 调用。Rocky 认为未来更自然的架构是LLM 负责任务拆解和工具选择Grounded SAM 负责视觉定位与 mask 生成生成/跟踪/分析模型负责后续动作。第四行业长尾适配。Grounded SAM 对长尾对象有展示但行业场景仍需要专门优化。例如工业缺陷、医疗影像、遥感目标、农业病虫害、仓储零件等任务中类别语义、视觉形态和错误成本都更复杂。通用 Grounded SAM 适合作为冷启动不能直接等同于行业可用系统。第五从静态图像走向视频和具身智能。论文提到可以接 tracking models如 DEVA做基于文本 prompt 的目标跟踪。这个方向非常关键。因为现实世界不是单张图而是连续时间中的对象、状态和动作。Grounded SAM 如果能稳定产生跨帧 mask 和 object identity就会更接近机器人和视频 Agent 的基础能力。术语与概念速查概念简明解释在本文中的作用Grounded SAMGrounding DINO SAM 的开放词表分割流水线本文主系统Grounding DINO根据任意文本做开放词表检测text-to-boxSAM根据 prompt 生成任意对象 maskbox-to-maskRAMRecognize Anything Model图像标签识别模型image-to-tagsBLIP图像 caption / vision-language modelimage-to-captionStable Diffusion Inpainting根据 mask 和 prompt 做局部生成编辑mask-to-edited-imageOSX单图 expressive whole-body mesh recoveryhuman-box-to-3D-meshSGinW / SegInWSegmentation in the Wild benchmarkzero-shot 分割评估HQ-SAM更高质量 mask 的 SAM 变体提升 mask 质量Model Assembly把多个专家模型按接口组合本文核心路线LLM as Controller让大语言模型调度工具本文对照路线拓展思考值得继续扩展研究与思考的创新点Grounded SAM 最重要的启发是它把“模型能力”重新解释成“可组合能力”。过去我们习惯问一个模型能做多少任务Grounded SAM 问的是如果每个专家模型都已经足够强怎样用最少的训练、最清晰的接口把它们装配成更多任务论文结尾提到一个公式如果以前n nn个模型只能做n nn个任务那么考虑所有模型组合理论上可以做2 n − 1 2^n-12n−1个任务。这个说法当然带有理想化成分因为不是任意模型组合都成立接口、误差和任务定义都会限制组合空间。但它抓住了一个趋势AI 系统的能力增长不只来自单模型 scaling也来自工具组合和工作流设计。Rocky 认为这篇论文放在 2024 年看最像一个开放世界视觉 Agent 的早期雏形。它还没有完整的规划、记忆、多轮反馈和自动错误修正但它已经把视觉任务拆成可调用模块识别、定位、分割、编辑、人体分析、自动标注。这就是 Agent 化的前提。对创业者和产品团队来说Grounded SAM 的启发不是“照抄一个 demo”而是建立自己的行业视觉工作流你的用户输入是什么中间表示是什么哪个模型负责定位哪个模型负责精修哪个环节需要人类确认哪些错误会回流成训练数据这些问题比单纯换一个更大的模型更重要。最后回到本文的核心判断Grounded SAM 的本质不是 SAM 的一个插件而是开放世界视觉系统的装配式路线。它告诉我们在基础模型快速演进的阶段真正有价值的工程能力往往不是把所有东西揉成一个黑盒而是把强模型变成可解释、可替换、可闭环的生产系统。推荐阅读Rocky一直在运营技术交流群WeThinkIn-技术交流群这个群的初心主要聚焦于技术话题的讨论与学习包括但不限于算法开发竞赛科研以及工作求职等。群里有很多人工智能行业的大牛欢迎大家入群一起学习交流请添加小助手微信Jarvis8866拉你进群1. 深入浅出完整解析AI AgentAI智能体的核心基础知识2025年可以说是AI Agent全面落地应用的元年因此Rocky在持续撰写对AI Agent的全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识和Rocky一起学习探究扩散模型的本质原理与和核心基础知识同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识3. 深入浅出完整解析FLUX.2、Seedream即梦、Z-image、GLM-Image核心基础知识https://zhuanlan.zhihu.com/p/19751746910491895624. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识5. 深入浅出完整解析DeepSeek系列核心基础知识深入浅出完整解析DeepSeek系列核心基础知识6、Sora等AI视频大模型的核心原理核心基础知识网络结构经典应用场景从0到1搭建使用AI视频大模型从0到1训练自己的AI视频大模型AI视频大模型性能测评AI视频领域未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Sora等AI视频大模型文章地址深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识7、Stable Diffusion 3和FLUX.1核心原理核心基础知识网络结构从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion 3和FLUX.1文章地址深入浅出完整解析Stable Diffusion 3SD 3和FLUX.1系列核心基础知识8、Stable Diffusion XL核心基础知识网络结构从0到1搭建使用Stable Diffusion XL进行AI绘画从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型AI绘画领域的未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion XL文章地址深入浅出完整解析Stable Diffusion XLSDXL核心基础知识9、Stable Diffusion 1.x-2.x核心原理核心基础知识网络结构经典应用场景从0到1搭建使用Stable Diffusion进行AI绘画从0到1上手使用Stable Diffusion训练自己的AI绘画模型Stable Diffusion性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion文章地址深入浅出完整解析Stable DiffusionSD核心基础知识10、ControlNet核心基础知识核心网络结构从0到1使用ControlNet进行AI绘画从0到1训练自己的ControlNet模型从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布码字不易欢迎大家多多点赞ControlNet文章地址深入浅出完整解析ControlNet核心基础知识11、LoRA系列模型核心原理核心基础知识从0到1使用LoRA模型进行AI绘画从0到1上手训练自己的LoRA模型LoRA变体模型介绍优质LoRA推荐等全维度解析文章正式发布码字不易欢迎大家多多点赞LoRA文章地址深入浅出完整解析LoRALow-Rank Adaptation模型核心基础知识12、深入浅出完整解析AIGC时代Transformer核心基础知识在AIGC时代中Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向成为AI技术架构大一统与多模态整合的关键核心基座大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析Transformer文章地址深入浅出完整解析AIGC时代Transformer核心基础知识13、最全面的AIGC面经《手把手教你成为AIGC算法工程师斩获AIGC算法offer2024年版》文章正式发布码字不易欢迎大家多多点赞AIGC面经文章地址手把手教你成为AIGC算法工程师斩获AIGC算法offer14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布码字不易欢迎大家多多点赞算法工程师三年面试五年模拟文章地址https://zhuanlan.zhihu.com/p/545374303《三年面试五年模拟》github项目地址希望大家能多多starhttps://github.com/WeThinkIn/Interview-for-Algorithm-Engineer15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识从0到1搭建AI绘画框架从0到1使用AI绘画框架的保姆级教程深入浅出介绍AI绘画框架的各模块功能深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布码字不易欢迎大家多多点赞AI绘画框架文章地址深入浅出完整解析主流AI绘画框架ComfyUI、Stable Diffusion WebUI、Fooocus核心基础知识16、GAN网络核心基础知识网络架构GAN经典变体模型经典应用场景GAN在AIGC时代的商业应用等全维度解析文章正式发布码字不易欢迎大家多多点赞GAN网络文章地址https://zhuanlan.zhihu.com/p/66315730617. AI算法工程师的《三年面试五年模拟》求职秘籍AIGC时代的算法工程师的求职面试秘籍持续更新中18. AIGC产业的深度思考与分析2023年3月21日微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示自从1980年首次看到图形用户界面graphical user interface以来以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。Rocky也认为AIGC及其生态会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期未来随着AIGC的全面落地和深度商用会深刻改变我们的工作、生活、学习以及交流方式各行各业都将被重新定义过程会非常有趣。那么在此基础上我们该如何更好的审视AIGC的未来我们该如何更好地拥抱AIGC引领的革新Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点希望能帮助各位读者对AIGC有一个全面的了解深入浅出全面解析AIGC时代核心价值与发展趋势2025年版