一文读懂Grounded SAM核心基础知识

发布时间：2026/6/17 18:28:54

写在前面欢迎大家关注Rocky的公众号WeThinkIn欢迎大家关注Rocky的知乎Rocky DingAIGC算法工程师/开发工程师面试面经秘籍分享WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家StarAIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源【三年面试五年模拟】AI算法工程师面试秘籍Rocky最新撰写AI AgentAI智能体的深入浅出全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识AIGC算法岗/开发岗面试面经交流社群涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源欢迎大家加入https://t.zsxq.com/33pJ0大家好我是Rocky。核心导读如果上一篇 Grounding DINO 的核心是“让语言调度视觉检测器”那么 Grounded SAM 这篇论文的核心就更进一步把语言驱动的检测、可提示分割、图像标注、生成式编辑、人体三维分析等能力装配成一套开放世界视觉工作流。Rocky 认为这篇工作真正值得读的地方不是它提出了一个全新的神经网络结构而是它提出了一种非常现实、也非常有产业意味的系统路线当单一模型还无法优雅覆盖所有视觉任务时不要执着于训练一个巨大的 unified model而是把已经足够强的 expert model 接起来让每个模型解决自己最擅长的子问题。这背后有一个很关键的判断视觉任务不像纯文本任务那样天然共享一种 token 表示。图像识别输出标签检测输出 box分割输出 mask人体分析输出 mesh视频跟踪输出轨迹图像生成输出像素。强行统一当然是长期方向但在工程落地上装配式系统往往比单体大模型更早形成可用生产力。Grounded SAM 的基础组合很简单Grounding DINO 负责根据自然语言生成开放词表检测框SAM 根据 box prompt 生成高质量 mask。这个组合把“文本到区域”的问题拆成两个子问题先定位再分割。随后系统可以继续接 RAM / BLIP 做自动标注接 Stable Diffusion 做可控图像编辑接 OSX 做 promptable 3D human motion analysis。论文给出的关键结果是Grounded-SAM 在 Segmentation in the WildSGinWzero-shot benchmark 上达到 48.7 mean APGrounded-HQ-SAM 进一步达到 49.6 mean AP超过 UNINEXT-H 的 42.1、OpenSeeD-L 的 36.7、ODISE-L 的 38.7、SAN-CLIP-ViT-L 的 41.4。这个结果说明装配式路线并不是“临时拼凑 demo”在开放世界分割任务上可以形成强基线。先看论文第一张图。它把 Grounded SAM 的定位讲得很直接用户用任意文本输入指定目标系统同时完成检测和分割并且可以继续接入其他开放世界模型完成更复杂任务。这张图是整篇论文的产品架构图。它真正表达的是Grounded SAM 不是单个视觉模型而是一条“语言 prompt - box - mask - downstream model”的视觉流水线。AIGC 和 Agent 系统里最缺的常常不是单点模型而是模型之间能稳定传递的中间表示。这里的 box 和 mask就是视觉工作流里的 API。问题背景作者到底想解决什么开放世界视觉任务的难点不只是类别开放还在于任务形态开放。真实应用里用户可能要做自动标注、目标擦除、对象替换、区域编辑、指定人物三维重建、文本提示跟踪、长尾物体分割。每个任务的输入输出都不同训练数据也不同。论文把当时开放世界视觉的路线分成三类。第一类是 task-specific vision models。识别、检测、分割、跟踪、生成、人体理解等模型在各自任务上很强但边界清楚很难自然扩展到复杂组合任务。第二类是 unified models。UNINEXT、OFA、LLaVA、InstructBLIP、Qwen-VL 等试图统一多任务或多模态能力。这条路线长期很重要但它受制于数据覆盖、任务格式、训练成本和性能折中。尤其开放词表分割这种任务既要知道文本指什么又要给出像素级 mask数据稀缺会成为瓶颈。第三类是 LLM as controller。HuggingGPT、Visual ChatGPT、LLaVA-Plus 等让大语言模型调用不同视觉工具。这条路线灵活但依赖 LLM 的规划能力、工具描述质量和调用可靠性。很多视觉子任务其实不需要先经过复杂语言推理直接用视觉模型流水线组合会更高效。Grounded SAM 选择的是第四种更工程化的表达foundation model assembly。也就是不一定让 LLM 做控制器也不强行训练一个全能模型而是把几个强 expert model 用清晰中间表示连接起来。路线优点短板Grounded SAM 的选择Task-specific model单任务性能强任务边界窄难组合复用专家模型能力Unified model长期愿景清晰数据和训练成本高性能易折中不从零统一所有任务LLM as controller灵活、可规划依赖 LLM 调度成本和可靠性不稳定不把 LLM 作为必要控制器Model assembly复用成熟能力解释性强工程快pipeline 误差传递接口设计重要Grounded SAM 的主路线Rocky 认为这个选择非常符合 AI 应用的产业周期。模型红利还在快速演进时硬训一个统一模型很容易被后来的基础模型吸收但把多个强模型组织成稳定工作流、形成数据闭环和产品闭环反而更容易产生阶段性价值。核心思路用一句主线串起来Grounded SAM 的主线可以概括成一句话用 Grounding DINO 把自然语言转成 box用 SAM 把 box 转成 mask再把 mask 作为视觉工作流的中间接口连接更多 expert model。这个主线有三个层次。第一层是 open-vocabulary detection and segmentation。SAM 会分割但 SAM 自身通常需要点、框、mask 等 promptGrounding DINO 会根据文本找目标但输出主要是 box。把两者接起来就得到“文本输入 - 目标定位 - 像素级 mask”的能力。第二层是 automatic dense image annotation。RAM 或 BLIP 可以从图像生成 tag / caption但不能给出准确 box 和 mask。把它们输出的标签交给 Grounded SAM就可以从“只有图像输入”走到“自动类别识别实例 box mask”。第三层是 downstream task assembly。Stable Diffusion inpainting 需要 mask 做可控编辑OSX 需要具体人物 box 做单人 mesh recovery。Grounded SAM 正好把语言意图转换成这些下游模型需要的空间条件。从技术本质看这篇论文其实在强调一个简单但强大的思想开放世界视觉系统的关键不是把所有能力塞进一个模型而是找到稳定的中间模态。在这里中间模态就是 box 和 mask。方法展开沿着论文原始逻辑拆解1. Preliminary每个专家模型只解决自己最擅长的子问题论文先列出 Grounded SAM 依赖的基础模型。SAM 负责分割Grounding DINO 负责开放词表检测OSX 负责 expressive whole-body mesh recoveryBLIP 负责图像描述RAM 负责图像标签识别Stable Diffusion 负责图像生成和 inpainting。这些模型的能力边界非常互补。模型擅长不擅长在 Grounded SAM 中的位置SAM根据点/框等 prompt 生成高质量 mask不知道文本指定哪个对象被 box prompt 调用的分割器Grounding DINO根据任意文本做开放词表检测输出 box不输出精细 mask文本到空间区域的定位器RAM识别图像中可能存在的通用类别标签不输出 box / mask自动标注 pipeline 的标签来源BLIP生成图像 caption不做对象级定位caption 到检测 prompt 的来源Stable Diffusion Inpainting根据 mask 和 prompt 做图像编辑不负责理解目标位置下游生成编辑器OSX单人全身 mesh recovery需要先确定目标人物 box下游人体分析器这张表背后有一个工程判断系统的能力不等于单个模型能力相加而取决于模型之间的接口是否稳定。Grounding DINO 输出的 box 可以直接作为 SAM 的 box promptSAM 输出的 mask 可以直接作为 Stable Diffusion inpainting 的条件Grounded SAM 输出的 human box 可以直接送给 OSX。这些接口越自然系统越容易成立。2. Grounded SAM把开放词表检测和可提示分割拆成两步开放词表分割最难的是同时解决两个问题文本语义对齐和像素级边界。直接训练一个 text-to-mask 模型需要大量高质量开放词表分割数据而这种数据成本非常高。Grounded SAM 的拆法是先让 Grounding DINO 解决相对更成熟的 text-to-box再让 SAM 解决 box-to-mask。这其实是一个典型的“难问题分解”。第一步输入 image 和 text promptGrounding DINO 生成与文本匹配的 boxes。第二步把这些 boxes 作为 SAM 的 box prompt生成对应对象或区域的 masks。第三步把 box、mask、phrase 作为后续任务的结构化输出。图 2 展示了常见类别和长尾类别上的检测分割效果包括类似 “Zale Horrida”“Gazania Linearis” 这样的长尾对象。这张图证明的是系统层能力只要 Grounding DINO 能用文本定位到目标SAM 就可以进一步把 box 转成高质量 mask。Rocky 认为这个方法的价值不是“SAM 加了文字能力”这么简单。更准确地说是 Grounded SAM 给 SAM 提供了一个自动 prompt 生成器。过去 SAM 很强但需要人类或别的系统告诉它分哪里Grounded SAM 让自然语言变成 SAM 可以消费的空间 prompt。3. RAM-Grounded-SAM从“用户给 prompt”到“系统自动生成 prompt”Grounded SAM 的基础形态仍然需要用户输入文本 prompt。RAM-Grounded-SAM 更进一步如果用户连 prompt 都不给系统能不能自己识别图像中有哪些类别再自动标注整张图论文的做法是引入 RAM。RAM 根据图像生成 tags例如 “airliner, plane, cargo ship, container”。这些 tags 再被送入 Grounded SAM由 Grounding DINO 找到对应 boxes再由 SAM 输出 masks。于是系统从“图像输入”自动得到“类别 box mask”的密集标注。图 3 的意义很产业化。自动标注是视觉模型训练中最贵、最脏、也最容易形成数据飞轮的环节。RAM-Grounded-SAM 并不能完全取代人工标注但它可以先生成候选类别、候选框和候选 mask再让人类做筛选和修正。这种 human-in-the-loop 标注系统往往比“全自动”更接近真实生产。这也是论文结尾说的 prospect通过 expert model assembly 降低标注成本再让人类筛选或微调错误预测最后把更高质量标注继续用于训练模型。换句话说Grounded SAM 的长期价值不是一次推理而是数据闭环。4. Grounded-SAM-SD让生成模型获得可控空间条件Stable Diffusion 很强但它本身不负责理解图像中哪个对象应该被编辑。图像编辑产品的关键矛盾常常是用户想用语言表达操作但模型需要 mask 才能精准 inpaint。Grounded-SAM-SD 的组合路线是用户输入文本或交互 promptGrounded SAM 定位并分割目标区域Stable Diffusion inpainting 根据 mask 和生成 prompt 修改目标对象、替换区域或生成新数据。图 4 说明了一个对 AIGC 产品非常关键的点生成模型要从“玩具式生成”进入“工作流式编辑”必须有可靠的控制层。mask 就是控制层。Grounded SAM 不是生成模型但它让生成模型更可控、更可交互、更接近生产工具。Rocky 认为未来很多 AIGC 产品的护城河不会只在扩散模型本身而在这些控制链路对象定位、mask 质量、局部编辑一致性、多轮修正、素材数据闭环。Grounded SAM 正是这条链路中的关键一环。5. Grounded-SAM-OSX让人体分析从“检测所有人”变成“按语言指定人”OSX 做 expressive whole-body mesh recovery需要先得到人的检测框再做单人 mesh recovery。传统流程通常检测所有人然后逐个分析。但真实场景里用户经常想指定某个特定人例如“穿粉色衣服的人”“左边拿包的人”。Grounded-SAM-OSX 用 Grounded SAM 先根据文本 prompt 找到特定人物 box再把这个 box 交给 OSX 做对应人的 3D mesh recovery。这张图其实把 Grounded SAM 的能力边界又扩了一层它不仅能做对象分割还能成为更复杂人体理解任务的入口。对于安防、运动分析、虚拟人、影视制作、具身智能等场景“指定哪个人”往往比“图里有没有人”更重要。实验与证据结果能支撑到什么程度论文用 SGinWSegmentation in the Wildzero-shot benchmark 验证 Grounded SAM。SGinW 包含 25 个 zero-shot in-the-wild 数据集覆盖 Elephants、Hand-Metal、Watermelon、House-Parts、Brain-Tumor、Electric-Shaver、Phones、Ginger-Garlic 等多种长尾和真实场景分割任务。Table 1 的核心结果如下。方法mean SGinWRocky 解读X-Decoder-T22.6unified open-set segmentation 早期基线X-Decoder-L-IN22K26.6更大数据带来提升但仍有限X-Decoder-B27.7中等规模基线X-Decoder-L32.2相比小模型提升明显OpenSeeD-L36.7open-set segmentation 强基线ODISE-L38.7生成式/扩散相关语义能力带来提升SAN-CLIP-ViT-L41.4CLIP 语义侧增强后更强UNINEXT-H42.1unified model 代表性强基线Grounded-SAM (LH)46.0Grounding DINO-L SAM-HugeGrounded-SAM (BH)48.7Grounding DINO-Base SAM-Huge论文摘要主结果Grounded-HQ-SAM (BH)49.6换用 HQ-SAM 后进一步提升这个结果有两个值得注意的点。第一装配式系统超过了很多 unified segmentation 模型。这说明在开放世界分割任务上“强检测器强分割器”的组合可以很有效。它不一定更优雅但很实用。第二Grounded-SAM (BH) 反而高于 Grounded-SAM (LH) 的 mean SGinW。论文没有在正文展开解释但从结果看模型规模更大不必然带来所有野外分割任务的平均提升。这再次提醒我们开放世界 benchmark 的结果受检测器、分割器、类别 prompt、阈值、数据分布共同影响不能简单把“更大模型”当作万能解。从单项任务看Grounded-SAM 也不是每一列都赢。例如 UNINEXT-H 在 Hand 上达到 93.7SAN-CLIP-ViT-L 在 Garbage 上达到 46.5OpenSeeD-L 在 Puppies 上达到 74.6。Grounded SAM 的强项是整体均值和大量任务的稳健性而不是每个子任务都压倒性领先。Rocky 认为这个实验足以支撑论文的核心主张model assembly 是开放世界视觉任务的强工程路线。但它不能证明 Grounded SAM 是所有分割任务的终局模型也不能证明 pipeline 一定优于端到端统一模型。更准确的结论是在当前数据和模型生态下装配式路线可以用更低训练成本、更强解释性、更快组合速度得到非常有竞争力的 zero-shot segmentation 能力。这篇工作的边界与可复现性第一Grounded SAM 的能力上限受 Grounding DINO 和 SAM 两端共同限制。Grounding DINO 找不到目标SAM 就没有正确 boxSAM 的 mask 对 box prompt 不稳下游编辑和标注也会受影响。装配式系统的优点是可解释缺点是误差会沿 pipeline 传递。第二开放词表分割不是完整语义理解。Grounded SAM 能根据 prompt 生成 mask但它不等于理解复杂关系、动作、事件和因果。对于“正在把杯子递给孩子的人”“刚从车里出来的乘客”这类动态语义单帧 box mask pipeline 仍有明显边界。第三SGinW 是重要证据但不是产品可靠性证明。25 个 zero-shot 数据集能反映开放世界泛化但真实产品还要评估 prompt 稳定性、阈值敏感性、误检/漏检成本、延迟、批处理成本、人机协同标注效率。第四论文更像系统报告而不是完整算法论文。它的创新主要在 model assembly 和应用扩展不是提出新的 loss、训练范式或统一架构。对研究者来说它的“论文新颖性”可能不如 Grounding DINO但对工程和产品来说它的“系统价值”反而非常高。第五可复现性取决于多个外部模型版本。Grounding DINO、SAM、HQ-SAM、RAM、Stable Diffusion、OSX 等组件的 checkpoint、阈值、prompt 模板和预处理都会影响结果。复现 Grounded SAM不只是跑一个模型而是复现一条 pipeline。如果继续研究/落地应该关注什么第一接口标准化。Grounded SAM 的核心接口是 text、box、mask、tag、caption、image。未来如果视觉 Agent 要规模化必须把这些中间表示标准化坐标系、置信度、mask 格式、类别同义词、实例 ID、时间轨迹、可解释日志都要成为稳定协议。第二数据闭环。自动标注不是为了炫技而是为了更便宜地产生训练数据。最有价值的系统形态是模型先自动生成候选标注人类快速筛选修正修正数据继续训练检测器、分割器或行业模型。这个闭环一旦跑通才会形成真正的行业壁垒。第三LLM 控制层。论文没有把 LLM 作为必要控制器但它也指出装配式 CV API 很容易被 LLM 通过语言 prompt 调用。Rocky 认为未来更自然的架构是LLM 负责任务拆解和工具选择Grounded SAM 负责视觉定位与 mask 生成生成/跟踪/分析模型负责后续动作。第四行业长尾适配。Grounded SAM 对长尾对象有展示但行业场景仍需要专门优化。例如工业缺陷、医疗影像、遥感目标、农业病虫害、仓储零件等任务中类别语义、视觉形态和错误成本都更复杂。通用 Grounded SAM 适合作为冷启动不能直接等同于行业可用系统。第五从静态图像走向视频和具身智能。论文提到可以接 tracking models如 DEVA做基于文本 prompt 的目标跟踪。这个方向非常关键。因为现实世界不是单张图而是连续时间中的对象、状态和动作。Grounded SAM 如果能稳定产生跨帧 mask 和 object identity就会更接近机器人和视频 Agent 的基础能力。术语与概念速查概念简明解释在本文中的作用Grounded SAMGrounding DINO SAM 的开放词表分割流水线本文主系统Grounding DINO根据任意文本做开放词表检测text-to-boxSAM根据 prompt 生成任意对象 maskbox-to-maskRAMRecognize Anything Model图像标签识别模型image-to-tagsBLIP图像 caption / vision-language modelimage-to-captionStable Diffusion Inpainting根据 mask 和 prompt 做局部生成编辑mask-to-edited-imageOSX单图 expressive whole-body mesh recoveryhuman-box-to-3D-meshSGinW / SegInWSegmentation in the Wild benchmarkzero-shot 分割评估HQ-SAM更高质量 mask 的 SAM 变体提升 mask 质量Model Assembly把多个专家模型按接口组合本文核心路线LLM as Controller让大语言模型调度工具本文对照路线拓展思考值得继续扩展研究与思考的创新点Grounded SAM 最重要的启发是它把“模型能力”重新解释成“可组合能力”。过去我们习惯问一个模型能做多少任务Grounded SAM 问的是如果每个专家模型都已经足够强怎样用最少的训练、最清晰的接口把它们装配成更多任务论文结尾提到一个公式如果以前n nn个模型只能做n nn个任务那么考虑所有模型组合理论上可以做2 n − 1 2^n-12n−1个任务。这个说法当然带有理想化成分因为不是任意模型组合都成立接口、误差和任务定义都会限制组合空间。但它抓住了一个趋势AI 系统的能力增长不只来自单模型 scaling也来自工具组合和工作流设计。Rocky 认为这篇论文放在 2024 年看最像一个开放世界视觉 Agent 的早期雏形。它还没有完整的规划、记忆、多轮反馈和自动错误修正但它已经把视觉任务拆成可调用模块识别、定位、分割、编辑、人体分析、自动标注。这就是 Agent 化的前提。对创业者和产品团队来说Grounded SAM 的启发不是“照抄一个 demo”而是建立自己的行业视觉工作流你的用户输入是什么中间表示是什么哪个模型负责定位哪个模型负责精修哪个环节需要人类确认哪些错误会回流成训练数据这些问题比单纯换一个更大的模型更重要。最后回到本文的核心判断Grounded SAM 的本质不是 SAM 的一个插件而是开放世界视觉系统的装配式路线。它告诉我们在基础模型快速演进的阶段真正有价值的工程能力往往不是把所有东西揉成一个黑盒而是把强模型变成可解释、可替换、可闭环的生产系统。推荐阅读Rocky一直在运营技术交流群WeThinkIn-技术交流群这个群的初心主要聚焦于技术话题的讨论与学习包括但不限于算法开发竞赛科研以及工作求职等。群里有很多人工智能行业的大牛欢迎大家入群一起学习交流请添加小助手微信Jarvis8866拉你进群1. 深入浅出完整解析AI AgentAI智能体的核心基础知识2025年可以说是AI Agent全面落地应用的元年因此Rocky在持续撰写对AI Agent的全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识和Rocky一起学习探究扩散模型的本质原理与和核心基础知识同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识3. 深入浅出完整解析FLUX.2、Seedream即梦、Z-image、GLM-Image核心基础知识https://zhuanlan.zhihu.com/p/19751746910491895624. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识5. 深入浅出完整解析DeepSeek系列核心基础知识深入浅出完整解析DeepSeek系列核心基础知识6、Sora等AI视频大模型的核心原理核心基础知识网络结构经典应用场景从0到1搭建使用AI视频大模型从0到1训练自己的AI视频大模型AI视频大模型性能测评AI视频领域未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Sora等AI视频大模型文章地址深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识7、Stable Diffusion 3和FLUX.1核心原理核心基础知识网络结构从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion 3和FLUX.1文章地址深入浅出完整解析Stable Diffusion 3SD 3和FLUX.1系列核心基础知识8、Stable Diffusion XL核心基础知识网络结构从0到1搭建使用Stable Diffusion XL进行AI绘画从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型AI绘画领域的未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion XL文章地址深入浅出完整解析Stable Diffusion XLSDXL核心基础知识9、Stable Diffusion 1.x-2.x核心原理核心基础知识网络结构经典应用场景从0到1搭建使用Stable Diffusion进行AI绘画从0到1上手使用Stable Diffusion训练自己的AI绘画模型Stable Diffusion性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion文章地址深入浅出完整解析Stable DiffusionSD核心基础知识10、ControlNet核心基础知识核心网络结构从0到1使用ControlNet进行AI绘画从0到1训练自己的ControlNet模型从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布码字不易欢迎大家多多点赞ControlNet文章地址深入浅出完整解析ControlNet核心基础知识11、LoRA系列模型核心原理核心基础知识从0到1使用LoRA模型进行AI绘画从0到1上手训练自己的LoRA模型LoRA变体模型介绍优质LoRA推荐等全维度解析文章正式发布码字不易欢迎大家多多点赞LoRA文章地址深入浅出完整解析LoRALow-Rank Adaptation模型核心基础知识12、深入浅出完整解析AIGC时代Transformer核心基础知识在AIGC时代中Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向成为AI技术架构大一统与多模态整合的关键核心基座大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析Transformer文章地址深入浅出完整解析AIGC时代Transformer核心基础知识13、最全面的AIGC面经《手把手教你成为AIGC算法工程师斩获AIGC算法offer2024年版》文章正式发布码字不易欢迎大家多多点赞AIGC面经文章地址手把手教你成为AIGC算法工程师斩获AIGC算法offer14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布码字不易欢迎大家多多点赞算法工程师三年面试五年模拟文章地址https://zhuanlan.zhihu.com/p/545374303《三年面试五年模拟》github项目地址希望大家能多多starhttps://github.com/WeThinkIn/Interview-for-Algorithm-Engineer15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识从0到1搭建AI绘画框架从0到1使用AI绘画框架的保姆级教程深入浅出介绍AI绘画框架的各模块功能深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布码字不易欢迎大家多多点赞AI绘画框架文章地址深入浅出完整解析主流AI绘画框架ComfyUI、Stable Diffusion WebUI、Fooocus核心基础知识16、GAN网络核心基础知识网络架构GAN经典变体模型经典应用场景GAN在AIGC时代的商业应用等全维度解析文章正式发布码字不易欢迎大家多多点赞GAN网络文章地址https://zhuanlan.zhihu.com/p/66315730617. AI算法工程师的《三年面试五年模拟》求职秘籍AIGC时代的算法工程师的求职面试秘籍持续更新中18. AIGC产业的深度思考与分析2023年3月21日微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示自从1980年首次看到图形用户界面graphical user interface以来以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。Rocky也认为AIGC及其生态会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期未来随着AIGC的全面落地和深度商用会深刻改变我们的工作、生活、学习以及交流方式各行各业都将被重新定义过程会非常有趣。那么在此基础上我们该如何更好的审视AIGC的未来我们该如何更好地拥抱AIGC引领的革新Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点希望能帮助各位读者对AIGC有一个全面的了解深入浅出全面解析AIGC时代核心价值与发展趋势2025年版

LXC容器技术解析：从命名空间、cgroups到嵌入式网络实战

1. 项目概述：从零开始理解LXC容器与嵌入式网络实战在嵌入式系统开发，尤其是像NXP QorIQ LS1046A这样的高性能多核处理器平台上，我们常常面临一个挑战：如何在同一硬件上高效、安全地运行多个独立的应用或服务？传统的虚…

2026/6/17 18:28:31 阅读更多

ZigBee ZCL组与场景API实战：从核心原理到嵌入式开发避坑指南

1. 从零到一：理解ZigBee ZCL中的组与场景如果你正在开发基于ZigBee的智能家居产品，比如一个智能开关面板或者一个网关，你肯定会遇到这样的需求：如何一键关闭家里所有的灯？又如何一键让客厅的灯调到50%亮度、窗帘关闭、…

2026/6/17 18:27:28 阅读更多

USDPAA LPM IPFwd：用户空间高性能IPv4转发实现与优化

1. 项目概述：当高性能网络转发遇上用户空间加速在网络处理器和嵌入式网关的开发中，数据包转发性能是衡量系统能力的核心指标。传统的Linux内核网络协议栈虽然功能完善，但其复杂的处理路径和频繁的内核态/用户态切换，往往成为吞吐量…

2026/6/17 18:26:20 阅读更多

【意识漩涡：主观体验的物理起源-大脑不具备计算能力却能涌现意识】

The Vortex of Consciousness: The Physical Origin of Subjective Experience 作者：孙兆乐单位：深圳市相对论科技有限公司广东深圳 518000 通讯邮箱：e.mcc@163.com https://doi.org/10.5281/zenodo.20361731 摘要「当前主流意识理论普遍将大脑视作生物计算机，本文提出意…

2026/6/17 20:04:13 阅读更多

Redis锁和数据库锁区别和联系

Redis锁和数据库锁是分布式系统中实现并发控制的两类核心机制，二者核心目标都是保证共享资源访问的互斥性与数据一致性，底层都依赖原子操作实现锁的获取与释放，但在实现原理、性能特性等方面存在显著差异。一、核心联系二者的核心设计目标高度…

2026/6/17 20:04:13 阅读更多

如何快速解决OBS Studio启动崩溃问题：从日志分析到系统优化的完整指南

如何快速解决OBS Studio启动崩溃问题：从日志分析到系统优化的完整指南【免费下载链接】obs-studio OBS Studio - Free and open source software for live streaming and screen recording 项目地址: https://gitcode.com/GitHub_Trending/ob/obs-studio OB…

2026/6/17 20:04:13 阅读更多

如何在Windows 11上完美运行安卓应用：WSABuilds完整安装指南

如何在Windows 11上完美运行安卓应用：WSABuilds完整安装指南【免费下载链接】WSABuilds Run Windows Subsystem For Android on your Windows 10 and Windows 11 PC using prebuilt binaries with Google Play Store (MindTheGapps) and/or Magisk or KernelSU (ro…

2026/6/17 20:03:50 阅读更多

OpenCore Legacy Patcher深度解析：老款Mac硬件兼容性完全指南

OpenCore Legacy Patcher深度解析：老款Mac硬件兼容性完全指南【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher OpenCore Legacy Patcher是一款革命…

2026/6/17 20:03:50 阅读更多

SH9自指螺旋拓扑框架与拓扑场论的深层融合：四维统一拓扑规范场论（世毫九实验室原创研究）

SH9自指螺旋拓扑框架与拓扑场论的深层融合：四维统一拓扑规范场论（世毫九实验室原创研究） 作者：方见华单位：世毫九实验室本文基于拓扑场论（Topological Field Theory, TFT）的标准数学体系与自指…

2026/6/17 20:03:08 阅读更多

赛马娘DMM版中文汉化与性能优化全攻略：告别日文界面与卡顿烦恼

赛马娘DMM版中文汉化与性能优化全攻略：告别日文界面与卡顿烦恼【免费下载链接】umamusume-localify Localify "ウマ娘: Pretty Derby" DMM client 项目地址: https://gitcode.com/gh_mirrors/um/umamusume-localify 还在为赛马娘DMM版的日文界面而…

2026/6/17 0:00:21 阅读更多

终极指南：3分钟学会用uesave编辑虚幻引擎游戏存档

终极指南：3分钟学会用uesave编辑虚幻引擎游戏存档【免费下载链接】uesave Rust library and CLI to read and write Unreal Engine save files 项目地址: https://gitcode.com/gh_mirrors/ue/uesave 你是否曾经因为游戏存档损坏而束手无策？或者想…

2026/6/17 0:00:42 阅读更多

GPT-4驱动的Python地理可视化四库实战指南

1. 项目概述：当大模型遇上地理信息，四款Python地图库的实战筛选你有没有试过让GPT-4直接画一张带标注的行政区划图？我试过——它能用ASCII字符拼出个“中国轮廓”，也能在Markdown里用emoji堆个“北京→上海→广州”的箭头链&#…

2026/6/17 0:02:28 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/17 0:34:13 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/17 0:34:15 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/17 0:34:22 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/17 11:00:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/17 11:00:26 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/17 11:00:22 阅读更多

相关文章

LXC容器技术解析：从命名空间、cgroups到嵌入式网络实战

ZigBee ZCL组与场景API实战：从核心原理到嵌入式开发避坑指南

USDPAA LPM IPFwd：用户空间高性能IPv4转发实现与优化

【意识漩涡：主观体验的物理起源-大脑不具备计算能力却能涌现意识】

Redis锁 和 数据库锁 区别和联系

如何快速解决OBS Studio启动崩溃问题：从日志分析到系统优化的完整指南

如何在Windows 11上完美运行安卓应用：WSABuilds完整安装指南

OpenCore Legacy Patcher深度解析：老款Mac硬件兼容性完全指南

SH9自指螺旋拓扑框架与拓扑场论的深层融合：四维统一拓扑规范场论（世毫九实验室原创研究）

赛马娘DMM版中文汉化与性能优化全攻略：告别日文界面与卡顿烦恼

终极指南：3分钟学会用uesave编辑虚幻引擎游戏存档

GPT-4驱动的Python地理可视化四库实战指南

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Redis锁和数据库锁区别和联系