OpenVINO™ 2026.2: 更多模型,更快 GPU,更强智能体 作者武卓OpenVINO™ 2026.2 正式发布。AI 的浪潮从未停下脚步我们也同样持续向前。本次发布带来了更广泛的模型支持、进一步优化的 GPU 能力可降低模型加载时间与内存占用并对 OpenVINO™ 模型服务器OpenVINO™ Model Server 进行了更新。每一次版本迭代都是为了让 AI 部署在英特尔硬件上变得更快、更高效、更易用。无论你正在优化多模态流水线、通过 Model Server 扩展推理服务还是探索最新模型OpenVINO™ 2026.2 都能为你的开发工作带来新的助力。下面让我们一起看看本次版本有哪些亮点。面向更多应用场景的新模型支持本次新版本带来了覆盖计算机视觉、代码生成和语言处理等领域的广泛新模型支持。来自Google DeepMind的Gemma 4 E2B and E4B模型是 Gemma 4 架构的高效变体专为资源受限环境而设计同时保留了 Gemma 系列标志性的多模态能力。E2B20 亿参数和 E4B40 亿参数模型让开发者可以根据性能与计算资源需求灵活选择合适的平衡点非常适合部署在内存和算力有限、但仍需要高质量推理能力的边缘场景中。在 CPU 以及GPU上新增的模型支持:Qwen-3-Coder-Next是阿里巴巴推出的代码智能体模型基于混合 MoE 架构构建在总计 800 亿参数中仅激活 30 亿参数。它能够以更低的推理成本提供具有竞争力的代码生成性能。Qwen3.5 和 Qwen3.6延续了阿里巴巴 Qwen 系列的快速扩展。Qwen3.5 聚焦智能体工作流并具备原生多模态能力Qwen3.6 则专注于代码生成和智能体任务在工作流、推理能力方面进一步提升并新增了思考过程保留功能。Trinity-mini兼具强大的推理能力与高效的推理性能适用于从企业级应用到科研工作负载等多种场景。来自 Liquid AI 的LFM2-24B-A2B、LFM2-8B-A1B 和 LFM2.5-350M是面向边缘优先场景设计的混合基础模型具备快速推理和低内存占用的特点。这些不同参数规模的变体可以匹配不同的部署需求同时保留高效架构使 LFM2 非常适合资源敏感型环境。在 CPU上新增的模型支持:YOLO26是 Ultralytics 推出的最新模型支持目标检测、实例分割、姿态估计等任务面向边缘环境打造适用于机器人、工业自动化等应用场景。在 GPU上新增的模型支持:Gemma 431B 和 26B-A4B代表了 Google DeepMind Gemma 4 架构中更大规模的变体为高要求应用提供更强能力。31B 模型具备强大的推理与生成能力而 26B-A4B 变体则通过优化参数分配在性能与效率之间取得更好的平衡。GPT-OSS 120B在本次新版本中将推理扩展到支持 GPU上运行。120B 模型可为最具挑战性的应用场景提供大规模语言模型推理能力。进一步释放 GPU 性能本次发布对模型在 GPU 上的运行方式进行了改进重点提升内存效率并减少影响真实 AI 部署速度的瓶颈。GPU 现已支持 INT4 KV Cache 压缩。当 KV Cache 规模较大时例如输入提示词超过 32K tokens 的长上下文场景该能力可以显著降低内存占用。通过将推理过程中使用的 KV Cache 压缩到 INT4 精度开发者可以更轻松地运行更大的模型或处理更长的上下文而不容易受到内存限制的影响。在 OpenVINO™ GenAI 中使用缓存 blob 时GPU 上的模型加载时间也得到了显著优化。在多阶段 AI 流水线中加载多个模型的开销可能成为主要瓶颈之一尤其是在智能体工作流中多个模型往往需要按顺序初始化。该改进意味着流水线可以更快运行让应用保持更好的响应性而不是长时间等待模型初始化。作为预览功能我们还通过按通道 INT8 KV Cache 量化增强了 CPU 和 GPU 上的 XAttention 精度。相比按 token 的 INT8 KV Cache 量化该方式在启用 XAttention 时可与未启用 XAttention 时默认的按通道 INT8 KV Cache 量化保持一致。这一改进确保了不同 XAttention 配置下的精度表现更加统一同时保留 XAttention 的核心优势即降低首个 token 生成延迟。OpenVINO™模型服务器 OpenVINO™ Model Server 更新OpenVINO™ 模型服务器(OVMS)在本次新版本中继续扩充对智能体以及实时AI应用场景的支持。工具调用支持现已扩展到 Qwen 3.5 和 Qwen 3.6 模型使其可用于构建智能体应用。工具调用让模型不只是生成文本还能够执行操作、查询外部系统并进行多步骤推理。支持更多模型意味着开发者在构建具备智能体能力的不同应用场景时可以拥有更多选择和更高灵活性。语音转文本现已新增流式转录支持可降低实时语音应用的延迟。它不再需要等待整段音频处理完成后才返回结果而是可以在结果生成时持续输出从而支持实时字幕、对话式 AI 等对响应速度要求很高的应用场景。小结OpenVINO™ 2026.2的发布带来了更广泛的模型覆盖、更智能的 GPU 执行能力以及面向智能体和语音应用的 OVMS 更新。随着 AI 应用通过多模型流水线变得日益复杂并对实时性能与资源效率提出更高要求本次发布进一步增强了 OpenVINO 应对这些需求的能力。想进一步了解 OpenVINO欢迎参加我们本年度的多场OpenVINO DevCon中国系列工作坊活动。点击链接了解更多信息并进行注册OpenVINO™ DEVCON 中国 系列工作坊2026。声明与免责声明*其他名称和品牌可能归其各自所有者所有。性能因使用场景、配置及其他因素而异。更多信息请参阅 性能指标网站。性能结果基于配置中所示日期的测试可能未反映所有公开可用的更新。任何产品或组件都无法做到绝对安全。你的成本和结果可能会有所不同。英特尔技术可能需要启用相应硬件、软件或服务激活。© Intel Corporation。Intel、Intel 标识及其他 Intel 标志均为 Intel Corporation 或其子公司的商标。