AI 应用架构设计模式：从原型到生产级系统

发布时间：2026/5/27 23:51:20

AI 应用架构设计模式从原型到生产级系统前言构建一个 AI 应用原型很容易但将其打造成生产级别的系统却需要深思熟虑的架构设计。我之前经历过多个 AI 项目从简单的问答机器人到复杂的 Agent 系统对 AI 应用架构有了一些经验总结。今天分享一些常见的 AI 应用架构模式以及如何根据场景选择合适的架构。常见的 AI 应用架构模式 1直接调用Direct Call最简单的架构直接调用 LLM APIclass DirectLLMService: 直接调用模式 def __init__(self, api_key: str): self.client OpenAI(api_keyapi_key) def chat(self, prompt: str, system_prompt: str None) - str: messages [] if system_prompt: messages.append({role: system, content: system_prompt}) messages.append({role: user, content: prompt}) response self.client.chat.completions.create( modelgpt-4, messagesmessages, temperature0.7 ) return response.choices[0].message.content适用场景简单问答一次性任务快速原型优点简单、快速缺点无法使用外部工具、上下文有限模式 2RAG 架构Retrieval-Augmented Generation结合知识库class RAGApplication: RAG 架构 def __init__(self, llm, vector_store, embedding_model): self.llm llm self.vector_store vector_store self.embedding_model embedding_model def query(self, question: str) - str: # 1. 检索相关文档 query_embedding self.embedding_model.encode(question) docs self.vector_store.search(query_embedding, top_k5) # 2. 构建上下文 context \n\n.join([doc.content for doc in docs]) prompt f基于以下内容回答问题\n\n{context}\n\n问题{question} # 3. 生成回答 return self.llm.chat(prompt)适用场景知识库问答文档理解需要最新信息优点利用外部知识、减少幻觉缺点依赖检索质量、延迟增加模式 3Agent 架构带有工具调用能力的自主 Agentclass ToolUsingAgent: Agent 架构 def __init__(self, llm, tools: list): self.llm llm self.tools {t.name: t for t in tools} self.max_iterations 10 def run(self, task: str) - str: messages [{role: user, content: task}] for _ in range(self.max_iterations): # 1. LLM 决定行动 response self.llm.chat( messagesmessages, toolsself._get_tools_schema() ) # 2. 检查是否需要工具调用 if not response.tool_calls: return response.content # 3. 执行工具 for call in response.tool_calls: result self.tools[call.name].execute(**call.arguments) messages.append({ role: tool, tool_call_id: call.id, content: str(result) }) return 任务超时适用场景复杂多步骤任务需要外部系统交互自主决策优点能力强大、可处理复杂任务缺点不确定性强、调试困难生产级架构组件缓存层from functools import wraps import hashlib import json import redis class SemanticCache: 语义缓存 def __init__(self, redis_client, embedding_model, threshold0.95): self.redis redis_client self.embedding_model embedding_model self.threshold threshold def get(self, query: str) - Optional[str]: 尝试从缓存获取 query_hash self._hash(query) cached self.redis.get(fcache:{query_hash}) if cached: return cached return None def set(self, query: str, response: str): 缓存响应 query_hash self._hash(query) self.redis.setex(fcache:{query_hash}, 3600, response) def _hash(self, text: str) - str: return hashlib.md5(text.encode()).hexdigest() class LLMCache: LLM 响应缓存 def __init__(self, cache: SemanticCache): self.cache cache def cached_completion(self, prompt: str, **kwargs) - str: 带缓存的 completion # 检查缓存 cached self.cache.get(prompt) if cached: return cached # 调用 LLM response openai.ChatCompletion.create(promptprompt, **kwargs) result response.choices[0].message.content # 缓存结果 self.cache.set(prompt, result) return result限流与回退import time from collections import defaultdict class RateLimiter: 限流器 def __init__(self, max_requests: int, window_seconds: int): self.max_requests max_requests self.window_seconds window_seconds self.requests defaultdict(list) def is_allowed(self, user_id: str) - bool: now time.time() window_start now - self.window_seconds # 清理过期请求 self.requests[user_id] [ t for t in self.requests[user_id] if t window_start ] # 检查限制 if len(self.requests[user_id]) self.max_requests: return False self.requests[user_id].append(now) return True class ModelFallback: 模型回退 def __init__(self): self.models [ gpt-4, gpt-4-turbo, gpt-3.5-turbo ] def chat_with_fallback(self, prompt: str) - str: for model in self.models: try: response openai.ChatCompletion.create( modelmodel, messages[{role: user, content: prompt}] ) return response.choices[0].message.content except Exception as e: print(fModel {model} failed: {e}) continue raise Exception(All models failed)异步处理import asyncio from typing import List class AsyncLLMWrapper: 异步 LLM 包装器 def __init__(self): self.semaphore asyncio.Semaphore(10) # 最大并发 10 async def achat(self, prompt: str, system: str None) - str: 异步聊天 async with self.semaphore: loop asyncio.get_event_loop() return await loop.run_in_executor( None, lambda: self._sync_chat(prompt, system) ) async def achat_batch(self, prompts: List[str]) - List[str]: 批量异步聊天 tasks [self.achat(p) for p in prompts] return await asyncio.gather(*tasks) def _sync_chat(self, prompt: str, system: str None) - str: messages [] if system: messages.append({role: system, content: system}) messages.append({role: user, content: prompt}) response openai.ChatCompletion.create( modelgpt-4, messagesmessages ) return response.choices[0].message.content完整生产架构┌─────────────────────────────────────────────────────────────┐ │ API Gateway │ │ (认证、限流、日志) │ ├─────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ 缓存层 │ │ 限流层 │ │ 监控层 │ │ │ │ Redis │ │ Rate Limit │ │ Metrics │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ │ │ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ Application Layer │ │ │ │ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ │ │ │ │ │ QA │ │ RAG │ │ Agent │ │ 其他 │ │ │ │ │ └────────┘ └────────┘ └────────┘ └────────┘ │ │ │ └──────────────────────────────────────────────────────┘ │ │ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ LLM Layer │ │ │ │ ┌────────┐ ┌────────┐ ┌────────┐ │ │ │ │ │ OpenAI │ │ Claude │ │ 本地 │ │ │ │ │ └────────┘ └────────┘ └────────┘ │ │ │ └──────────────────────────────────────────────────────┘ │ │ │ │ ┌──────────────────────────────────────────────────────┐ │ │ │ External Services │ │ │ │ ┌────────┐ ┌────────┐ ┌────────┐ │ │ │ │ │Vector │ │ API │ │ Database│ │ │ │ │ │Store │ │服务 │ │ │ │ │ │ │ └────────┘ └────────┘ └────────┘ │ │ │ └──────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────┘实际应用代码class AIApplication: 完整的 AI 应用 def __init__(self, config: dict): # 初始化各组件 self.llm self._init_llm(config[llm]) self.vector_store self._init_vector_store(config[vector_store]) self.cache self._init_cache(config[cache]) self.rate_limiter RateLimiter(**config[rate_limit]) # 初始化应用层 self.qa_service QAService(self.llm) self.rag_service RAGService(self.llm, self.vector_store) self.agent_service AgentService(self.llm, self._init_tools()) async def handle_request(self, request: dict) - dict: 处理请求 user_id request[user_id] # 1. 限流检查 if not self.rate_limiter.is_allowed(user_id): return {error: Rate limit exceeded, code: 429} # 2. 路由 request_type request[type] if request_type qa: result await self.qa_service.answer(request[question]) elif request_type rag: result await self.rag_service.query(request[query]) elif request_type agent: result await self.agent_service.run(request[task]) else: result {error: Unknown request type} # 3. 记录日志 await self._log_request(request, result) return result def _init_llm(self, config: dict) - LLM: 初始化 LLM if config[provider] openai: return OpenAILLM(api_keyconfig[api_key]) elif config[provider] anthropic: return AnthropicLLM(api_keyconfig[api_key]) else: return LocalLLM(config[model_path])监控与可观测性from prometheus_client import Counter, Histogram, Gauge import time # 指标定义 request_count Counter(llm_requests_total, Total LLM requests, [model, status]) request_duration Histogram(llm_request_duration_seconds, Request duration) active_requests Gauge(llm_active_requests, Active requests) cache_hit_rate Gauge(llm_cache_hit_rate, Cache hit rate) class MonitoredLLM: 带监控的 LLM def __init__(self, llm): self.llm llm def chat(self, prompt: str) - str: model self.llm.model_name active_requests.inc() start time.time() try: result self.llm.chat(prompt) request_count.labels(modelmodel, statussuccess).inc() return result except Exception as e: request_count.labels(modelmodel, statuserror).inc() raise finally: request_duration.observe(time.time() - start) active_requests.dec()部署架构Docker 部署FROM python:3.11-slim WORKDIR /app COPY requirements.txt . RUN pip install -r requirements.txt COPY . . CMD [uvicorn, main:app, --host, 0.0.0.0, --port, 8000]Docker Composeversion: 3.8 services: api: build: . ports: - 8000:8000 environment: - OPENAI_API_KEY${OPENAI_API_KEY} - REDIS_URLredis://redis:6379 depends_on: - redis - qdrant redis: image: redis:7-alpine ports: - 6379:6379 qdrant: image: qdrant/qdrant ports: - 6333:6333 volumes: - qdrant_data:/qdrant/storage volumes: qdrant_data:总结构建生产级 AI 应用需要考虑架构选择简单问答用 Direct CallRAG 用于知识库Agent 用于复杂任务可靠性缓存、限流、回退机制可观测性完善的日志、监控、追踪扩展性异步处理、批量优化关键要点从简单架构开始根据需求演进生产环境必须有监控和限流缓存可以显著降低成本和延迟异步处理提升吞吐量

如何在Android手机上运行Windows应用：Mobox触控映射终极指南

如何在Android手机上运行Windows应用：Mobox触控映射终极指南【免费下载链接】mobox 项目地址: https://gitcode.com/GitHub_Trending/mo/mobox 想在Android手机上流畅运行Windows应用却苦于触控操作不便？Mobox项目为你带来了完美的解决方案&…

2026/5/27 23:50:59 阅读更多

4款降AI软件实测红黑榜：2026年5月哪个能真的去AI痕迹

2026年毕业季过半，但还有大量同学的论文卡在AIGC检测这一关。知网在年初做了一次算法升级，维普、万方也在跟进，检测变得越来越严。论文一个字没改，去年12月查AI率18%能过，今年再查变成32%，很多同学就是栽在…

2026/5/27 23:49:58 阅读更多

每年写1000多篇文章，维护962个开源项目，他成了AI技术圈顶流！

如果你关注AI技术圈的话，应该会知道Simon Willison（下文简称西蒙）。他的博客的文章在 Hacker News、Reddit，GitHub 社区经常被引用或讨论，影响力经常排名第一，可以说是遥遥领先。西蒙的博客有个非常显著的特…

2026/5/27 23:49:18 阅读更多

Spring AI 和 LangChain4j 中文档处理功能对比

前面几篇文章分别介绍了 Spring AI 和 LangChain4j 在 RAG 文档处理各环节的支持——文档读取、解析、分段、清洗、元数据加工。本文将这些知识点汇总到一个完整的对比框架中，以《仙逆》知识库构建为参考场景，帮助你在项目起始阶段快速判断哪个框架更适合…

2026/5/28 2:57:53 阅读更多

面试官：Agent 的四大核心组件，你能说清楚吗？

面试现场 Agent 有哪几个核心组件？ 四大件：感知、规划、记忆、工具调用。能展开说说每个组件干啥的吗？ 就是你给我任务，我去调工具把它做完。行，回去等通知吧—— 到底怎么理解其实就一句话：Agent…

2026/5/28 2:57:53 阅读更多

AI、机器学习、深度学习、大模型、生成式AI：5个概念的区别与联系，一篇搞懂AI发展脉络！

本文深入浅出地解析了AI、机器学习、深度学习、大模型和生成式AI这五个核心概念之间的关系。作者以“俄罗斯套娃”为比喻，阐述了AI是顶层愿景，机器学习是实现AI的子集，深度学习是机器学习的子集，而大模型则是深度学习在语言方向上…

2026/5/28 2:57:12 阅读更多

GR-RL 具身强化学习框架内部未公开原始技术密档（接续续篇·纯工业裸数据）

本文详细记录了GR-RL具身强化学习框架的底层硬件参数配置，涵盖12大类120项核心参数。主要包括：1)模型层张量排布与存储规格；2)算子内核计算参数；3)GR-RL数据集原始特征；4)PPO强化学习损失函数配置；5)机械臂…

2026/5/28 2:55:10 阅读更多

从一张‘坏掉’的PNG图片里挖出Flag：CTF杂项题的完整解题思路复盘

从一张‘坏掉’的PNG图片里挖出Flag：CTF杂项题的完整解题思路复盘那是一个深夜的CTF比赛现场，我正盯着屏幕上那道名为"神秘的图片"的MISC题目发呆。题目描述很简单——"这张图片似乎隐藏着什么，你能找到它吗？"…

2026/5/28 2:55:10 阅读更多

GPU内存访问优化：原理、技术与实战案例

1. GPU内存访问模式深度解析与性能优化实战在GPU计算领域，内存访问效率往往是性能优化的关键瓶颈。不同于CPU架构，GPU的内存子系统采用独特的扇区（sector）组织方式，对访问模式有着严苛的要求。本文将深入剖析现代GPU&a…

2026/5/28 2:52:09 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/27 3:41:47 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/27 3:04:04 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/27 2:28:22 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章