Hermes Agent 流式输出架构解析

发布时间：2026/6/10 2:29:06

一个支持多消费者、多平台的实时流式输出设计前言在 AI 对话应用中实时流式输出Streaming Output能显著提升用户体验——用户无需等待完整响应即可看到正在生成的内容。Hermes Agent 采用了一套精心设计的流式输出架构支持同时向 CLI、TUI、第三方平台等多个目标推送内容。本文将深入解析这一架构的设计思路和实现细节。一、整体架构Hermes 的流式输出采用回调机制多消费者模式┌─────────────────────────────────────────────────────────────┐ │ Agent (核心引擎) │ │ │ │ run_conversation() → 流式调用 → stream_callback() │ └───────────────────────────┼─────────────────────────────────┘ │ ┌───────────────┼───────────────┐ ▼ ▼ ▼ ┌───────────────┐ ┌──────────────┐ ┌──────────────────┐ │ CLI │ │ TUI Gateway │ │ Gateway │ │ 终端输出 │ │ Web UI 接口 │ │ 多平台消费者 │ └──────────────┘ └──────────────┘ └──────────────────┘ │ │ │ ▼ ▼ ▼ 本地终端显示 WebSocket推送第三方平台编辑核心思想Agent 只需产生一次流式内容通过回调分发到多个消费者。二、核心组件详解2.1 Agent 层 —— 内容生产者Agent 是流式输出的起点负责调用 LLM 的流式 API 并将内容通过回调分发。工作流程接收用户消息和回调函数调用流式 API逐 token 获取响应每获取一个 token调用一次回调响应结束时调用回调并传入None表示结束关键设计回调函数作为参数传入实现解耦Agent 不需要知道有多少消费者支持可中断的流式调用2.2 CLI 消费者 —— 本地终端CLI 是最直接的消费者负责将流式内容输出到终端。工作流程接收增量文本一个或多个 token过滤推理/思考标签如think等进行行缓冲逐行输出到终端使用 prompt_toolkit 实现兼容终端的实时打印关键设计行缓冲避免逐字符输出导致的闪烁标签过滤用户只看最终内容不看推理过程KawaiiSpinner加载动画提升体验2.3 TUI Gateway —— Web UI 桥接TUI Gateway 提供 Web/桌面 UI 的 JSON-RPC 接口。工作流程接收增量文本可选实时 Markdown 渲染通过 WebSocket 发送message.delta事件前端收到事件后更新显示关键设计JSON-RPC 协议支持多种前端可选渲染字段平衡性能和显示效果2.4 Gateway Stream Consumer —— 多平台分发这是支持多平台的核心组件使用异步队列管理分发。工作流程接收增量文本加入线程安全队列异步任务持续消费队列将内容分发到所有已注册的平台各平台使用自己的方式编辑消息如 Telegram 的edit_message_text关键设计线程安全队列同步 Agent 和异步 UI 的桥接统一接口不同平台实现相同接口自适应退避API 调用失败时自动重试三、多消费者设计3.1 消费者列表消费者用途输出方式CLI本地命令行终端实时打印TUI GatewayWeb/桌面 UIWebSocket 推送TelegramTelegram 机器人编辑消息 APIDiscordDiscord 机器人编辑消息 APISlackSlack 机器人编辑消息 API3.2 平台桥接机制所有平台消费者都实现统一的接口核心只有两个方法edit_message(delta)编辑已发送的消息追加新内容finalize_message(text)消息完成后调用进行最终处理以 Telegram 为例发送初始消息后获得 message_id每次收到增量调用 Telegram API 编辑该消息由于 Telegram 限制编辑间隔不能太频繁1.5秒左右3.3 消息累积策略由于各平台 API 的限制如编辑间隔、字符数限制消费者不会每收到一个 token 就调用 API而是累积缓冲收集一定量文本后再编辑定时刷新每隔固定时间如 1.5 秒编辑一次光标提示在消息末尾显示▉表示正在输入四、事件协议4.1 流式增量事件{type:message.delta,session_id:会话ID,payload:{text:正在分析...,rendered:渲染后的文本// 可选}}4.2 消息完成事件{type:message.complete,session_id:会话ID,payload:{text:完整响应内容,reasoning:推理过程,// 可选status:complete// 或 interrupted/error}}4.3 推理块过滤AI 响应中可能包含reasoning.../reasoning等推理标记这些对用户不可见需要过滤打开标签think时开始过滤关闭标签时恢复输出过滤后的内容不显示给用户五、设计亮点5.1 回调机制实现解耦Agent ──回调──▶ 多个消费者Agent 不需要知道有多少消费者只需调用stream_callback(text)。新增消费者只需注册回调无需修改 Agent 代码。5.2 线程安全队列Agent 运行在独立线程而 UI 需要在主线程更新。通过线程安全队列桥接Agent 线程 ──Queue.put()──▶ 队列 ──Queue.get()──▶ UI 线程5.3 自适应退避当平台 API 调用失败如频率限制时自动增加重试间隔第1次失败 → 等待 1.5 秒第2次失败 → 等待 3 秒第3次失败 → 等待 6 秒5.4 Markdown 流式渲染部分消费者支持实时 Markdown 渲染接收增量文本逐步更新渲染结果用户看到逐步格式化的内容六、借鉴要点如果要在其他项目中实现类似的流式输出架构需要关注以下几点6.1 回调接口设计定义统一的流式回调接口参数只需一个增量文本结束时应传入None。6.2 行缓冲输出不要逐字符输出应该累积到换行符或一定长度后再输出避免终端闪烁。6.3 多消费者管理使用列表管理所有注册的消费者广播式调用即可。6.4 线程安全如果涉及多线程确保队列操作的原子性。6.5 平台适配不同平台有不同的 API 限制需要针对性处理如编辑间隔、消息长度。七、总结Hermes Agent 的流式输出架构展示了如何优雅地处理实时内容分发特性实现方式解耦回调机制多消费者线程安全Queue 队列桥接跨平台统一接口各自实现容错自适应退避美观行缓冲 Markdown 渲染这种设计使得同一个 AI 响应可以同时服务于 CLI、Web UI、第三方平台等多种场景极大提升了架构的灵活性和可扩展性。本文档基于 Hermes Agent 项目源码分析编写

Webpack 5 Module Federation 进阶：动态远程模块与版本协商，微前端的运行时组合

Webpack 5 Module Federation 进阶：动态远程模块与版本协商，微前端的运行时组合一、静态集成的局限：构建时绑定的发布耦合 Module Federation（模块联邦）是 Webpack 5 引入的微前端核心能力，允许多个独立构建…

2026/6/10 2:28:26 阅读更多

摸鱼才是生产力！飙算工具箱让我一天发50篇图文，老板还夸我效率高

昨晚凌晨两点，我朋友圈又一个做自媒体的朋友发了条动态：“运营5个号，人快没了。”我看了看自己后台——10个号，50篇内容，下午三点就收工了。不是我能肝，是我根本不用肝。一、从"肝帝"到"佛系…

2026/6/10 2:28:26 阅读更多

2026年成都电竞网咖新体验，这些宝藏去处值得一探！

2026年成都电竞网咖新体验，EDM电竞（花照壁店）以顶配硬件与全场景服务重塑行业标杆一、硬件配置：全系顶配，3A大作满帧运行EDM电竞（花照壁店）全店标配AMD 9800X3D处理器 RTX5080旗舰显卡&#xf…

2026/6/10 2:26:44 阅读更多

Exercise003_Even_or_Odd

Exercise 3: Even or Odd 题目重现原题标题：Even or Odd 原题描述：Write a program that asks the user to enter a number and then determines whether the number is even or odd. 中文说明：编写一个程序，要求用户输入一个数字…

2026/6/10 3:46:25 阅读更多

应届生面试被问 AI 工具使用，怎样回答才不空泛

每到求职季，运营、产品、数据分析、综合职能等岗位的面试中，面试官常会问到同一个问题：你在学习或实践中，如何借助 AI 工具提升工作效率？ 但多数应届生的回答都高度同质化：用大模型做头脑风暴、写文案润色、…

2026/6/10 3:44:44 阅读更多

技术文章大纲：Codex安装适配国产信创环境

技术文章大纲：Codex安装适配国产信创环境国产信创环境概述信创产业背景与核心目标（自主可控、安全可靠）主流国产化平台介绍（如麒麟OS、统信UOS、龙芯、飞腾等）适配国产环境的常见技术挑战（硬件兼容性、软件…

2026/6/10 3:44:44 阅读更多

dubbo和openfeign 远程过程调用有什么区别

Dubbo 和 OpenFeign 都是“远程调用框架”，但设计目标和实现方式差别很大，可以从定位、通信方式、生态依赖、性能、扩展能力五个维度来理解。1 一句话区别Dubbo：RPC框架（更底层、更高性能、更强治理能力）OpenFeign&a…

2026/6/10 3:43:43 阅读更多

代码随想录打卡第五十二天

卡码网 101 孤岛的总面积#include<iostream> #include<vector>using namespace std;int inorder[4][2] {0,1, 1,0, 0,-1, -1,0}; void dfs(vector<vector<int>>& mon,int x,int y){if(mon[x][y] 0) return;mon[x][y] 0;for(int i 0;i < 4;i…

2026/6/10 3:43:43 阅读更多

SPDX+Syft+Policy引擎打造合规流水线

发散创新：用 SPDXSyftCustom Policy Engine 构建可审计、可落地的开源合规流水线在企业级软件交付中，开源合规已不再是法务部门的“事后检查单”，而是研发流程中必须前置嵌入的硬性质量门禁。据 Linux Foundation 2023 年《Open Source Com…

2026/6/10 3:43:43 阅读更多

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each …

2026/6/10 0:00:34 阅读更多

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

从导航软件到游戏寻路：用C手把手实现Dijkstra最短路径算法每次打开手机地图导航，或是操控游戏角色穿越复杂地形时，背后都藏着一个数学魔法——最短路径算法。Dijkstra算法作为图论中的经典解决方案，从1956年诞生至今，已…

2026/6/10 0:01:14 阅读更多

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱，支持下载视频、番剧等等各类资源项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/6/10 0:02:17 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/10 0:41:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/10 0:41:54 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/10 0:32:14 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/9 9:53:26 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/9 9:53:22 阅读更多

相关文章

Webpack 5 Module Federation 进阶：动态远程模块与版本协商，微前端的运行时组合

摸鱼才是生产力！飙算工具箱让我一天发50篇图文，老板还夸我效率高

2026年成都电竞网咖新体验，这些宝藏去处值得一探！

Exercise003_Even_or_Odd

应届生面试被问 AI 工具使用，怎样回答才不空泛

技术文章大纲：Codex安装适配国产信创环境

dubbo和openfeign 远程过程调用有什么区别

代码随想录 打卡第五十二天

SPDX+Syft+Policy引擎打造合规流水线

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

代码随想录打卡第五十二天