GLM-OCR结合Ollama使用：另一种快速调用GLM-OCR模型的方法

发布时间：2026/5/28 16:30:55

GLM-OCR结合Ollama使用另一种快速调用GLM-OCR模型的方法1. 项目概述GLM-OCR是一个基于GLM-V编码器-解码器架构构建的多模态OCR模型专为复杂文档理解而设计。它集成了在大规模图文数据上预训练的CogViT视觉编码器、轻量级跨模态连接器以及GLM-0.5B语言解码器支持文本识别、表格识别和公式识别等多种功能。传统上GLM-OCR需要通过Gradio界面或Python API调用而本文将介绍一种更便捷的方法——通过Ollama库来调用GLM-OCR模型。这种方法简化了部署流程让开发者能够更快速地集成OCR功能到自己的应用中。2. 环境准备2.1 安装Ollama首先需要安装Ollama库这是一个用于与本地或远程Ollama服务交互的Python客户端pip install ollama2.2 拉取GLM-OCR模型使用Ollama命令行工具拉取GLM-OCR模型ollama pull glm-ocr:latest这个过程会自动下载模型文件下载完成后就可以通过API调用了。2.3 项目依赖配置创建一个pyproject.toml文件来管理项目依赖[project] name glm-ocr-ollama-inference version 0.1.0 description glm-ocr ollama api inference readme README.md requires-python 3.13,3.14 dependencies [ markupsafe3.0.2, ollama0.6.1, torch, torchaudio, torchvision, ] [tool.uv.sources] torch [ { index pytorch-cu128, marker sys_platform linux or sys_platform win32 }, ] torchvision [ { index pytorch-cu128, marker sys_platform linux or sys_platform win32 }, ] [[tool.uv.index]] name pytorch-cu128 url https://download.pytorch.org/whl/cu128 explicit true3. 使用Ollama API调用GLM-OCR3.1 基本调用方法创建一个Python脚本如main.py来调用GLM-OCR模型import asyncio from ollama import Client async def main(): client Client( hosthttp://localhost:11434, ) response await asyncio.to_thread( client.chat, modelglm-ocr:latest, messages[ { role: user, content: { text: Text Recognition:, formula: Formula Recognition:, table: Table Recognition: }, images: [inputs/1.png], } ], ) print(response) response_text response[message][content] response_lines response_text.strip().split(\n) for line in response_lines: print(line) if __name__ __main__: asyncio.run(main())3.2 功能说明GLM-OCR通过Ollama API支持三种主要功能文本识别使用text: Text Recognition:作为提示词表格识别使用table: Table Recognition:作为提示词公式识别使用formula: Formula Recognition:作为提示词3.3 参数说明host: Ollama服务地址默认为http://localhost:11434model: 使用的模型名称这里是glm-ocr:latestmessages: 包含用户输入和图片路径的列表images: 要识别的图片路径数组4. 实际应用示例4.1 文本识别对于普通文档图片可以使用文本识别功能response await asyncio.to_thread( client.chat, modelglm-ocr:latest, messages[ { role: user, content: { text: Text Recognition: }, images: [document.png], } ], )4.2 表格识别对于包含表格的图片可以使用表格识别功能response await asyncio.to_thread( client.chat, modelglm-ocr:latest, messages[ { role: user, content: { table: Table Recognition: }, images: [table.png], } ], )4.3 公式识别对于包含数学公式的图片可以使用公式识别功能response await asyncio.to_thread( client.chat, modelglm-ocr:latest, messages[ { role: user, content: { formula: Formula Recognition: }, images: [formula.png], } ], )5. 性能优化建议5.1 批量处理如果需要处理多张图片可以考虑批量处理以提高效率responses [] for image_path in image_paths: response await asyncio.to_thread( client.chat, modelglm-ocr:latest, messages[ { role: user, content: { text: Text Recognition: }, images: [image_path], } ], ) responses.append(response)5.2 异步处理利用Python的异步特性可以提高处理效率async def process_image(image_path): response await asyncio.to_thread( client.chat, modelglm-ocr:latest, messages[ { role: user, content: { text: Text Recognition: }, images: [image_path], } ], ) return response tasks [process_image(path) for path in image_paths] results await asyncio.gather(*tasks)5.3 结果后处理GLM-OCR返回的结果可以直接使用也可以根据需要进行后处理def process_ocr_result(response): content response[message][content] # 自定义处理逻辑 processed content.replace(\n, br) # 示例替换换行符 return processed6. 总结通过Ollama调用GLM-OCR模型提供了一种简单高效的OCR解决方案相比传统的部署方式具有以下优势部署简单无需复杂的服务配置只需安装Ollama并拉取模型调用方便通过简洁的Python API即可完成OCR功能调用功能全面支持文本、表格、公式等多种识别任务性能良好基于GLM-V架构识别准确率高这种方法特别适合需要快速集成OCR功能的应用场景如文档处理系统、自动化办公工具等。开发者可以根据实际需求灵活选择识别功能和处理方式。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

如何快速检测电脑Windows 11兼容性？终极免费工具一键搞定

如何快速检测电脑Windows 11兼容性？终极免费工具一键搞定【免费下载链接】WhyNotWin11 Detection Script to help identify why your PC is not Windows 11 Release Ready. Now Supporting Update Checks! 项目地址: https://gitcode.com/gh_mirrors/wh/WhyNotWi…

2026/5/28 17:43:47 阅读更多

告别混乱！用Access数据库+OrCAD CIS高效管理你的元器件库（附完整配置流程）

从零构建企业级元器件库：AccessOrCAD CIS全链路管理实战当你的硬件团队扩张到5人以上，是否经常遇到这样的场景：新人画原理图时找不到最新封装，采购拿着BOM单反复确认参数，不同项目间相同器件居然有3种不同编号...这些…

2026/5/28 18:28:38 阅读更多

你的 Agent 会思考，但它不会记忆：把“会做事”升级成“会持续做事”

AI Agent 这两年进化得非常快。它会推理，会规划，会调用工具，会写代码，甚至还能陪你聊很久。可真正落到生产里，你很快就会发现一个很致命的问题：它能处理当下，却很难沉淀过去。这一次做过的事&a…

2026/5/28 3:30:29 阅读更多

三步永久保存微信聊天记录：WeChatMsg免费数据守护终极指南

三步永久保存微信聊天记录：WeChatMsg免费数据守护终极指南【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/we/W…

2026/5/28 19:46:23 阅读更多

终极免费在线EPUB编辑器：在浏览器中轻松制作专业电子书

终极免费在线EPUB编辑器：在浏览器中轻松制作专业电子书【免费下载链接】EPubBuilder 一款在线的epub格式书籍编辑器项目地址: https://gitcode.com/gh_mirrors/ep/EPubBuilder EPubBuilder是一款完全免费的在线EPUB编辑器，让您直接在浏览器中就…

2026/5/28 19:46:23 阅读更多

NCMconverter终极指南：3步快速解密网易云音乐加密文件

NCMconverter终极指南：3步快速解密网易云音乐加密文件【免费下载链接】NCMconverter NCMconverter将ncm文件转换为mp3或者flac文件项目地址: https://gitcode.com/gh_mirrors/nc/NCMconverter NCMconverter是一款专为处理网易云音乐加密音频文件设计的开源…

2026/5/28 19:46:23 阅读更多

Zotero Style插件终极指南：让文献管理变得简单高效的5个秘诀

Zotero Style插件终极指南：让文献管理变得简单高效的5个秘诀【免费下载链接】zotero-style Ethereal Style for Zotero 项目地址: https://gitcode.com/GitHub_Trending/zo/zotero-style Zotero Style是一款专为Zotero文献管理软件设计的可视化增强插件&…

2026/5/28 19:46:23 阅读更多

外键的代价：一个让系统陷入泥沼的设计陷阱

最近我们接手一个老项目的数据迁移任务。这个项目运行了五年，业务逻辑不算复杂，但数据库表之间的关联关系却异常混乱。一张订单表关联了十几张其他表，删除一个订单需要级联操作七八个地方，稍有不慎就会报错。经过梳理发现&#xf…

2026/5/28 19:45:02 阅读更多

Sora 2原生NeRF集成指南：从零构建动态3D场景生成流水线（含PyTorch+Instant-NGP实测代码）

更多请点击： https://codechina.net 第一章：Sora 2与NeRF融合的范式演进与技术动因传统视频生成模型长期受限于时序一致性与三维几何感知能力的割裂：Sora 类模型擅长长程时空建模，却缺乏显式3D结构先验；而NeRF虽能高…

2026/5/28 19:45:02 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/28 17:40:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/28 13:05:45 阅读更多

相关文章

如何快速检测电脑Windows 11兼容性？终极免费工具一键搞定

告别混乱！用Access数据库+OrCAD CIS高效管理你的元器件库（附完整配置流程）

你的 Agent 会思考，但它不会记忆：把“会做事”升级成“会持续做事”

三步永久保存微信聊天记录：WeChatMsg免费数据守护终极指南

终极免费在线EPUB编辑器：在浏览器中轻松制作专业电子书

NCMconverter终极指南：3步快速解密网易云音乐加密文件

Zotero Style插件终极指南：让文献管理变得简单高效的5个秘诀

外键的代价：一个让系统陷入泥沼的设计陷阱

Sora 2原生NeRF集成指南：从零构建动态3D场景生成流水线（含PyTorch+Instant-NGP实测代码）

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

Windows Defender终极恢复指南：5种强力方法解决禁用问题

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥