Hunyuan-OCR-WEBUI新手入门:手把手教你搭建OCR识别环境 Hunyuan-OCR-WEBUI新手入门手把手教你搭建OCR识别环境1. 引言1.1 为什么选择Hunyuan-OCR在数字化时代文字识别(OCR)技术已经成为我们日常工作和学习中不可或缺的工具。腾讯混元OCR作为一款轻量级但功能强大的OCR模型仅用1B参数就实现了多项业界领先的性能指标。对于想要快速搭建本地OCR环境的开发者来说Hunyuan-OCR-WEBUI提供了开箱即用的解决方案。1.2 本教程能带给你什么通过这篇教程你将学会如何在自己的电脑或服务器上部署Hunyuan-OCR-WEBUI使用Web界面进行文字识别的基本操作通过API接口将OCR功能集成到自己的应用中解决部署过程中可能遇到的常见问题1.3 准备工作在开始之前请确保你的设备满足以下基本要求操作系统Linux推荐Ubuntu 20.04或更高版本显卡NVIDIA GPU至少12GB显存内存16GB以上存储空间50GB以上可用空间2. 环境准备2.1 安装Docker和NVIDIA驱动首先我们需要安装Docker和NVIDIA容器工具包# 更新系统软件包 sudo apt update sudo apt upgrade -y # 安装Docker sudo apt install docker.io -y sudo systemctl enable docker --now # 安装NVIDIA Container Toolkit distribution$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt update sudo apt install nvidia-docker2 -y sudo systemctl restart docker2.2 验证NVIDIA驱动运行以下命令检查NVIDIA驱动是否安装正确nvidia-smi如果看到类似下面的输出说明驱动安装成功----------------------------------------------------------------------------- | NVIDIA-SMI 525.105.17 Driver Version: 525.105.17 CUDA Version: 12.0 | |--------------------------------------------------------------------------- | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | || | 0 NVIDIA GeForce ... On | 00000000:01:00.0 On | N/A | | 0% 48C P8 15W / 350W | 200MiB / 24576MiB | 0% Default | | | | N/A | ---------------------------------------------------------------------------3. 部署Hunyuan-OCR-WEBUI3.1 拉取镜像并启动容器使用以下命令启动Hunyuan-OCR-WEBUI容器docker run -itd \ --gpus all \ -p 7860:7860 \ -p 8000:8000 \ -p 8888:8888 \ --name hunyuan-ocr-webui \ aistudent/hunyuan-ocr-app-web:latest这个命令会创建一个名为hunyuan-ocr-webui的容器映射7860端口用于Web界面映射8000端口用于API接口映射8888端口用于Jupyter Notebook3.2 进入容器环境容器启动后我们可以进入容器内部docker exec -it hunyuan-ocr-webui bash4. 启动WebUI服务4.1 选择启动脚本在容器内部提供了多个启动脚本1-界面推理-pt.sh # 使用PyTorch后端启动Web界面 1-界面推理-vllm.sh # 使用vLLM后端启动Web界面推荐 2-API接口-pt.sh # 使用PyTorch后端启动API服务 2-API接口-vllm.sh # 使用vLLM后端启动API服务推荐4.2 启动Web界面推荐使用vLLM后端启动Web界面./1-界面推理-vllm.sh启动成功后你会看到类似下面的输出Running on local URL: http://0.0.0.0:78604.3 访问Web界面在浏览器中访问以下地址将your-ip替换为你的服务器IPhttp://your-ip:78605. 使用Web界面进行OCR识别5.1 界面功能介绍Web界面主要分为以下几个区域图像上传区支持JPG、PNG、PDF等格式语言选择支持100多种语言的识别任务类型选择文字检测识别、字段抽取、拍照翻译等结果展示区显示识别结果和标注图像5.2 基本使用流程点击上传图像按钮选择要识别的图片根据需要选择语言或保持自动检测选择任务类型默认是文字检测识别点击开始识别按钮等待几秒钟查看识别结果5.3 识别效果示例上传一张包含文字的图片后你会看到左侧显示原始图片识别出的文字会用绿色框标注右侧显示识别出的文本内容底部可以选择复制结果或下载标注后的图片6. API接口使用6.1 启动API服务如果需要将OCR功能集成到自己的应用中可以使用API接口。首先启动API服务./2-API接口-vllm.shAPI服务默认监听8000端口。6.2 Python调用示例以下是使用Python调用API的示例代码import requests import base64 def ocr_api_call(image_path, task_typetext_detection, languageauto): url http://localhost:8000/ocr/inference with open(image_path, rb) as f: img_data base64.b64encode(f.read()).decode(utf-8) payload { image: img_data, task_type: task_type, language: language } response requests.post(url, jsonpayload) return response.json() # 调用示例 result ocr_api_call(test.jpg) print(result)6.3 API返回格式API返回的JSON数据包含以下字段{ text: 识别出的文本内容, boxes: [[x1, y1, x2, y2, x3, y3, x4, y4], ...], # 文字框坐标 confidence: [0.98, ...], # 每个文字框的置信度 language: 检测到的语言 }7. 常见问题解决7.1 端口冲突问题如果7860或8000端口已被占用可以修改启动命令docker run -itd \ --gpus all \ -p 7861:7860 \ # 将7860映射到7861 -p 8001:8000 \ # 将8000映射到8001 --name hunyuan-ocr-webui \ aistudent/hunyuan-ocr-app-web:latest7.2 显存不足问题如果遇到显存不足的情况可以尝试使用更小的图片降低推理精度在启动脚本中添加--precision int8升级显卡硬件7.3 识别效果不佳如果识别效果不理想可以尝试上传更清晰的图片手动指定正确的语言调整图片方向确保文字方向正确8. 总结8.1 学习回顾通过本教程我们完成了Docker和NVIDIA环境的准备Hunyuan-OCR-WEBUI镜像的部署Web界面的使用和API接口的调用常见问题的解决方法8.2 进阶建议想要进一步提升OCR使用体验可以尝试不同的任务类型如字段抽取、拍照翻译开发自己的前端界面调用API探索批量处理大量图片的方法8.3 资源推荐Hunyuan-OCR官方文档Docker官方文档vLLM项目主页获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。