Youtu-Parsing企业内网部署基于VMware构建私有化AI平台最近和不少企业的IT负责人聊天发现大家有个共同的痛点公司内部有大量合同、报告、表格等文档需要处理用人工审核效率低还容易出错想用AI吧又担心把敏感数据传到外面不安全。这确实是个两难的问题。其实完全可以把AI能力“搬”到自家内网里来。今天我就手把手带你在VMware虚拟化环境里部署一个私有化的文档解析AI平台。整个过程不复杂你跟着做半天时间就能让内网多出一个能看懂文档的智能助手数据不出内网安全又可控。1. 部署前准备理清思路与备好资源在动手之前我们先花几分钟把整个部署的脉络理清楚。这次我们要部署的是一个叫“Youtu-Parsing”的AI镜像它本质上是一个封装好的应用能自动识别和提取图片、PDF等文件里的文字和表格信息。我们的目标是把这个应用装在一台运行在VMware里的虚拟机上并且让这台虚拟机用上物理服务器的GPU来加速AI计算。你需要准备这么几样东西一台物理服务器这是我们的“地基”。它需要安装好VMware ESXi这是VMware的虚拟化系统。服务器最好配有NVIDIA的GPU这样AI处理速度会快很多。星图GPU平台的Youtu-Parsing镜像文件这是我们要部署的“智能核心”一个已经打包好所有AI模型和运行环境的文件。一个用于管理的电脑上面需要安装VMware vSphere Client通过它来远程操作ESXi服务器创建和管理虚拟机。内网环境确保你的服务器和最终要访问这个AI服务的电脑都在同一个内部网络里。把这几样备齐我们就可以开始了。2. 第一步在VMware中创建并配置虚拟机首先我们登录到VMware vSphere Client来创建一台承载AI应用的虚拟机。你可以把这台虚拟机理解为一台“虚拟的电脑”我们将在它里面安装系统和应用。2.1 创建新虚拟机在vSphere Client界面里找到“创建新虚拟机”的选项。在配置类型里选择“自定义”这样我们能更精细地控制参数。给虚拟机起个容易识别的名字比如AI-Doc-Parser。接下来是关键的资源分配CPU建议分配4个或更多的vCPU虚拟CPU。AI推理任务比较吃计算资源多给点核心没坏处。内存至少分配16GB。如果待处理的文档量大或者并发请求多32GB会更稳妥。硬盘系统盘建议100GB以上采用“厚置备延迟置零”模式性能更好。别忘了我们之后还要上传一个很大的镜像文件所以空间要留足。网络为它分配一个连接到你内网的网络适配器比如选择正确的“端口组”确保它未来能从内网被访问到。操作系统客户机操作系统系列选择“Linux”版本选择“Ubuntu Linux (64位)”。我们推荐使用Ubuntu 20.04 LTS或22.04 LTS兼容性最好。2.2 配置GPU直通关键步骤如果服务器有NVIDIA GPU我们得让虚拟机独占这块显卡这个过程叫“直通”。这样虚拟机就能直接调用GPU的算力AI处理速度会有质的飞跃。在vSphere Client中进入ESXi主机的“配置”选项卡找到“硬件”下的“PCI设备”。在列表里找到你的NVIDIA GPU设备右键点击它选择“切换直通”。状态会从“禁用”变为“活动”。非常重要完成上一步后需要重启一次ESXi主机直通设置才能生效。主机重启后再次编辑你那台AI-Doc-Parser虚拟机的设置。在“虚拟硬件”选项卡点击“添加其他设备”选择“PCI设备”。从下拉列表中选择你刚刚启用直通的那块GPU添加它。完成这一步这台虚拟机就拥有了强大的图形计算能力。3. 第二步安装系统并部署AI镜像虚拟机配置好后开机挂载Ubuntu系统安装镜像完成操作系统的安装。这个过程和装一台普通电脑系统没什么区别记得设置好用户名、密码和IP地址建议设置为静态IP方便后续管理。系统装好后通过SSH连接到这台虚拟机。接下来我们要把Youtu-Parsing镜像“搬”进去。3.1 上传与加载镜像假设你已经从星图GPU平台下载了名为youtu-parsing.tar.gz的镜像文件。你可以通过SCP命令或者vSphere的数据存储浏览器把这个文件上传到虚拟机的某个目录比如/home/下。然后在虚拟机里执行以下命令来加载这个镜像sudo docker load -i /home/youtu-parsing.tar.gz这个命令需要一些时间因为它要把打包好的镜像解压并导入到虚拟机的Docker环境中。完成后可以用sudo docker images命令查看列表中应该会出现youtu-parsing相关的镜像信息。3.2 启动AI服务容器镜像加载好了但它还没运行。我们需要创建一个容器来运行它。通常镜像的提供方会给出推荐的启动命令。一个典型的启动命令可能长这样sudo docker run -d \ --name youtu-parsing-service \ --gpus all \ -p 8080:8080 \ -v /host/data:/container/data \ youtu-parsing:latest我来解释一下这几个参数-d让容器在后台运行。--name给容器起个名字方便管理。--gpus all这是关键它允许容器使用我们之前直通给虚拟机的所有GPU。-p 8080:8080将容器内部的8080端口映射到虚拟机的8080端口。这样我们通过访问虚拟机的IP和8080端口就能连上AI服务。-v ...把虚拟机本地的某个目录比如/host/data挂载到容器内部。这样你可以把要解析的文档放在虚拟机里容器就能直接读取了。执行命令后使用sudo docker ps查看容器状态显示为“Up”就说明服务启动成功了。4. 第三步配置内网访问与安全服务跑起来了但还只能通过IP地址访问。为了更规范、更安全我们还需要做两步内网配置。4.1 设置内网域名解析在公司内网我们一般不喜欢记IP地址。你可以在内网的DNS服务器上为这台虚拟机绑定一个域名。比如把doc-ai.internal.company.com解析到虚拟机的IP地址。如果没有专门的DNS服务器也可以在需要访问这台AI服务的员工电脑上修改本地的hosts文件Windows系统在C:\Windows\System32\drivers\etc\hosts Linux/Mac在/etc/hosts添加一行记录192.168.1.100 doc-ai.internal.company.com请将192.168.1.100替换成你虚拟机的真实IP这样大家以后就可以用http://doc-ai.internal.company.com:8080这样好记的地址来访问服务了。4.2 配置基础访问控制数据安全是内网部署的核心价值。除了物理网络隔离我们还可以在应用层加一把锁。Youtu-Parsing服务本身或其配套的Web界面可能会提供基础的认证功能比如设置访问密码。请务必查阅该镜像的详细文档启用并设置强密码。更进一步你可以利用VMware虚拟机的防火墙规则或者在内网交换机、防火墙上设置策略只允许特定的、有文档处理需求的业务网段或IP地址访问这台虚拟机的8080端口将访问权限控制在最小范围。5. 验证与初步使用所有配置完成后我们来验收一下成果。在你的办公电脑上打开浏览器输入http://[虚拟机IP]:8080或者你配置的域名。如果一切顺利你应该能看到Youtu-Parsing的服务界面。通常这类界面会有一个上传文件的区域。你可以找一份不重要的公司内部PDF文件或者一张带文字的图片传上去试试。点击解析或提交后稍等片刻如果文档复杂GPU正在努力工作中页面应该会返回解析结果比如将图片中的文字识别并提取成可编辑的文本或者把PDF表格的结构化数据提取出来。看到这个结果就恭喜你一个私有化的AI文档解析平台已经成功搭建起来了6. 总结走完这一整套流程你会发现在企业内部基于VMware部署一个AI应用并没有想象中那么神秘和复杂。核心思路就是利用虚拟化技术准备一台带GPU的“虚拟主机”然后把打包好的AI应用镜像像安装软件一样部署上去最后配置好内网的访问方式。这么做最大的好处就是“安心”——所有的计算、所有的数据都在你自己的机房内流转完全满足企业对敏感数据的合规性要求。而且VMware环境大家都很熟悉管理和维护起来也方便。当然这只是一个起点。这个平台稳定运行后你可以思考如何把它用得更深入比如和现有的OA系统、知识管理系统对接实现合同自动归档、报告信息自动录入等。先把平台搭起来让数据安全地跑起来后面的想象空间可以慢慢展开。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
Youtu-Parsing企业内网部署:基于VMware构建私有化AI平台
发布时间:2026/5/27 22:04:49
Youtu-Parsing企业内网部署基于VMware构建私有化AI平台最近和不少企业的IT负责人聊天发现大家有个共同的痛点公司内部有大量合同、报告、表格等文档需要处理用人工审核效率低还容易出错想用AI吧又担心把敏感数据传到外面不安全。这确实是个两难的问题。其实完全可以把AI能力“搬”到自家内网里来。今天我就手把手带你在VMware虚拟化环境里部署一个私有化的文档解析AI平台。整个过程不复杂你跟着做半天时间就能让内网多出一个能看懂文档的智能助手数据不出内网安全又可控。1. 部署前准备理清思路与备好资源在动手之前我们先花几分钟把整个部署的脉络理清楚。这次我们要部署的是一个叫“Youtu-Parsing”的AI镜像它本质上是一个封装好的应用能自动识别和提取图片、PDF等文件里的文字和表格信息。我们的目标是把这个应用装在一台运行在VMware里的虚拟机上并且让这台虚拟机用上物理服务器的GPU来加速AI计算。你需要准备这么几样东西一台物理服务器这是我们的“地基”。它需要安装好VMware ESXi这是VMware的虚拟化系统。服务器最好配有NVIDIA的GPU这样AI处理速度会快很多。星图GPU平台的Youtu-Parsing镜像文件这是我们要部署的“智能核心”一个已经打包好所有AI模型和运行环境的文件。一个用于管理的电脑上面需要安装VMware vSphere Client通过它来远程操作ESXi服务器创建和管理虚拟机。内网环境确保你的服务器和最终要访问这个AI服务的电脑都在同一个内部网络里。把这几样备齐我们就可以开始了。2. 第一步在VMware中创建并配置虚拟机首先我们登录到VMware vSphere Client来创建一台承载AI应用的虚拟机。你可以把这台虚拟机理解为一台“虚拟的电脑”我们将在它里面安装系统和应用。2.1 创建新虚拟机在vSphere Client界面里找到“创建新虚拟机”的选项。在配置类型里选择“自定义”这样我们能更精细地控制参数。给虚拟机起个容易识别的名字比如AI-Doc-Parser。接下来是关键的资源分配CPU建议分配4个或更多的vCPU虚拟CPU。AI推理任务比较吃计算资源多给点核心没坏处。内存至少分配16GB。如果待处理的文档量大或者并发请求多32GB会更稳妥。硬盘系统盘建议100GB以上采用“厚置备延迟置零”模式性能更好。别忘了我们之后还要上传一个很大的镜像文件所以空间要留足。网络为它分配一个连接到你内网的网络适配器比如选择正确的“端口组”确保它未来能从内网被访问到。操作系统客户机操作系统系列选择“Linux”版本选择“Ubuntu Linux (64位)”。我们推荐使用Ubuntu 20.04 LTS或22.04 LTS兼容性最好。2.2 配置GPU直通关键步骤如果服务器有NVIDIA GPU我们得让虚拟机独占这块显卡这个过程叫“直通”。这样虚拟机就能直接调用GPU的算力AI处理速度会有质的飞跃。在vSphere Client中进入ESXi主机的“配置”选项卡找到“硬件”下的“PCI设备”。在列表里找到你的NVIDIA GPU设备右键点击它选择“切换直通”。状态会从“禁用”变为“活动”。非常重要完成上一步后需要重启一次ESXi主机直通设置才能生效。主机重启后再次编辑你那台AI-Doc-Parser虚拟机的设置。在“虚拟硬件”选项卡点击“添加其他设备”选择“PCI设备”。从下拉列表中选择你刚刚启用直通的那块GPU添加它。完成这一步这台虚拟机就拥有了强大的图形计算能力。3. 第二步安装系统并部署AI镜像虚拟机配置好后开机挂载Ubuntu系统安装镜像完成操作系统的安装。这个过程和装一台普通电脑系统没什么区别记得设置好用户名、密码和IP地址建议设置为静态IP方便后续管理。系统装好后通过SSH连接到这台虚拟机。接下来我们要把Youtu-Parsing镜像“搬”进去。3.1 上传与加载镜像假设你已经从星图GPU平台下载了名为youtu-parsing.tar.gz的镜像文件。你可以通过SCP命令或者vSphere的数据存储浏览器把这个文件上传到虚拟机的某个目录比如/home/下。然后在虚拟机里执行以下命令来加载这个镜像sudo docker load -i /home/youtu-parsing.tar.gz这个命令需要一些时间因为它要把打包好的镜像解压并导入到虚拟机的Docker环境中。完成后可以用sudo docker images命令查看列表中应该会出现youtu-parsing相关的镜像信息。3.2 启动AI服务容器镜像加载好了但它还没运行。我们需要创建一个容器来运行它。通常镜像的提供方会给出推荐的启动命令。一个典型的启动命令可能长这样sudo docker run -d \ --name youtu-parsing-service \ --gpus all \ -p 8080:8080 \ -v /host/data:/container/data \ youtu-parsing:latest我来解释一下这几个参数-d让容器在后台运行。--name给容器起个名字方便管理。--gpus all这是关键它允许容器使用我们之前直通给虚拟机的所有GPU。-p 8080:8080将容器内部的8080端口映射到虚拟机的8080端口。这样我们通过访问虚拟机的IP和8080端口就能连上AI服务。-v ...把虚拟机本地的某个目录比如/host/data挂载到容器内部。这样你可以把要解析的文档放在虚拟机里容器就能直接读取了。执行命令后使用sudo docker ps查看容器状态显示为“Up”就说明服务启动成功了。4. 第三步配置内网访问与安全服务跑起来了但还只能通过IP地址访问。为了更规范、更安全我们还需要做两步内网配置。4.1 设置内网域名解析在公司内网我们一般不喜欢记IP地址。你可以在内网的DNS服务器上为这台虚拟机绑定一个域名。比如把doc-ai.internal.company.com解析到虚拟机的IP地址。如果没有专门的DNS服务器也可以在需要访问这台AI服务的员工电脑上修改本地的hosts文件Windows系统在C:\Windows\System32\drivers\etc\hosts Linux/Mac在/etc/hosts添加一行记录192.168.1.100 doc-ai.internal.company.com请将192.168.1.100替换成你虚拟机的真实IP这样大家以后就可以用http://doc-ai.internal.company.com:8080这样好记的地址来访问服务了。4.2 配置基础访问控制数据安全是内网部署的核心价值。除了物理网络隔离我们还可以在应用层加一把锁。Youtu-Parsing服务本身或其配套的Web界面可能会提供基础的认证功能比如设置访问密码。请务必查阅该镜像的详细文档启用并设置强密码。更进一步你可以利用VMware虚拟机的防火墙规则或者在内网交换机、防火墙上设置策略只允许特定的、有文档处理需求的业务网段或IP地址访问这台虚拟机的8080端口将访问权限控制在最小范围。5. 验证与初步使用所有配置完成后我们来验收一下成果。在你的办公电脑上打开浏览器输入http://[虚拟机IP]:8080或者你配置的域名。如果一切顺利你应该能看到Youtu-Parsing的服务界面。通常这类界面会有一个上传文件的区域。你可以找一份不重要的公司内部PDF文件或者一张带文字的图片传上去试试。点击解析或提交后稍等片刻如果文档复杂GPU正在努力工作中页面应该会返回解析结果比如将图片中的文字识别并提取成可编辑的文本或者把PDF表格的结构化数据提取出来。看到这个结果就恭喜你一个私有化的AI文档解析平台已经成功搭建起来了6. 总结走完这一整套流程你会发现在企业内部基于VMware部署一个AI应用并没有想象中那么神秘和复杂。核心思路就是利用虚拟化技术准备一台带GPU的“虚拟主机”然后把打包好的AI应用镜像像安装软件一样部署上去最后配置好内网的访问方式。这么做最大的好处就是“安心”——所有的计算、所有的数据都在你自己的机房内流转完全满足企业对敏感数据的合规性要求。而且VMware环境大家都很熟悉管理和维护起来也方便。当然这只是一个起点。这个平台稳定运行后你可以思考如何把它用得更深入比如和现有的OA系统、知识管理系统对接实现合同自动归档、报告信息自动录入等。先把平台搭起来让数据安全地跑起来后面的想象空间可以慢慢展开。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。