AirLLM：用张量切片与动态调度在有限显存上运行大模型

发布时间：2026/5/16 2:45:15

1. 项目概述当大模型遇见有限内存最近在折腾大语言模型本地部署的朋友估计都绕不开一个“甜蜜的烦恼”模型能力越来越强参数量动辄数十亿甚至上百亿随之而来的就是对显存的惊人消耗。想在自己的消费级显卡上跑一个70B参数的模型没有两张甚至三张24GB显存的卡基本就是天方夜谭。这直接劝退了一大波想深入体验和研究大模型的开发者和研究者。正是在这个背景下我注意到了lyogavin/airllm这个项目。它的核心目标非常明确让大模型在有限的GPU内存上“跑起来”。这听起来有点像“螺蛳壳里做道场”但它的实现思路却相当巧妙不是简单地压缩模型而是通过一种智能的切片与调度策略将模型计算过程化整为零。简单来说它允许你把一个庞大的模型“拆开”每次只加载当前计算所需的一小部分到显存中算完就换下一块从而用时间换空间突破硬件显存的限制。这个项目对于个人开发者、学生以及预算有限的研究团队来说价值巨大。它意味着你或许可以用一张RTX 309024GB显存甚至RTX 4060 Ti16GB显存去尝试运行那些原本需要80GB以上显存的巨型模型进行推理、测试甚至轻量的微调。当然天下没有免费的午餐这种“拆解-加载-计算-卸载”的循环必然会引入额外的I/O开销导致推理速度变慢。因此airllm的核心权衡就在于用可接受的延迟增长换取原本不可能实现的大模型本地化部署能力。接下来我们就深入拆解一下它是如何做到的以及在实际使用中会遇到哪些坑怎么避开。2. 核心原理切片、调度与内存管理的艺术airllm的技术路径可以概括为“基于张量切片的动态加载与卸载”。要理解它我们得先看看标准的大模型推理流程存在什么瓶颈。2.1 传统加载方式的瓶颈在常规的深度学习框架如PyTorch, TensorFlow中当我们加载一个模型时通常采用“全量加载”模式。以 Hugging Face Transformers 库为例调用from_pretrained()时框架会尝试将整个模型的所有参数权重和偏置一次性读入内存GPU显存。对于一个大模型比如LLaMA-2 70B其FP16精度的参数文件大小大约在130GB以上。这意味着你的GPU显存必须大于这个数字模型才能被加载并开始计算。这种“全有或全无”的方式简单粗暴但对于大模型极不友好。它没有考虑模型推理过程中的一个关键特性计算是逐层layer by layer进行的。在Transformer架构中输入数据依次通过嵌入层、多个注意力块和前馈网络层最终得到输出。在任一时刻GPU实际上只在对当前层或当前注意力头的参数进行计算其他层的参数都处于“闲置”状态却依然占据着宝贵的显存。2.2 AirLLM的解决之道张量切片与流水线airllm的核心思想正是利用了“计算逐层进行”这一特性。它不再将模型视为一个不可分割的整体而是将其每一层的参数大型张量进一步细分为更小的“切片”Shards。模型切片在模型加载前或加载时airllm会按照用户配置的“切片大小”例如每片2GB将每一层的大型权重张量在磁盘上预先切割成多个小块。这些切片文件被有序地存储起来。动态调度器项目包含一个智能的调度器。当推理进行到某一层时调度器会判断需要该层的哪些参数切片。它只将当前计算必需的切片从硬盘加载到GPU显存中。计算与卸载GPU对加载的切片进行计算。一旦该切片参与的计算完成且后续计算短期内不再需要它调度器会立即将其从显存中卸载释放空间。同时它可能预加载下一层即将用到的切片以部分隐藏I/O延迟。内存池管理airllm维护着一个显存池严格管理切片在显存中的生命周期。它采用类似缓存淘汰的策略如LRU确保显存中始终保留着最可能被重复使用的热点切片例如输入输出层的嵌入矩阵或某些共享的注意力参数。这个过程类似于我们阅读一本很厚的书但手边只有能放几页纸的空间。我们不会把整本书都搬过来而是每次只取当前要读的那一章的几页读完就放回书架再取下几页。airllm就是那个高效的图书管理员和调度员。注意这种切片加载方式会显著增加硬盘I/O特别是使用机械硬盘时和PCIe总线上的数据搬运开销。因此推理速度的下降是必然的。性能损耗的大小主要取决于切片大小、硬盘速度强烈推荐NVMe SSD以及调度算法的效率。2.3 关键技术点解析切片粒度这是最重要的可调参数。切片越小单次加载的数据量越少对显存峰值的要求就越低但I/O次数会急剧增加导致延迟更高。切片越大则相反。需要在你的可用显存和可接受的推理速度之间找到一个平衡点。预加载与缓存优秀的调度器会尝试进行预加载。例如当GPU正在计算第N层时调度器可以异步地将第N1层所需的切片从硬盘读入到CPU内存或GPU的锁页内存中待GPU就绪时再快速拷贝进去从而部分抵消I/O延迟。兼容性设计airllm需要与现有的模型架构如Transformers和序列化格式如PyTorch的.bin或.safetensors格式兼容。它通常通过重写或包装模型的加载器和前向传播函数来实现对上层应用代码尽可能透明。3. 实战部署从零到一的完整操作指南理论讲得再多不如亲手跑一遍。下面我将以在单张24GB显存的RTX 4090上尝试运行一个超过显存容量的模型为例展示airllm的完整部署流程。我们假设目标是运行一个Llama-2-13B-chat模型FP16精度下约26GB这显然超过了单卡24GB的显存还需预留系统、激活值等开销。3.1 环境准备与依赖安装首先确保你的环境符合基本要求。airllm基于Python和PyTorch因此一个干净的Conda环境是很好的起点。# 1. 创建并激活一个独立的Python环境推荐Python 3.9或3.10 conda create -n airllm_demo python3.10 -y conda activate airllm_demo # 2. 安装PyTorch请根据你的CUDA版本到PyTorch官网获取对应命令 # 例如对于CUDA 12.1 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # 3. 安装airllm核心库 pip install airllm # 4. 安装额外的依赖如transformers和accelerate用于模型加载 pip install transformers accelerate实操心得强烈建议在安装前确认你的CUDA驱动版本nvidia-smi和PyTorch支持的CUDA版本匹配。不匹配会导致无法使用GPU。另外如果网络条件不佳可以使用国内镜像源加速安装例如pip install -i https://pypi.tuna.tsinghua.edu.cn/simple airllm。3.2 模型下载与初始化airllm支持从Hugging Face Hub直接加载模型也支持加载本地模型文件。这里我们使用HF Hub的方式。from airllm import AutoModel # 定义模型ID这里以Meta的Llama 2 13B聊天版为例 model_id “meta-llama/Llama-2-13b-chat-hf” # 初始化AirLLM模型。 # 关键参数max_gpu_memory 定义了每个GPU上允许使用的最大显存字典。 # 格式为{“0”: “20GiB”, “1”: “20GiB”} 对于多卡。 # 这里我们只使用单卡“0”并分配20GB给它留出约4GB给系统和其他开销。 model AutoModel.from_pretrained( model_id, max_gpu_memory{“0”: “20GiB”}, # 另一个关键参数offload_folder用于存储临时卸载到磁盘的切片 offload_folder“./offload”, # 指定一个目录确保有足够磁盘空间 # 设备映射强制使用GPU 0 device_map“cuda:0”, )执行这段代码后airllm并不会立即将26GB的模型全部加载进显存。它会开始分析模型结构并根据max_gpu_memory的设定制定切片和调度策略。你会看到一些日志输出显示它正在准备切片或检测到内存不足准备使用磁盘卸载。3.3 进行推理测试模型初始化成功后我们就可以像使用普通Transformers模型一样进行文本生成了。airllm对生成接口进行了封装以适配其调度逻辑。from airllm import AutoTokenizer # 加载对应的分词器 tokenizer AutoTokenizer.from_pretrained(model_id) # 准备输入 input_text “请用中文解释一下什么是机器学习。” inputs tokenizer(input_text, return_tensors“pt”).to(“cuda:0”) # 将输入也放到GPU上 # 使用模型生成 # 注意这里使用的是model.generate其内部已经适配了airllm的调度 with torch.no_grad(): # 推理时关闭梯度计算节省显存 generated_ids model.generate( **inputs, max_new_tokens256, # 生成的最大新token数 do_sampleTrue, # 使用采样而非贪婪解码使输出更多样 temperature0.7, # 采样温度 top_p0.9, # 核采样参数 ) # 解码输出 output_text tokenizer.decode(generated_ids[0], skip_special_tokensTrue) print(“模型回复”, output_text)在第一次执行生成时你会观察到明显的“预热”延迟。因为此时airllm正在忙碌地从硬盘加载第一批模型切片到显存并进行首次计算。后续的生成如果上下文长度不变可能会快一些因为部分热切片可能已被缓存。3.4 关键配置参数详解要让airllm在你的硬件上跑得顺畅理解并调整以下几个参数至关重要max_gpu_memory:最重要的参数。它告诉调度器你愿意或能够给每张GPU分配多少显存用于存储模型参数。设置得太接近物理显存上限例如24GB卡设”23GiB”非常危险因为系统、激活值、优化器状态如果训练也需要空间极易导致OOM内存溢出。安全的做法是预留20-30%的余量。例如24GB卡设置为{“0”: “18GiB”}或{“0”: “16GiB”}是更稳妥的起点。offload_folder: 磁盘卸载目录。必须指向一个拥有足够大空间和较快IO速度的磁盘位置。机械硬盘是绝对不推荐的它会成为性能的致命瓶颈。至少使用SATA SSD最佳是NVMe SSD。同时确保该目录有读写权限。offload_index: 这是一个高级参数。当模型极大单块硬盘也放不下所有切片时可以指定多个卸载目录调度器会将切片分布到不同磁盘上理论上可以并行读取以提升IO带宽。precision: 模型精度。例如可以设置为”fp16”或”bf16”。更低精度如int8量化能进一步减少内存占用但airllm可能主要处理原始精度或fp16/bf16的切片。量化通常需要在切片之前或之后单独进行。4. 性能调优与深度配置策略部署成功只是第一步让推理速度达到可用的程度才是真正的挑战。airllm的默认配置可能不是最优的我们需要根据自身硬件和模型特点进行精细调优。4.1 切片大小 (chunk_size) 的权衡艺术切片大小是影响性能最直接的杠杆。它通常在初始化模型时通过一个隐藏参数或配置文件设置具体请查阅airllm最新文档。其影响是双向的大切片如 4GB优点减少硬盘读取次数更利于顺序IO可能提升吞吐量。如果显存勉强能装下2-3个大切片调度器切换开销小。缺点对显存峰值要求高。加载一个大切片时可能因为显存碎片或同时存在多个切片而导致OOM。不适用于显存非常紧张的场景。小切片如 512MB-1GB优点显存使用非常灵活峰值内存低能在极其有限的显存下运行超大模型。缺点IO次数爆炸式增长尤其是机械硬盘的随机读写速度慢会使得延迟高到无法忍受。频繁的加载/卸载也增加了调度器开销。调优建议从默认值开始先使用项目默认的切片大小进行测试。监控IO和GPU利用率使用nvtop、htop或iostat工具在推理时观察GPU利用率和磁盘读写速度。如果GPU利用率长期很低如30%而磁盘持续100%忙碌说明IO是瓶颈可以考虑增大切片大小或升级到更快的SSD。观察内存波动使用nvidia-smi -l 1监控显存变化。如果显存使用量频繁剧烈波动且经常接近max_gpu_memory上限说明切片可能偏大或调度激进可以尝试略微减小切片大小。基准测试用固定的提示词和生成长度测试不同切片大小下的“首个token延迟”Time to First Token, TTFT和“生成吞吐量”Tokens per Second。选择一个延迟和吞吐量都可接受的折中点。4.2 利用多GPU提升吞吐量如果你有多张GPUairllm可以通过max_gpu_memory参数将模型切片分布到多卡上实现模型并行的一种简化形式。model AutoModel.from_pretrained( model_id, max_gpu_memory{ “0”: “10GiB”, # 第一张卡分配10GB “1”: “10GiB”, # 第二张卡分配10GB }, offload_folder“./offload”, device_map“auto”, # 设置为 “auto” 让库自动分配层到各设备 )在这种配置下调度器会尝试将不同的模型层或切片放置在不同的GPU上。当进行前向传播时数据需要在GPU之间传输通过PCIe。这引入了额外的通信开销但好处是每张卡只需存储模型的一部分从而可以共同承载一个更大的模型。注意这不同于数据并行每张卡有完整的模型副本处理不同数据而是模型并行一个模型被拆分到多张卡上。多卡配置心得NVLink优势如果GPU之间通过NVLink高速互联如NVIDIA Tesla系列或高端GeForce RTX系列GPU间数据传输的带宽远高于PCIe可以显著减少通信开销使多卡性能提升更明显。平衡负载尽量让max_gpu_memory的分配相对均衡避免一张卡成为瓶颈。通信成为新瓶颈当模型切片较小时频繁的跨卡数据传输可能成为新的性能瓶颈。此时需要评估是否值得使用多卡。4.3 与量化技术结合使用airllm解决的是参数“量”的问题太多而量化解决的是参数“质”的问题太精。两者结合效果倍增。常见的思路是先量化后切片使用GPTQ、AWQ或BitsAndBytes等量化工具将原始FP16模型量化为INT8或INT4精度。这可以将模型大小减少2倍INT8或4倍INT4。例如一个70B的FP16模型约140GB量化成INT4后可能只有35GB左右。再用AirLLM加载量化后模型将量化后的模型通常是一组.safetensors文件交给airllm加载。由于模型总体积变小了所需的切片数量减少或者每个切片能包含更多的层从而大幅减少IO次数提升推理速度。# 假设我们已有一个使用bitsandbytes库进行4位量化的模型 from transformers import BitsAndBytesConfig from airllm import AutoModel quantization_config BitsAndBytesConfig( load_in_4bitTrue, bnb_4bit_compute_dtypetorch.float16, bnb_4bit_use_double_quantTrue, ) model AutoModel.from_pretrained( model_id, quantization_configquantization_config, # 传入量化配置 max_gpu_memory{“0”: “10GiB”}, # 量化后所需显存更少 offload_folder“./offload”, device_map“cuda:0”, )重要提示量化会带来一定的精度损失可能影响模型输出质量。对于创意写作、复杂推理等任务需要测试量化后的模型效果是否可接受。对于初步实验和体验INT8通常是安全的选择。5. 常见问题、故障排查与实战经验在实际使用中你一定会遇到各种问题。下面是我在多次实践中总结出的典型问题及其解决方案。5.1 内存溢出OOM问题这是最常见的问题错误信息通常包含CUDA out of memory。原因1max_gpu_memory设置过高。排查运行nvidia-smi查看显卡总显存。你的max_gpu_memory值必须显著小于总显存。建议预留至少4-6GB给PyTorch上下文、激活值、缓存和系统。解决降低max_gpu_memory的值。例如24GB卡从”20GiB”降到”18GiB”或”16GiB”。原因2输入序列过长。排查Transformer模型的激活值计算中间结果内存消耗与序列长度成平方关系自注意力机制。即使参数通过切片管理过长的序列产生的激活值也可能撑爆显存。解决减少max_new_tokens和输入token数。如果模型支持启用attention_sink或流式窗口注意力只保留最近的部分KV缓存。考虑使用外推或压缩技术处理长文本。原因3切片大小不合适或存在内存碎片。排查尝试使用更小的切片大小。解决在初始化时尝试指定更小的chunk_size如果API支持。或者重启Python内核有时内存碎片积累会导致问题。5.2 推理速度极慢感觉比纯CPU推理还慢GPU利用率几乎为0。原因1磁盘IO瓶颈尤其是使用机械硬盘HDD。排查在推理时打开系统监控工具观察磁盘活动时间%util和读写速度。如果持续接近100%说明磁盘是瓶颈。解决这是最重要的建议——务必使用SSD最好是NVMe SSD。将offload_folder设置在最快的磁盘上。原因2切片大小太小。排查IOPS每秒读写次数很高但吞吐量很低。解决适当增加切片大小减少IO次数用单次更长的加载时间换取更少的总体调度开销。原因3首次运行冷启动。排查第一次加载模型和生成时需要从网络HF Hub或本地磁盘读取全部数据并创建切片缓存速度慢是正常的。解决耐心等待第一次运行完成。后续在同一个进程中的推理会快很多因为部分数据已缓存。5.3 模型加载失败或输出乱码原因1模型ID错误或权限问题。排查对于Llama等需要授权的模型你是否已经登录Hugging Face CLI (huggingface-cli login) 并接受了使用协议解决确保模型ID正确并完成必要的授权步骤。对于本地模型确保文件路径正确且完整。原因2分词器不匹配。排查airllm的AutoTokenizer是否来自同一来源有时直接使用transformers库的AutoTokenizer可能更稳定。解决尝试使用标准的from transformers import AutoTokenizer。原因3精度不匹配或量化错误。排查如果加载了量化模型但推理时指定了错误的计算精度dtype可能导致数值溢出或下溢产生乱码。解决确保量化配置与模型文件匹配并在生成时使用正确的dtype如torch.float16。5.4 实战经验与技巧预热Warm-up在开始正式的基准测试或服务前先让模型运行一两个简单的推理请求。这可以让调度器建立缓存加载一些必要的切片使后续请求的延迟更稳定。监控是关键同时打开几个终端分别运行nvidia-smi -l 1、iostat -x 1和htop。观察GPU显存、GPU利用率、磁盘利用率和CPU/内存使用情况。这能帮你快速定位瓶颈是计算、IO还是内存。从中小模型开始不要一上来就用70B模型测试。先用7B或13B的模型熟悉整个流程确定合适的切片大小和内存配置再逐步挑战更大的模型。理解“时间换空间”的本质管理好心理预期。airllm的目标是“能跑”而不是“跑得快”。它的推理速度可能只有全量加载GPU内存时的1/10甚至更慢。将其用于批量离线任务、模型效果初步评估或教育学习场景更为合适对实时交互场景则压力较大。社区与文档开源项目迭代快遇到奇怪的问题首先去项目的GitHub仓库查看Issues和Discussions很可能已经有人遇到并解决了。同时仔细阅读最新的README和示例代码参数和用法可能已经更新。

谷歌搜索留痕怎么做？配合蜘蛛池提升80%存活率方法

四月份谷歌打击垃圾外链算法更新中，三百万个带有查询参数的页面遭到清除。单日某大型医疗器械外贸站页面收录量从15万跌至8千。存留的查询页面里，大多数采用了定时定量引导搜索引擎爬虫抓取的操作。服务器日志表明，维持60天不掉落的链接&…

2026/5/16 2:45:15 阅读更多

基于Alpine的LNMP Docker镜像构建：从设计到实战部署

1. 项目概述：一个Docker镜像的诞生与价值最近在整理自己的开发环境时，发现一个高频需求：快速部署一个轻量级的、开箱即用的Web应用开发环境。这个环境需要包含基础的Web服务器、数据库、以及一些常用的调试工具。虽然市面上有现成的集成环境&…

2026/5/16 2:45:15 阅读更多

Boss-Key终极指南：Windows窗口隐藏与隐私保护完整解决方案

Boss-Key终极指南：Windows窗口隐藏与隐私保护完整解决方案【免费下载链接】Boss-Key 老板来了？快用Boss-Key老板键一键隐藏静音当前窗口！上班摸鱼必备神器项目地址: https://gitcode.com/gh_mirrors/bo/Boss-Key 在数字化办公环境中…

2026/5/16 2:44:14 阅读更多

面试时被问“你的缺点是什么”，这样回答反而加分

面试中，当面试官看似随意地问出“你的缺点是什么”时，空气往往会突然安静几秒。对软件测试工程师而言，这个问题尤其微妙——我们每天都在和“找茬”打交道，对缺陷和风险有着本能的敏感。然而，面试官抛出这个问题&#…

2026/5/16 3:33:46 阅读更多

镥-氢-氮三元化合物室温超导：背景与对全域零点能电池的影响

镥-氢-氮三元化合物室温超导：背景与对全域零点能电池的影响作者： 乖乖数学一、背景澄清："室温超导"的真实情况 1. 最初的"突破性"报道 2023年，美国罗切斯特大学Ranga Dias团队宣称，他们合成的氮掺…

2026/5/16 3:33:26 阅读更多

基于Cursor日志的开发者行为分析工具：实现个人编码数据洞察

1. 项目概述：一个轻量级的代码编辑器数据洞察工具最近在逛GitHub的时候，发现了一个挺有意思的小工具，叫darzhang/cursor-stats-lite。乍一看名字，你可能以为它是个什么性能监控或者系统统计工具，但实际上，它…

2026/5/16 3:32:46 阅读更多

LSMO薄膜金属-绝缘体相变及其随机性应用研究

1. 理解LSMO薄膜中的随机性现象La0.67Sr0.33MnO3（LSMO）是一种典型的强关联电子体系材料，其独特的金属-绝缘体相变（MIT）特性为开发新型计算范式提供了物理基础。这种材料在相变临界区域表现出的随机性行为，源…

2026/5/16 3:29:44 阅读更多

Cursor AI计算器：无缝集成开发工作流的智能计算解决方案

1. 项目概述：一个为开发者量身定制的光标计算器最近在GitHub上看到一个挺有意思的项目，叫kingdomseed/cursor-calculator。光看名字，你可能会想，这不就是个计算器吗？有什么好说的。但如果你是一个深度依赖代码编辑器&a…

2026/5/16 3:29:23 阅读更多

Shor算法量子电路优化：减少空闲时间的设计策略

1. 量子计算中的Shor算法优化：减少空闲时间的电路设计策略量子计算领域最具突破性的算法之一当属Shor算法，它能够在多项式时间内完成大整数质因数分解，对传统RSA加密体系构成了根本性挑战。然而在实际硬件实现中，Shor算法的效率受…

2026/5/16 3:29:03 阅读更多

SD-PPP：在Photoshop中开启智能设计革命的终极AI插件

SD-PPP：在Photoshop中开启智能设计革命的终极AI插件【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 你是否厌倦了在Photoshop和AI工具之间频繁切换，打断了创意的流畅性？SD-PPP正…

2026/5/16 0:00:07 阅读更多

NomNom存档编辑器：解放你的《无人深空》游戏体验终极指南

NomNom存档编辑器：解放你的《无人深空》游戏体验终极指南【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item i…

2026/5/16 0:00:27 阅读更多

5个专业策略：构建企业级本地漏洞情报分析平台

5个专业策略：构建企业级本地漏洞情报分析平台【免费下载链接】cve-search cve-search - a tool to perform local searches for known vulnerabilities 项目地址: https://gitcode.com/gh_mirrors/cv/cve-search 在当今复杂的网络安全环境中，快速…

2026/5/16 0:00:27 阅读更多

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构摘要本文基于贾子理论的文明竞争视角，揭示中美AI战略差异的本质并非技术参数较量，而是“暴力计算”与“本质贯通”两种文明范式的根本对立。美国依赖算力堆叠与资本逻辑追求技术霸权…

2026/5/14 23:29:16 阅读更多

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…

2026/5/15 17:36:19 阅读更多

基于飞书与OpenAI构建企业级AI助手：架构、部署与深度优化指南

1. 项目概述：当飞书遇上AI，一个企业级智能助手的诞生最近在折腾一个挺有意思的项目，叫“ConnectAI-E/feishu-openai”。简单来说，它就是一个桥梁，把飞书这个强大的企业协作平台，和以ChatGPT为代表的OpenA…

2026/5/15 0:06:09 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/15 14:41:25 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/15 14:41:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…