start-MLLM TASK01

发布时间：2026/5/21 14:41:09

https://github.com/datawhalechina/start-mllm/blob/main/docs/%E5%89%8D%E8%A8%80.md一、为什么要系统学习多模态大模型多态大模型MLLMMultimodal Large Language Model尝试进一步处理图片、文档、截图、表格、视频帧、语音等多种输入形式。它的真正价值不是“接了一个图片入口”而是让模型逐步具备接近真实世界任务的感知能力。在现实应用中用户很少只提供纯文本。更常见的输入是一张报错截图外加一句“这是什么意思”一份发票或合同外加一句“帮助我提取关键信息”一张商品图外加一句“帮我写标题和卖点”一段视频封面、多张图片、语音说明、构成表格的组合输入如果你限制文本模型你只能做的事情会被输入形式如果你理解了多模态模型你就可以开始做真正贴近业务的AI系统。如果你刚开始学多模态先把这条路线记在脑子里概念地图 → 架构原理 → 数据与训练 → 评测与部署 → 推理实操 → Demo → Agent后面遇到新术语时你能立刻知道它属于哪一段很容易越读越乱。建立认识与训练侧概念任务版图、视觉令牌与瞄准、生成式架构Connector LLM、数据配方与敏感性策略。第4章的JSONL与加密脚本重在「格式与质量意识」不等于必须立即训练大模型。建立了验收与落地能力场景剧情、配置与部署、推理脚本与Gradio Demo、多模态代理、以及将全书收成的重建路线。命令行与环境变量实战篇里部分示例在Windowscmd / PowerShell下使用set VARvalue在Linux / macOSBash / Zsh下请改为export VARvalue。相同指标名与取值不变仅语法不同。文档中的相对路径默认以仓库根目录start-mllm/为当前工作目录除非你看到明确写到cd了子目录。第八章等处的.env文件为KEYvalue行格式各系统写法一致与「在 shell 里临时导出」不是同一个入口别混用语法即可。首读术语速查MLLM / VLM能够同时处理与语言输入的模型VLM通常特指图文方向。视觉编码器把像素变成支持特征的模块相当于“眼睛”。Patch Token图像切块后形成的视觉令牌粒度影响细节保留能力。Connector / Projector把视觉特征映射到LLM可消费表示的桥接层。SFT指令指令让模型提供“会执行任务的助手”而不仅仅是会理解图文关系。Grounding让模型的文字描述能够定位到图像中的具体区域如坐标框、边界框而不仅仅是笼统地描述整张图。第一遍看时先记“这个词是Q的”就够了细节可以边做边补。如何使用这份教程如果你对Transformer、Embedding、自回归生成等还不太熟悉先花30分钟读完LLM基础速通再进入正文。已有LLM基础的读者可跳过。误区 1把“能收图片”当成“理解图像”很多多模态模型的能力边界并不来自“有没有图片输入”而来自视觉编码器是否足够强对齐是否足够好数据分布里是否包含你关心的任务推理链路里是否保留了必要的细粒度信息不追求一次全做满但这是本书默认的「能力终点」画像能用自己的话讲清视觉编码 → 对齐 → LLM 在系统里各干什么第 13 章。能写一小份多模态 SFT 风格 JSONL 并做基础校验第 4 章 docs/chapter4/code。能搭几十条量级的场景评测集并跑通 eval_vlm_dataset.py第 5 章。能说清推理链路上哪里会丢图、哪里会慢以及该记哪些日志第 6 章。能本地或 API 跑通图文对话并做一个 Gradio 级 Demo第 78 章。能画出感知 → 规划 → 工具 → 记忆的多模态 Agent 草图并整理出一份自己的实践优先级清单第 910 章。更偏场景的排版、多图、长图可穿插扩展阅读与 Extra-Chapter。LLM基础速通如果你只有 Python 基础对 Transformer、Embedding、自回归生成这些概念还不熟悉花 30 分钟读完本章就够了。我们只讲后续章节会直接用到的概念不展开数学推导。训练过程的基本单位总训练数据10000 条 └── 拆成多个 Batch每批 32 条 └── 每个 Batch 跑一次前向反向传播 → 更新一次参数1 Step └── 所有数据跑完一遍 1 Epoch └── 通常训练 1~5 个 Epoch训练日志里的 lr1e-4就是当前的学习率。常见策略是预训练阶段用较大 lr如1e-4微调阶段用较小 lr如2e-5。预训练与微调大模型的训练通常分两大阶段预训练Pre-training从零开始在海量文本上学习语言能力训练数据互联网文本、书籍、代码...TB 级训练目标预测下一个 token 训练成本需要大量 GPU 和时间通常数周到数月产出基座模型Base Model指令微调SFT, Supervised Fine-Tuning在基座模型上用任务数据进一步训练训练数据指令-回答格式的标注数据千~万条训练目标让模型学会执行具体任务训练成本远低于预训练单卡几小时到几天产出指令模型Chat Model / Instruct Model这个范式叫“预训练 → 微调”是当前 LLM 和 MLLM 的标准流程预训练 → 基座模型会续写文本但不会听指令 ↓ 指令微调指令模型会听指令、会对话、会完成任务基座模型基座模型Base Model 就是只经过预训练、还没经过指令微调的模型。它会续写文本但不会回答问题你给它法国的首都是它会续写法国的首都是巴黎巴黎是…“而不是干净地回答巴黎”常见基座模型Qwen2.5-7B、Llama3-8B、DeepSeek-V2-Lite后续章节里提到冻结基座模型就是指保持预训练参数不变只训练新加的模块如 Connector、LoRA 适配器。五、PyTorch 五分钟速查如果你走API 路线第七章 OpenAI 兼容接口、第八章 Gradio Demo、第九章 Agent完全不需要 PyTorch可以跳过本节。如果你想走本地推理路线第七章 Transformers 方式或动手做LoRA 微调第四章下面 5 个模式够你用了检查 GPU 是否可用importtorchprint(torch.cuda.is_available())# True 有可用 GPUprint(torch.cuda.get_device_name(0))# 显卡型号加载预训练模型fromtransformersimportAutoModelForCausalLM,AutoTokenizer modelAutoModelForCausalLM.from_pretrained(Qwen/Qwen2.5-7B-Instruct)tokenizerAutoTokenizer.from_pretrained(Qwen/Qwen2.5-7B-Instruct)from_pretrained是你最常用的方法——给一个模型名或本地路径它自动下载/加载模型权重。把模型放到 GPU 上modelmodel.to(cuda)# 整个模型搬到 GPU# 或者加载时直接指定# model AutoModelForCausalLM.from_pretrained(..., device_mapauto)device_map“auto” 会自动把模型分配到可用的 GPU 上大模型推荐用这种方式。推理模式withtorch.no_grad():# 推理时关闭梯度计算省显存outputsmodel.generate(**inputs,max_new_tokens512)torch.no_grad()告诉 PyTorch 不需要记录计算图那是训练用的推理时务必加上。Tensor 基础importtorch xtorch.tensor([1.0,2.0,3.0])# 创建张量类似 numpy arrayprint(x.shape)# torch.Size([3])print(x.device)# cpu 或 cuda:0xx.to(cuda)# 搬到 GPUTensor 就是 PyTorch 版的多维数组。你在后续章节里看到的 input_ids、pixel_values、attention_mask 都是 tensor。一句话总结PyTorch 在本教程里主要就做两件事——加载模型from_pretrained和生成输出model.generate。更深入的训练用法Dataset、DataLoader、Trainer在第四章 LoRA 微调时会结合具体代码讲解。

Solidity 知识点速记整理 - (2026年) (75 - 94)

文章目录前言Solidity 知识点速记整理 - (2026年) (75 - 94)前言如果您觉得有用的话，记得给博主点个赞，评论，收藏一键三连啊，写作不易啊^ _ ^。而且听说点赞的人每天的运气都不会太差，实在白嫖的话，那…

2026/5/21 14:40:48 阅读更多

【Android实战】从0到1开发一款完整购物商城App

一、为什么要写这个项目？大二下学期《Android基础及应用》课程设计，我选择实现一个完整的购物商城App。原因很简单：购物流程涵盖了移动开发中最核心的组件（列表、数据库、异步、交互），做完一个购物App&…

2026/5/21 14:40:28 阅读更多

良心云用户如何快速接入Taotoken实现大模型API调用

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度良心云用户如何快速接入Taotoken实现大模型API调用对于在良心云服务器上部署应用的开发者而言，将大模型能力集成到自己…

2026/5/21 14:40:28 阅读更多

书匠策AI到底能帮你把毕业论文“养“到什么程度？一个科普博主的实测拆解

各位准毕业生们，我是你们的论文写作科普老友。今天不聊方法论，不画思维导图，咱们来聊点真正能救命的东西。你有没有过这种经历：距离交稿还有三周，你的Word文档里只有一个标题，光标一闪一闪，…

2026/5/21 15:26:26 阅读更多

Cortex-Debug终极指南：5分钟掌握VSCode嵌入式调试神器

Cortex-Debug终极指南：5分钟掌握VSCode嵌入式调试神器【免费下载链接】cortex-debug Visual Studio Code extension for enhancing debug capabilities for Cortex-M Microcontrollers 项目地址: https://gitcode.com/gh_mirrors/co/cortex-debug 还在为ARM…

2026/5/21 15:25:46 阅读更多

深度解析Realtek RTL8125 DKMS驱动：从内核模块到系统优化的完整指南

深度解析Realtek RTL8125 DKMS驱动：从内核模块到系统优化的完整指南【免费下载链接】realtek-r8125-dkms A DKMS package for easy use of Realtek r8125 driver, which supports 2.5 GbE. 项目地址: https://gitcode.com/gh_mirrors/re/realtek-r8125-dkms …

2026/5/21 15:25:46 阅读更多

计量检定证书在线生成：应对严苛排版与多页批量套打的终极方案

在计量检定行业，检定证书（Certificate of Verification）不仅是法定技术文件，更是机构权威性的象征。然而，对于许多数字化转型中的计量院所和第三方检测机构而言，证书生成环节往往是“最后的一公里”痛点。 …

2026/5/21 15:25:46 阅读更多

5分钟学会用Pixelle-Video：零基础制作专业级数字人视频

5分钟学会用Pixelle-Video：零基础制作专业级数字人视频【免费下载链接】Pixelle-Video 🚀 AI 全自动短视频引擎 | AI Fully Automated Short Video Engine 项目地址: https://gitcode.com/GitHub_Trending/pi/Pixelle-Video 你是否曾经梦想过制作…

2026/5/21 15:25:25 阅读更多

如何用markdownReader在3分钟内提升你的Markdown阅读体验300%？

如何用markdownReader在3分钟内提升你的Markdown阅读体验300%？ 【免费下载链接】markdownReader markdownReader is a extention for chrome, used for reading markdown file. 项目地址: https://gitcode.com/gh_mirrors/ma/markdownReader 还在为浏览器中单…

2026/5/21 15:25:25 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/20 16:14:50 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章

Solidity 知识点速记整理 - (2026年) (75 - 94)

【Android实战】从0到1开发一款完整购物商城App

良心云用户如何快速接入Taotoken实现大模型API调用

书匠策AI到底能帮你把毕业论文“养“到什么程度？一个科普博主的实测拆解

Cortex-Debug终极指南：5分钟掌握VSCode嵌入式调试神器

深度解析Realtek RTL8125 DKMS驱动：从内核模块到系统优化的完整指南

计量检定证书在线生成：应对严苛排版与多页批量套打的终极方案

5分钟学会用Pixelle-Video：零基础制作专业级数字人视频

如何用markdownReader在3分钟内提升你的Markdown阅读体验300%？

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

科研学术篇---论文搜索方法

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)