多模态大模型技术入门：让 AI 看见世界

发布时间：2026/5/22 0:27:19

多模态大模型技术入门让 AI 看见世界前言人类感知世界的方式是多模态的——我们能看到图像、听到声音、读到文字。多模态大模型Multimodal LLM正是让 AI 拥有类似能力的关键技术。从 GPT-4V 到 Claude 3从开源的 LLaVA 到 CogVim多模态大模型正在快速改变 AI 的应用格局。我最近在一个项目中集成了多模态能力让 AI 能够理解和分析用户上传的图片。这段经历让我对多模态技术有了更深入的理解。今天分享一些多模态大模型的基础知识和实战经验。什么是多模态模态的定义模态Modality指的是信息的不同形式或来源。常见的模态包括文本Text文字信息图像Image视觉信息音频Audio声音信息视频Video时空连续的视觉和声音信息语音Speech口语信息多模态学习的目标多模态学习旨在构建能够处理和关联多种模态信息的 AI 系统。核心挑战包括对齐Alignment不同模态的信息如何对应融合Fusion如何整合不同模态的信息翻译Translation如何从一种模态转换到另一种多模态模型架构经典架构Encoder-Decoder文本 → Text Encoder → Feature → Decoder → 输出 ↑ 图像 → Vision Encoder ───────────┘这是最直观的架构各模态分别编码然后在某个层面融合共同输入解码器生成输出。CLIP 范式CLIPContrastive Language-Image Pre-training开创了图文对齐的预训练范式import torch import torch.nn as nn class CLIP(nn.Module): def __init__(self, vision_model, text_model): super().__init__() self.vision_model vision_model self.text_model text_model self.vision_projection nn.Linear(vision_dim, embed_dim) self.text_projection nn.Linear(text_dim, embed_dim) self.temperature nn.Parameter(torch.ones([]) * 2.6592) def encode_image(self, image): features self.vision_model(image) features self.vision_projection(features) features features / features.norm(dim-1, keepdimTrue) return features def encode_text(self, text): features self.text_model(text) features self.text_projection(features) features features / features.norm(dim-1, keepdimTrue) return features def forward(self, images, texts): image_features self.encode_image(images) text_features self.encode_text(texts) # 计算相似度 logit_scale self.temperature.exp() logits_per_image logit_scale * image_features text_features.t() logits_per_text logit_scale * text_features image_features.t() return logits_per_image, logits_per_textLLaVA 架构LLaVALarge Language and Vision Assistant是开源多模态模型的代表图像 → Vision Encoder ( CLIP ) → Linear Projection → LLM ↑ 文本 → Tokenizer → LLM → 输出 │关键组件Vision Encoder使用预训练的 CLIP ViTProjection将图像特征映射到 LLM 的输入空间LLM大语言模型负责理解和生成class LLaVA(nn.Module): def __init__(self, vision_model, visionProjection, llm, tokenizer): super().__init__() self.vision_model vision_model self.vision_projection visionProjection self.llm llm self.tokenizer tokenizer def forward(self, images, input_ids, labelsNone): # 1. 图像编码 image_features self.vision_model(images) # 2. 投影到 LLM 空间 image_embeddings self.vision_projection(image_features) # 3. 获取文本 embeddings text_embeddings self.llm.get_input_embeddings()(input_ids) # 4. 融合图像和文本 # 在 [IMG] token 位置替换为图像 embeddings combined_embeddings self._combine_embeddings( text_embeddings, image_embeddings ) # 5. LLM 前向传播 outputs self.llm( inputs_embedscombined_embeddings, labelslabels ) return outputs主流多模态模型GPT-4VOpenAI 的 GPT-4 with Vision 能够理解图片内容并回答问题分析图表和数据阅读文档和截图识别手写内容使用方式from openai import OpenAI client OpenAI() response client.chat.completions.create( modelgpt-4-vision-preview, messages[ { role: user, content: [ {type: text, text: 描述这张图片}, { type: image_url, image_url: {url: https://example.com/image.jpg} } ] } ], max_tokens300 )Claude 3Anthropic 的 Claude 3 系列Haiku、Sonnet、Opus都具有视觉能力支持高达 200K 上下文优秀的图表理解能力准确的文本识别OCR开源多模态模型模型参数量特点LLaVA 1.57B/13B开源先驱效果好CogVLM17B国产优秀模型Qwen-VL7B/14B阿里开源支持中文InternVL20B腾讯开源对标 GPT-4VMiniGPT-47B轻量级多模态BakLLaVA7BMistral LLaVAHuggingFace 多模态实战使用 Transformers 加载多模态模型from transformers import AutoProcessor, AutoModelForCausalLM from PIL import Image import requests # 加载模型和处理器 model_name llava-hf/llava-1.5-7b-hf processor AutoProcessor.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained( model_name, torch_dtypetorch.float16, device_mapauto ) # 准备输入 prompt 描述这张图片的内容 image_url https://example.com/image.jpg image Image.open(requests.get(image_url, streamTrue).raw) inputs processor( textprompt, imagesimage, return_tensorspt ).to(cuda) # 生成 generate_ids model.generate( **inputs, max_length200 ) output processor.batch_decode( generate_ids, skip_special_tokensTrue )[0] print(output)微调多模态模型from peft import LoraConfig, get_peft_model from transformers import TrainingArguments, Trainer # 配置 LoRA lora_config LoraConfig( r8, lora_alpha16, target_modules[q_proj, v_proj, mlp.gate_proj, mlp.up_proj], lora_dropout0.05, biasnone ) # 应用 LoRA model get_peft_model(model, lora_config) # 训练配置 training_args TrainingArguments( output_dir./output, num_train_epochs3, per_device_train_batch_size4, gradient_accumulation_steps4, learning_rate2e-4, fp16True, logging_steps10, ) trainer Trainer( modelmodel, argstraining_args, train_datasettrain_dataset, data_collatordata_collator, ) trainer.train()多模态应用场景文档理解def analyze_document(image_path: str) - dict: 分析文档图片 prompt 请分析这张文档图片提取以下信息 1. 文档类型发票、合同、报告等 2. 关键信息日期、金额、签名等 3. 文档的主要内容摘要以结构化 JSON 格式输出 image Image.open(image_path) inputs processor( textprompt, imagesimage, return_tensorspt ).to(cuda) outputs model.generate(**inputs, max_length500) result processor.decode(outputs[0], skip_special_tokensTrue) return parse_json_response(result)图表分析def analyze_chart(image_path: str) - dict: 分析图表 prompt 这张图表展示的是什么数据请提取 1. 图表类型折线图、柱状图、饼图等 2. X 轴和 Y 轴表示的内容 3. 主要趋势和发现 4. 关键数据点最大值、最小值等 # ... 类似实现视觉问答def visual_qa(image_path: str, question: str) - str: 基于图片回答问题 prompt f图片显示了什么\n\n问题{question} image Image.open(image_path) inputs processor( textprompt, imagesimage, return_tensorspt ).to(cuda) outputs model.generate(**inputs) return processor.decode(outputs[0], skip_special_tokensTrue)多模态技术挑战幻觉问题多模态模型有时会生成与图片内容不符的描述。缓解方法def reduce_hallucination(image_path: str, prompt: str) - str: 减少多模态幻觉 # 使用更严格的 prompt strict_prompt f{prompt} 重要提醒 1. 只描述图片中确实存在的内容 2. 如果不确定请说图片中看不清... 3. 不要编造任何信息回答 # ... 实现长文本输出多模态模型在生成长文本时可能出现重复或偏离。解决方案包括限制 max_length使用更强的解码策略Beam Search、Diverse Beam后处理过滤重复内容总结多模态大模型代表了 AI 发展的重要方向。通过让模型同时理解和处理多种模态的信息我们能够构建更加智能和实用的应用。关键要点CLIP 范式是多模态学习的基础LLaVA 等开源模型让多模态更加可及HuggingFace Transformers 提供了统一的多模态 APILoRA 等技术可以用于多模态模型的微调多模态技术仍在快速发展中期待看到更多创新应用。

布料质感模拟私密工作流首度公开：融合PBR贴图预处理+MJ --tile指令+后期Subsurface Scattering叠加的三阶增强法

更多请点击： https://intelliparadigm.com 第一章：布料质感模拟私密工作流首度公开：融合PBR贴图预处理MJ --tile指令后期Subsurface Scattering叠加的三阶增强法布料质感在实时渲染与影视级材质制作中长期面临“高细节易破碎、平铺易露痕、…

2026/5/22 0:25:36 阅读更多

Java程序设计(第3版)第四章——类的组成

类的组成 1.属性 (1)属性又称成员变量 (2)语法：数据类型变量名; (3)定义位置:类以内，方法以外 2.方法 (1)方法又称成员方法 (2)定义public 返回值类型方法名(形参列表){//方法的实现} (3)注意此处定义方法时不加static

2026/5/22 0:25:13 阅读更多

实测在ubuntu环境下调用taotoken api的延迟与稳定性表现

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度实测在ubuntu环境下调用taotoken api的延迟与稳定性表现本文旨在分享在Ubuntu 22.04 LTS系统环境下，使用Python脚本持…

2026/5/22 0:22:26 阅读更多

创业公司如何做好用户反馈管理

创业公司如何做好用户反馈管理前言我们产品上线第一个月，收到了很多用户反馈，有好的，有差的，有时候甚至同一天收到截然相反的意见。一开始我们很迷茫：到底应该听谁的？后来我意识到，用户反馈不…

2026/5/22 1:00:05 阅读更多

《人生底稿・番外篇 15》科班不等于能干活：我的2013 Java“自救”全记录

很多人以为我是完全零基础野路子入行，其实不是。我是两年专升本软件工程科班出身，大学期间正经上过Java专业课，语法、面向对象、基础代码都学过。但真正走到企业培训、接触真实项目那一刻，我才彻底明白：学校教的&…

2026/5/22 0:59:03 阅读更多

从扁平到触手可及，Midjourney拟物化全流程拆解，含12组高复用材质参数模板与避坑清单

更多请点击： https://kaifayun.com 第一章：从扁平到触手可及：Midjourney拟物化设计范式跃迁当UI设计从iOS 7的极简扁平风席卷全球，我们曾笃信“去装饰即高级”。而Midjourney V6起悄然掀起一场静默革命——它不再满足于生成“看…

2026/5/22 0:58:19 阅读更多

ElevenLabs老挝文语音接入全链路详解：从API密钥配置、音色微调到低延迟TTS部署（含Laos Unicode编码避坑清单）

更多请点击： https://intelliparadigm.com 第一章：ElevenLabs老挝文语音接入的背景与技术挑战随着全球AI语音服务向小语种持续拓展，老挝语（Lao, ISO 639-1: lo）作为东南亚重要官方语言之一，其高质量TTS支…

2026/5/22 0:56:53 阅读更多

谷歌收录怎么做比较快？Shopify过滤5个无效参数提升商品页收录

一个拥有5000个SPU的Shopify独立站，在Google Search Console后台的网页报告中，未收录网页数量高达45000个。索引分配明细标明，超过32000个URL带有“已抓取 - 目前未索引”标签。谷歌浏览器爬虫每天分配给该站点的抓取请求固定在4000次左右。检…

2026/5/22 0:56:11 阅读更多

我在大厂做开发的5年：那些996的日子

作为一名在互联网大厂摸爬滚打五年的开发工程师，如今转型成为软件测试团队的负责人，回望过去那些被996填满的日子，我有太多话想对同为技术从业者的测试同仁们说。这些经历不仅是我个人的成长印记，更藏着开发与测试岗位在高压环境下…

2026/5/22 0:56:11 阅读更多

单日大涨4.52%！华泰柏瑞中韩半导体ETF（513310.SH）上演“高热度”行情，溢价率风险引关注

5月21日，华泰柏瑞中韩半导体ETF（513310.SH）延续强势表现，当日收盘价报5.625元，涨幅达4.52%，盘中交投异常活跃，换手率109.80%，量比为1.32，市场资金交易热情高涨。然而&…

2026/5/22 0:00:46 阅读更多

11. 架构：前端工程化与状态管理实战

写在前面：如果说后端 MVT 引擎是 GIS 系统的“心脏”，那么前端就是它的“大脑”和“面孔”。在现代 WebGIS 开发中，如何优雅地管理复杂的图层状态、如何处理海量瓦片的渲染逻辑，是决定项目成败的关键。今天，我们将深入 light-mvt-server 的前端核心，看看如何利用 Vite …

2026/5/22 0:01:27 阅读更多

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟【免费下载链接】taojinbi 淘宝淘金币自动执行脚本，包含蚂蚁森林收取能量，芭芭农场全任务，解放你的双手项目地址: https://gitcode.com/gh_mi…

2026/5/22 0:02:07 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…