InternVideo终极指南：从零掌握视频基础模型的多任务实战

发布时间：2026/6/6 17:45:56

InternVideo终极指南从零掌握视频基础模型的多任务实战【免费下载链接】InternVideo[ECCV2024] Video Foundation Models Data for Multimodal Understanding项目地址: https://gitcode.com/gh_mirrors/in/InternVideoInternVideo是一个强大的视频基础模型通过创新的视频预训练技术在60多个视频/音频相关任务上实现了SOTA性能。本指南将带你全面了解InternVideo在动作识别、视频检索和时空定位等关键下游任务中的实战应用从环境配置到实际部署让你快速掌握视频理解的核心技能。项目概述与核心价值InternVideo通过结合生成式和判别式自监督学习方法能够高效捕捉视频的动态特征和语义信息。这个开源项目不仅提供了预训练模型还包含了完整的下游任务实现让开发者和研究人员能够快速应用于实际场景。核心优势多任务统一架构一个模型支持动作识别、视频检索、时空定位等多种任务零样本学习能力无需微调即可在多个数据集上达到SOTA性能开放集识别不仅能识别已知类别还能感知未知类别高效推理优化后的模型架构支持实时视频处理核心功能深度解析动作识别从零样本到精细调优InternVideo的ViCLIP模型在Kinetics数据集上实现了最先进的零样本动作识别性能支持400-700种动作类别识别。对于开放集动作识别项目基于证据深度学习(EDL)方法在UCF-101上进行微调以HMDB-51或MiT-v2作为未知类别测试集。图视频数据处理的完整流水线包括帧采样、变换和格式化等步骤开放集动作识别性能对比模型开放集AUC (%)闭合集准确率 (%)InternVideo-B EDL83.21 / 88.9896.91InternVideo-L EDL83.82 / 91.1397.36InternVideo-H EDL85.48 / 91.8597.89视频-文本跨模态检索InternVideo支持双向检索视频到文本、文本到视频在六个主流数据集上实现了显著性能提升零样本视频检索性能 MSRVTT: 视频到文本 R137.5, R1071.3 MSVD: 视频到文本 R167.6, R1094.6 VATEX: 视频到文本 R169.5, R1098.1全微调后性能 MSRVTT: 视频到文本 R157.9, R1086.4 ActivityNet: 视频到文本 R162.8, R1093.3 VATEX: 视频到文本 R186.0, R1099.6时空动作定位时空动作定位需要同时确定动作的空间位置和时间区间。InternVideo结合VideoMAE和AlphAction框架实现了精确的动作定位特别适用于AVA数据集等复杂场景。图VideoMAE用于时空动作定位的框架示意图展示视频掩码自编码器的处理流程快速上手实战指南环境配置与安装首先克隆项目并设置环境git clone https://gitcode.com/gh_mirrors/in/InternVideo cd InternVideo开放集动作识别环境配置conda create -n OSAR python3.7 -y conda activate OSAR conda install pytorch1.7.0 cudatoolkit11.0 torchvision0.8.0 -c pytorch pip install mmcv-full1.2.2 -f https://download.openmmlab.com/mmcv/dist/cu110/torch1.7.0/index.html cd InternVideo1/Downstream/Open-Set-Action-Recognition pip install -r requirements/build.txt python setup.py develop视频检索环境配置cd InternVideo1/Downstream/Video-Text-Retrieval pip install -r requirements.txt数据准备动作识别数据准备下载UCF-101和HMDB-51数据集# 下载UCF-101 wget https://www.crcv.ucf.edu/data/UCF101/UCF101.rar unrar x UCF101.rar # 下载HMDB-51 wget http://serre-lab.clps.brown.edu/wp-content/uploads/2013/10/hmdb51_org.rar unrar x hmdb51_org.rar视频检索数据准备下载MSR-VTT数据集# 下载标注文件 wget https://pjlab-my.sharepoint.cn/:u:/g/personal/wangyi_pjlab_org_cn/EREJFyTbpwFPppzv3tBlHp4BMUHu2wveRamzqDPF2AdhQQ?eVmmP4p -O annotations.zip unzip annotations.zip -d data/ # 视频预处理 python preprocess/compress_video.py --input_root raw_videos/ --output_root compressed_videos/模型训练与评估动作识别模型训练cd InternVideo1/Downstream/Open-Set-Action-Recognition/experiments/mae bash finetune_mae_edlnokl_ucf101.sh 8 # 使用8张GPU进行训练视频检索零样本评估cd InternVideo1/Downstream/Video-Text-Retrieval ./zeroshot_scripts/eval_msrvtt.sh视频检索模型微调./finetune_scripts/train_msrvtt.sh模型推理与部署动作识别推理import torch from models import VideoMAE # 加载预训练模型 model VideoMAE.from_pretrained(path/to/checkpoint) model.eval() # 处理视频输入 video_frames preprocess_video(input_video.mp4) with torch.no_grad(): predictions model(video_frames) action_class torch.argmax(predictions, dim1)视频检索推理from modules.clip_evl import CLIP_EVL # 初始化模型 model CLIP_EVL.from_pretrained(path/to/clip_checkpoint) # 文本编码 text_features model.encode_text([a person playing basketball]) # 视频编码 video_features model.encode_video(video_frames) # 计算相似度 similarity torch.matmul(text_features, video_features.T)高级特性与应用场景UniFormerV2架构详解InternVideo的核心架构基于UniFormerV2它结合了局部和全局注意力机制能够高效捕捉视频时空特征图UniFormerV2的架构示意图展示局部和全局注意力模块的协作方式架构特点局部注意力模块处理短时空间特征全局注意力模块捕捉长时序依赖关系多尺度特征融合整合不同层次的特征表示动态位置编码适应不同长度的视频输入多任务性能展示图InternVideo在各类视频任务上的性能表现涵盖动作识别、时序定位和视频检索等多个维度跨任务迁移能力Kinetics-400: 90.0% top-1准确率ActivityNet: 94.2% mAPVATEX: 86.0% R1Something-Something V2: 77.4% top-1准确率实际应用场景智能视频监控# 实时动作检测 def detect_actions_in_realtime(video_stream): frames extract_frames(video_stream, fps10) for batch in batch_frames(frames, batch_size16): predictions model(batch) actions postprocess_predictions(predictions) if is_abnormal_action(actions): alert_security(actions)视频内容检索# 基于文本的视频检索 def search_videos_by_text(query_text, video_database): text_features encode_text(query_text) similarities [] for video in video_database: video_features encode_video(video) similarity compute_cosine_similarity(text_features, video_features) similarities.append((video, similarity)) return sorted(similarities, keylambda x: x[1], reverseTrue)时空动作分析# 动作时空定位 def localize_action_in_video(video_path, action_class): video load_video(video_path) temporal_proposals generate_temporal_proposals(video) spatial_proposals generate_spatial_proposals(video) for t_start, t_end in temporal_proposals: for x1, y1, x2, y2 in spatial_proposals: clip extract_spatiotemporal_clip(video, t_start, t_end, (x1, y1, x2, y2)) confidence model.predict_action(clip, action_class) if confidence threshold: return (t_start, t_end, (x1, y1, x2, y2))性能优化与最佳实践推理速度优化GPU内存优化策略# 使用混合精度推理 from torch.cuda.amp import autocast torch.no_grad() def efficient_inference(model, video_frames): with autocast(): predictions model(video_frames.half()) # 使用半精度 return predictions # 批处理优化 def optimized_batch_processing(videos, batch_size8): results [] for i in range(0, len(videos), batch_size): batch videos[i:ibatch_size] batch preprocess_batch(batch) with torch.no_grad(): preds model(batch) results.extend(preds) return results模型压缩与量化# 模型量化 import torch.quantization def quantize_model(model): model.eval() # 准备量化 model.qconfig torch.quantization.get_default_qconfig(fbgemm) torch.quantization.prepare(model, inplaceTrue) # 校准 calibrate_with_dataset(model, calibration_dataset) # 转换为量化模型 torch.quantization.convert(model, inplaceTrue) return model数据处理优化高效视频加载from decord import VideoReader import numpy as np class EfficientVideoLoader: def __init__(self, video_path, target_fps10): self.video VideoReader(video_path) self.fps self.video.get_avg_fps() self.target_fps target_fps def get_frames(self, num_frames16): total_frames len(self.video) indices np.linspace(0, total_frames-1, num_frames, dtypeint) frames self.video.get_batch(indices).asnumpy() return frames生态集成与扩展能力与MMAction2集成InternVideo与MMAction2框架深度集成支持多种视频理解任务# 配置MMAction2 pipeline from mmaction.apis import init_recognizer, inference_recognizer config_file configs/recognition/tsn/tsn_r50_video_inference_1x1x3_100e_kinetics400_rgb.py checkpoint_file checkpoints/tsn_r50_1x1x3_100e_kinetics400_rgb_20200614-e508be42.pth model init_recognizer(config_file, checkpoint_file, devicecuda:0) result inference_recognizer(model, demo.mp4)自定义任务扩展添加新数据集支持# 在InternVideo1/Downstream/Video-Text-Retrieval/dataloaders/中添加新数据集 class CustomVideoTextDataset(torch.utils.data.Dataset): def __init__(self, video_dir, annotation_file, transformNone): self.video_dir video_dir self.annotations self.load_annotations(annotation_file) self.transform transform def __getitem__(self, idx): video_path self.annotations[idx][video] caption self.annotations[idx][caption] # 加载视频帧 frames self.load_video_frames(video_path) if self.transform: frames self.transform(frames) return { video: frames, text: caption, video_id: idx }多模态扩展音频-视频联合学习from models.internvideo2_stage2_audiovisual import InternVideo2Stage2AudioVisual class MultiModalInternVideo: def __init__(self, visual_checkpoint, audio_checkpoint): self.visual_model InternVideo2Stage2Visual.from_pretrained(visual_checkpoint) self.audio_model InternVideo2Stage2Audio.from_pretrained(audio_checkpoint) self.fusion_layer nn.Linear(2048, 1024) def forward(self, video_frames, audio_features): visual_features self.visual_model(video_frames) audio_features self.audio_model(audio_features) fused_features torch.cat([visual_features, audio_features], dim-1) return self.fusion_layer(fused_features)常见问题与解决方案安装问题问题1CUDA版本不匹配# 查看CUDA版本 nvcc --version # 安装对应版本的PyTorch pip install torch1.7.0cu110 torchvision0.8.0cu110 -f https://download.pytorch.org/whl/torch_stable.html问题2MMCV安装失败# 指定正确的版本 pip install mmcv-full1.2.2 -f https://download.openmmlab.com/mmcv/dist/cu110/torch1.7.0/index.html训练问题问题1内存不足# 减小批处理大小 batch_size 4 # 从8减小到4 gradient_accumulation_steps 2 # 使用梯度累积 # 使用梯度检查点 model.gradient_checkpointing_enable()问题2训练不收敛# 调整学习率调度 from torch.optim.lr_scheduler import CosineAnnealingWarmRestarts scheduler CosineAnnealingWarmRestarts( optimizer, T_010, # 初始周期 T_mult2, # 周期倍增因子 eta_min1e-6 # 最小学习率 )推理问题问题1推理速度慢# 使用TensorRT加速 import tensorrt as trt def convert_to_tensorrt(model, input_shape): # 转换为ONNX torch.onnx.export(model, dummy_input, model.onnx) # 使用TensorRT优化 trt_logger trt.Logger(trt.Logger.WARNING) builder trt.Builder(trt_logger) network builder.create_network() # ... TensorRT转换代码 return trt_engine问题2视频格式不支持# 使用ffmpeg转换视频格式 import subprocess def convert_video_format(input_path, output_path, target_formatmp4): cmd [ ffmpeg, -i, input_path, -c:v, libx264, -preset, fast, -crf, 23, -c:a, aac, -b:a, 128k, output_path ] subprocess.run(cmd, checkTrue)未来发展与社区贡献路线图规划短期目标1-3个月支持更多视频数据集优化推理速度目标提升30%添加更多下游任务支持中期目标3-6个月支持实时视频流处理集成更多预训练模型提供Web API服务长期目标6-12个月支持3D视频理解集成语音识别模块构建完整的视频理解平台社区贡献指南如何提交代码# Fork项目 git clone https://gitcode.com/gh_mirrors/in/InternVideo cd InternVideo # 创建新分支 git checkout -b feature/new-feature # 提交更改 git add . git commit -m Add new feature: [描述] # 推送到远程仓库 git push origin feature/new-feature代码规范# 遵循PEP 8规范 def process_video_frames(frames, transformNone): 处理视频帧 Args: frames: 输入视频帧形状为[T, H, W, C] transform: 可选的图像变换 Returns: 处理后的视频帧 if transform is not None: frames transform(frames) return frames性能基准测试推理速度基准模型输入分辨率批大小GPU内存推理时间msInternVideo-S224×224168GB45InternVideo-B224×224812GB78InternVideo-L224×224416GB125准确率基准任务数据集InternVideo-SInternVideo-BInternVideo-L动作识别Kinetics-40078.2%84.5%90.0%视频检索MSRVTT52.3%57.9%61.2%时空定位AVA28.7 mAP32.4 mAP35.1 mAP实用资源官方文档核心源码InternVideo1/Downstream/预训练模型InternVideo1/Pretrain/示例代码Data/预训练模型下载# 下载ViCLIP预训练权重 wget https://pjlab-my.sharepoint.cn/:u:/g/personal/wangyi_pjlab_org_cn/EREJFyTbpwFPppzv3tBlHp4BMUHu2wveRamzqDPF2AdhQQ?eVmmP4p -O viclip_pretrained.pth # 下载VideoMAE预训练权重 wget https://pjlab-my.sharepoint.cn/:u:/g/personal/wangyi_pjlab_org_cn/EREJFyTbpwFPppzv3tBlHp4BMUHu2wveRamzqDPF2AdhQQ?eVmmP4p -O videomae_pretrained.pth总结InternVideo作为一个强大的视频基础模型为视频理解任务提供了完整的解决方案。通过本指南你已经掌握了从环境配置、模型训练到实际部署的全流程。无论是零样本应用还是精细调优InternVideo都能提供高效可靠的解决方案。图InternVideo在多轮视频问答任务中的表现展示其强大的视频理解和对话能力关键收获易用性提供了完整的代码库和预训练模型降低使用门槛高性能在多个基准测试中达到SOTA性能灵活性支持多种下游任务和自定义扩展社区支持活跃的开发社区和持续的更新维护现在就开始你的视频理解之旅探索InternVideo在智能监控、内容检索、视频编辑等领域的无限可能【免费下载链接】InternVideo[ECCV2024] Video Foundation Models Data for Multimodal Understanding项目地址: https://gitcode.com/gh_mirrors/in/InternVideo创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

STM32 GSM短信PDU模式实战：从编码到抄表系统应用

1. 项目背景与核心挑战最近在折腾一个基于STM32的远程抄表项目，核心功能是通过GSM模块（我手头用的是经典的TC35i）自动上报电表读数。原理图刚画完，静下心来一想，整个系统的“灵魂”其实不在STM32本身，而在于…

2026/6/6 17:45:36 阅读更多

如何实现跨设备按键映射：开源工具QKeyMapper的完整使用指南

如何实现跨设备按键映射：开源工具QKeyMapper的完整使用指南【免费下载链接】QKeyMapper [按键映射工具] QKeyMapper，Qt开发Win10&Win11可用，不修改注册表、不需重新启动系统，可立即生效和停止。支持游戏手柄映射到键鼠&#…

2026/6/6 17:44:35 阅读更多

淘金币自动化脚本终极指南：每天节省30分钟，淘宝任务一键完成

淘金币自动化脚本终极指南：每天节省30分钟，淘宝任务一键完成【免费下载链接】taojinbi 淘宝淘金币自动执行脚本，包含蚂蚁森林收取能量，芭芭农场全任务，解放你的双手项目地址: https://gitcode.com/gh_mirrors/ta/t…

2026/6/6 17:43:55 阅读更多

二十五、预处理详解

👉 欢迎阅读这篇文章 👇 目录1、预定义符号2、#define定义常量3、#define定义宏4、带有副作用的宏参数5、宏替换规则6、宏和函数对比7、#和##7.1#运算符7.2##运算符8、命名约定9、#undef10、命令行定义11、条件编译12、头文件包含12.1本地文件包含12.2库…

2026/6/6 20:18:26 阅读更多

分享一个免费下载全行业报告的宝藏网站，职场人亲测好用

做市场分析、行业调研、求职复盘、商业策划的朋友，应该都有过同款困扰：想找一份靠谱的行业报告参考，要么平台收费昂贵，单份报告动辄几十上百元；要么资源杂乱，搜到的内容老旧残缺，数据滞后严重&a…

2026/6/6 20:18:26 阅读更多

告别裸奔！用CubeMX+Keil给STM32F407装上RTX5实时系统（保姆级图文教程）

从裸机到RTOS：STM32F407实战RTX5实时系统全流程解析第一次在STM32F407上看到LED灯按照不同频率交替闪烁时，那种感觉就像魔术师第一次成功变出鸽子——明明代码里写着的是顺序执行，怎么就能"同时"做两件事了？这就是RTOS…

2026/6/6 20:17:25 阅读更多

信号上升时间与带宽：高速电路设计的核心挑战与工程实践

1. 从一次“诡异”的波形抖动说起几年前，我接手一个高速SerDes接口的PCB设计复查。硬件同事信誓旦旦地说，链路速率才1.25Gbps，按照以往经验，走线长度控制、阻抗匹配都做得不错，仿真眼图也勉强过关。但第一批样机回来&a…

2026/6/6 20:16:45 阅读更多

JuiceFS 1.4｜大规模元数据操作优化：批量删除、克隆与 Redis 缓存全解析

在 AI 训练、数据集管理等大规模文件访问场景中，随着文件数量和访问并发增加，元数据层往往更早成为性能瓶颈。无论是删除百万级小文件、克隆大规模数据集，还是高并发目录遍历，元数据引擎的响应能力都会直接影响上层业务效率。 Jui…

2026/6/6 20:16:45 阅读更多

基于STM32的智能充电器设计：从Buck电路到充电算法的完整实践

1. 项目概述：一个基于STM32的智能充电器设计复盘十多年前，我还在做消费电子硬件开发，当时市面上很多充电器还是傻充，要么是简单的恒压，要么是简单的恒流，对电池寿命和充电安全都不太友好。于是，…

2026/6/6 20:16:25 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/6 9:33:43 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/6 8:10:10 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/6 9:33:50 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…