在前几篇文章中我们围绕 ViT 的自监督预训练路线进行了连续梳理。MAE 的核心思想是遮住大部分图像 patch让模型重建被遮挡区域的像素。BEiT 的核心思想是先用视觉 tokenizer 把图像转换成离散 visual token再让模型预测被 mask 位置对应的 visual token。DINO 的核心思想是不使用人工标签也不重建图像而是通过 teacher-student 自蒸馏让 ViT 学到稳定的语义表示。这些方法虽然形式不同但它们本质上都在回答同一个问题没有人工类别标签时ViT 如何从图像本身学习视觉表示而 CLIP 开始回答另一个更大的问题能不能直接利用互联网上大量的图像和文本描述让模型学会把图像和语言对齐这意味着ViT 不再只是一个图像分类 backbone而开始进入 图文多模态预训练 阶段。CLIP 对应的论文是 Learning Transferable Visual Models From Natural Language Supervision由 Alec Radford 等人提出发表于 ICML 2021。论文提出使用 4 亿个互联网图文对进行预训练通过“判断哪张图和哪句话匹配”的对比学习任务学习可迁移的视觉表示并支持 zero-shot 图像分类。
18 CLIP 论文精读:ViT 如何走向图文多模态?(Learning Transferable Visual Models From Natural Language Supervision)
在前几篇文章中我们围绕 ViT 的自监督预训练路线进行了连续梳理。MAE 的核心思想是遮住大部分图像 patch让模型重建被遮挡区域的像素。BEiT 的核心思想是先用视觉 tokenizer 把图像转换成离散 visual token再让模型预测被 mask 位置对应的 visual token。DINO 的核心思想是不使用人工标签也不重建图像而是通过 teacher-student 自蒸馏让 ViT 学到稳定的语义表示。这些方法虽然形式不同但它们本质上都在回答同一个问题没有人工类别标签时ViT 如何从图像本身学习视觉表示而 CLIP 开始回答另一个更大的问题能不能直接利用互联网上大量的图像和文本描述让模型学会把图像和语言对齐这意味着ViT 不再只是一个图像分类 backbone而开始进入 图文多模态预训练 阶段。CLIP 对应的论文是 Learning Transferable Visual Models From Natural Language Supervision由 Alec Radford 等人提出发表于 ICML 2021。论文提出使用 4 亿个互联网图文对进行预训练通过“判断哪张图和哪句话匹配”的对比学习任务学习可迁移的视觉表示并支持 zero-shot 图像分类。
相关文章
Element-Plus-Admin:如何用Vite+TypeScript构建现代化后台管理系统?
Element-Plus-Admin:如何用ViteTypeScript构建现代化后台管理系统? 【免费下载链接】element-plus-admin 基于vitetselementPlus 项目地址: https://gitcode.com/gh_mirrors/el/element-plus-admin Vue3后台管理系统开发正面临技术栈升级的挑战&a…
人工智能培训-武汉第二天
markdown mermaid 生成流程图 、甘特图 (使用draw开源软件)md xmind 生成思维导图AIxml 生成SVG矢量图(版式草图)AI处理Excel表格实例基础表:减少手工输入1)下拉菜单2)尽量用“引用”,默认是相…
5分钟搞定Windows桌面整理:免费开源的NoFences终极指南
5分钟搞定Windows桌面整理:免费开源的NoFences终极指南 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为杂乱的Windows桌面图标而烦恼吗?每次寻找…
Keil工具链目标文件格式解析与应用
1. Keil开发工具生成的目标文件格式解析作为一名嵌入式开发工程师,我经常需要处理各种编译器生成的目标文件。Keil作为嵌入式开发领域的经典工具链,其生成的文件格式直接影响着我们的开发流程和调试方式。今天就来详细解析Keil各系列工具生成的目标文件格…
LRCGET:本地音乐歌词批量下载终极指南,让你的音乐库焕然一新
LRCGET:本地音乐歌词批量下载终极指南,让你的音乐库焕然一新 【免费下载链接】lrcget Utility for mass-downloading LRC synced lyrics for your offline music library. 项目地址: https://gitcode.com/gh_mirrors/lr/lrcget 你是否厌倦了手动为…
服务通信模式选择完全指南
服务通信模式选择完全指南 前言 在微服务架构中,服务间通信是核心基础设施之一。选择合适的通信模式直接影响系统的性能、可靠性和可维护性。本文将详细介绍同步通信和异步通信的各种模式,以及如何根据业务场景做出最佳选择。 一、服务通信概述 1.1 通信…
刚刚,马斯克公开SpaceX招股书!
一水 发自 凹非寺量子位 | 公众号 QbitAI马斯克OpenAI“世纪官司”刚落槌,两家又开始抢谁先IPO了。对了补充一下,老马的这次起诉“败了”,理由是法院认为他告得太晚,整件事过了诉讼时效。好嘛,眼见给OpenAI使绊子不成&…
顺丰邮政仓库干活的机器人,顺手拿了个具身高考第一
田晏林 发自 凹非寺量子位 | 公众号 QbitAI现在,具身智能行业出现了一个非常明显的变化。全球机器人公司,开始集体「卷真机」了。前几天,Figure做物流分拣,直接开了一场724小时直播;Physical Intelligence也在不断尝试…
一文读懂分布式 Agent Swarm:让智能体团队真正跨节点协作
人工智能技术应用已走向深水区,AI 智能体面对的任务复杂度正呈指数级上升。如何保障多个 Agent 在高压场景下稳定分工、高效协同并精准执行?这已成为多智能体系统落地生产环境的核心瓶颈。 为了攻克这一难题,openJiuwen 持续深耕Coordinatio…
单日大涨4.52%!华泰柏瑞中韩半导体ETF(513310.SH)上演“高热度”行情,溢价率风险引关注
5月21日,华泰柏瑞中韩半导体ETF(513310.SH)延续强势表现,当日收盘价报5.625元,涨幅达4.52%,盘中交投异常活跃,换手率109.80%,量比为1.32,市场资金交易热情高涨。然而&…
11. 架构:前端工程化与状态管理实战
写在前面: 如果说后端 MVT 引擎是 GIS 系统的“心脏”,那么前端就是它的“大脑”和“面孔”。在现代 WebGIS 开发中,如何优雅地管理复杂的图层状态、如何处理海量瓦片的渲染逻辑,是决定项目成败的关键。 今天,我们将深入 light-mvt-server 的前端核心,看看如何利用 Vite …
淘金币自动化脚本终极指南:10分钟搞定淘宝日常任务,每天为你节省20分钟
淘金币自动化脚本终极指南:10分钟搞定淘宝日常任务,每天为你节省20分钟 【免费下载链接】taojinbi 淘宝淘金币自动执行脚本,包含蚂蚁森林收取能量,芭芭农场全任务,解放你的双手 项目地址: https://gitcode.com/gh_mi…
【实用小程序】超轻量级文件上传下载中心 (File Download Server)
站内源码及jar包下载 一、项目概述 文件下载中心一个基于 Java 内置 HTTP 服务器(com.sun.net.httpserver)构建的轻量级文件管理服务。它零第三方依赖,单 JAR 包即可运行,适合在内网环境或临时场景中快速搭建文件共享站点。 你的团队需要临时共享一批日志文件或交付物,…
py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)
加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<
终极轻量级Android文本编辑器Markor:多格式笔记应用完全指南
终极轻量级Android文本编辑器Markor:多格式笔记应用完全指南 【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…
MPC-BE:基于DirectShow架构的专业级开源媒体播放解决方案
MPC-BE:基于DirectShow架构的专业级开源媒体播放解决方案 【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…
如何快速计算3D模型体积和重量:STL-Volume-Model-Calculator终极指南
如何快速计算3D模型体积和重量:STL-Volume-Model-Calculator终极指南 【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…
通过Taotoken CLI工具一键配置团队开发环境与模型密钥
通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队,推荐全局安装: npm install -g taotoken/taotoken对于临时使用或项目级配置&a…