自监督学习(Self-supervised Learning)李宏毅

目录

Self-supervised Learning简介:

BERT :

How to use BERT

case1:sequence to class 语言积极性OR消极性判断

case2:sequence to sequence句子中的词语词性标注

case3:sequence×2 to class两个句子是不是一个为前提一个为假设

case4:QA问题(要求答案一定会出现在原文里)输出的数字是答案在原文的起始和结尾位置

Why does BERT work?

GPT


Self-supervised Learning简介:

        supervised Learning为输入一个x经过Model之后输出成一个y,然后根据label里的正确y进行比较,但是如果没有label怎么办?

         Self-supervised Learning可以把输入文件中的x转换为x1x2,用x1作为输入用x2作为label。所以Self-supervised Learning中没有label,可以看成Unsupervised Learning。

BERT :

        BERT是一个Transformer Encoder 输入输出是一个等长的向量。训练的时候是在做填空题的时候,随机盖住一个字softmax之后的输出来判别这个盖住的字是所有汉字中的哪一个(把所有的每一个汉字看成一个class)?然后和truth进行比较。

训练的时候也做了接收一对句子,并判断第二个句子是否是第一个句子的自然延续。
这个任务有助于模型理解句子之间的关系。

它可以解决SOP问题,即判断两句话的语序是否为颠倒。

BERT功能强大,在进行pre训练之后,进行微调就可以用到多种场景

GLUE(General Language Understanding Evaluation)一般语言理解评估,评估一般模型的能力。包括九个任务。BERT在NLP领域比较适用。

How to use BERT

case1:sequence to class 语言积极性OR消极性判断

在Linear的时候,采用随机初始化的参数,在BERT的仍要提供一些标注的资料,利用填空训练出来的模型比随机初始化参数的模型LOSS下降的更快,且最后的LOSS数值更小。

case2:sequence to sequence句子中的词语词性标注

BERT的参数不是随机初始化的

case3:sequence×2 to class两个句子是不是一个为前提一个为假设

 

case4:QA问题(要求答案一定会出现在原文里)输出的数字是答案在原文的起始和结尾位置

Why does BERT work?

“苹果手机”和“喝苹果汁”的两个果是不是相似的呢?(黄色越深代表相似度越高)

答案是不相似的

Multi-lingual BERT

发现训练完一个语言的BERT之后他就自动的具备了另一个语言的功能,

认为是不同的语言意思差不多的词在几乎相近的向量空间上

GPT

        训练方式自回归语言建模(Autoregressive Language Modeling):
在训练时,GPT的任务是给定一段文本的前面部分,预测接下来的一个词或标记。
换句话说,GPT会根据上下文信息逐步生成文本,每次生成一个单词(或更精确的标记),然后使用这个生成的标记作为下一个预测的输入。
举个例子,如果给定文本是:“The cat is on the”,GPT的任务是预测下一个词是“mat”或其他合理的词。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48994.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek实战--微调

1.为什么是微调 ? 微调LLM(Fine-tuning Large Language Models) 是指基于预训练好的大型语言模型(如GPT、LLaMA、PaLM等),通过特定领域或任务的数据进一步训练,使其适应具体需求的过程。它是将…

蓝桥杯FPGA赛道第二次模拟题代码

一、顶层文件 module test( input wire sys_clk, input wire sys_rst, input wire [3:0]key_in, output reg [7:0]led,output wire scl, inout wire sda,//i2c的信号output wire [7:0]sel, output wire [7:0]seg//数码管的驱动 );wire [23:0] data ; reg [31:0] dsp_dat…

R 语言机器学习:为遥感数据处理开启新视角

技术点目录 基础理论、机器学习与数据准备建模与空间预测实践案例与项目了解更多 ——————————————————————————————————————————— 前言综述 在当今科技快速发展的时代,遥感技术为生态学研究提供了海量的数据资源&#xf…

AI与脑机接口:人机融合的终极形态?

AI与脑机接口:人机融合的终极形态? 系统化学习人工智能网站(收藏):https://www.captainbed.cn/flu 文章目录 AI与脑机接口:人机融合的终极形态?摘要引言技术路线对比1. 信号采集:侵…

20250508在WIN10下使用移远的4G模块EC200A-CN直接上网

1、在WIN10/11下安装驱动程序:Quectel_Windows_USB_DriverA_Customer_V1.1.13.zip 2、使用移远的专用串口工具:QCOM_V1.8.2.7z QCOM_V1.8.2_win64.exe 3、配置串口UART42/COM42【移远会自动生成连续三个串口,最小的那一个】 AT命令&#xf…

南京大学OpenHarmony技术俱乐部正式揭牌 仓颉编程语言引领生态创新

2025年4月24日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与南京大学软件学院共同举办的“南京大学OpenHarmony技术俱乐部成立大会暨基础软件与生态应用论坛”在南京大学仙林校区召开。 大会聚焦国产自主编程语言…

中小企业设备预测性维护:从技术原理到中讯烛龙实践落地指南

在工业 4.0 与智能制造浪潮的推动下,中小企业正面临设备管理模式的深刻变革。传统的事后维修与预防性维护策略,因缺乏数据驱动与智能决策能力,已难以满足企业降本增效的核心诉求。据 Gartner 统计,非计划停机导致的生产损失平均每…

服务器数据恢复—硬盘坏道导致EqualLogic存储不可用的数据恢复

服务器存储数据恢复环境&故障: 一台EqualLogic某型号存储中有一组由16块SAS硬盘组建的RAID5阵列。上层采用VMFS文件系统,存放虚拟机文件,上层一共分了4个卷。 磁盘故障导致存储不可用,且设备已经过保。 服务器存储数据恢复过程…

STM32的SysTick

SysTick介绍 定义:Systick,即滴答定时器,是内核中的一个特殊定时器,用于提供系统级的定时服务。该定时器是一个24位的递减计数器,具有自动重载值寄存器的功能。当计数器到达自动重载值时,它会自动重新加载…

电子电气架构 --- 如何有助于提安全性并减少事故

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 钝感力的“钝”,不是木讷、迟钝,而是直面困境的韧劲和耐力,是面对外界噪音的通透淡然。 生活中有两种人,一种人格外在意别人的眼光;另一种人无论…

跨浏览器自动化测试的智能生成方法

一、背景与挑战:跨浏览器测试为什么“难”? 在现代Web应用开发中,跨浏览器兼容性是用户体验的底线保障。面对Chrome、Firefox、Safari、Edge乃至IE、移动浏览器等多种运行环境,开发者与测试人员常面临: 相同DOM在不同…

小程序与快应用:中国移动互联网的渐进式革命——卓伊凡的技术演进观

小程序与快应用:中国移动互联网的渐进式革命——卓伊凡的技术演进观 在知乎看到很多:“懂王”发布的要把内行笑疯了的评论,卓伊凡必须怼一下,真印证那句话,无知者无畏 一、Web与小程序的技术本质差异 1.1 浏览器渲染…

抛物线法(二次插值法)

抛物线法简介 抛物线法(Quadratic Interpolation Method)是一种用于一维单峰函数极值搜索的经典优化方法。该方法通过在区间内选取三个不同的点,拟合一条二次抛物线,并求取这条抛物线的极值点作为新的迭代点,从而逐步…

记录一次华为魔改 fusionlnsight和ai问答的狗血故事

需求 需要通过客户端连接 fusionlnsight 平台,平台开启了高可用和 kerberos 认证 。现在需要连接时不使用高可用连接,也就是不使用 zookeeper,适用ip:port 直连。 踩坑记录 尝试使用 平台上面的主节点的ip10000默认端口连接,连…

【杂谈】Godot 2D游戏窗口设置

如切如磋,如琢如磨。 目录 一、引言二、设置(一)基本尺寸(二)拉伸(三)手持设备朝向(四)​​窗口模式​​ 一、引言 在开发2D游戏时,​​窗口尺寸的设定是游戏…

mac 使用 Docker 安装向量数据库Milvus独立版的保姆级别教程

Milvus 特点:开源的云原生向量数据库,支持多种索引类型和GPU加速,能够在亿级向量规模下实现低延迟高吞吐。具有灵活的部署选项和强大的社区支持。 适用场景:适合处理超大规模数据和高性能需求的应用,如图像搜索、推荐…

(14)Element Plus项目综合案例

本系列教程目录:Vue3Element Plus全套学习笔记-目录大纲 文章目录 第3章 综合案例3.1 搭建项目3.1.1 创建Vite工程3.1.2 配置路由 3.2 登录模块页面3.2.1 注册页面3.2.2 登录页面3.2.3 忘记密码页面 3.3 导航设置3.3.1 头部3.3.2 侧边栏与底部1)头像部分…

基于腾讯云MCP广场的AI自动化实践:爬取小红书热门话题

基于腾讯云MCP广场的AI自动化实践:爬取小红书热门话题 我正在参加Trae「超级体验官」创意实践征文,本文所使用的 Trae 免费下载链接:www.trae.com.cn/?utm_source… 🔎 背景 在人工智能快速发展的时代,AI技术不仅重…

C++从入门到实战(十四)初识STL与STL简介

C从入门到实战(十四)初识STL与STL简介 前言一、什么是 STL?二、STL 的版本三、STL六大组件(目前了解即可,后面会逐步讲解)1. 容器(Containers)—— 装数据的“盒子”2. 算法&#xf…

【LeetCode 42】接雨水(单调栈、DP、双指针)

题面: 思路: 能接雨水的点,必然是比两边都低(小)的点。有两种思路,一种是直接计算每个点的最大贡献(也就是每个点在纵向上最多能接多少水),另一种就是计算每个点在横向上…