现代 NLP:详细概述,第 1 部分:transformer


阿比吉特·罗伊
·

一、说明

        近五年来,随着 BERT 和 GPT 等思想的引入,我们在自然语言处理领域取得了巨大的成就。在本文中,我们的目标是逐步深入研究改进的细节,并了解它们带来的演变。

二、关注就是你所需要的

        2017 年,来自 Google Brains 的 Ashish Vaswani 与多伦多大学的同事一起提出了一种用于序列到序列任务(例如神经语言翻译和释义)的想法,该想法不同于现有的按时间步长的单字方法由 LSTM 和 RNN 实现。

        检测到的 RNN 现有架构存在的问题是:

  1. 由于我们一次添加一个单词,在长序列的情况下,很难保留信息。在使用 RNN 和 LSTM 的编码器-解码器结构模型中,隐藏向量从一个时间戳传递到另一个时间戳。然后,在最后一步中,我们将最终的上下文向量传递给解码器。与序列的前几个单词相比,传递给解码器的隐藏上下文向量对最后几个单词的影响更大,因为信息会随着时间的推移而消失。
  2. 为了解决第一点提到的问题,引入了注意力机制。这表明在解码时,我们单独关注输入序列中的单词。输入序列中的每个单词都会获得一个特定的注意力权重向量,然后将该向量乘以单词向量以创建向量的加权和。但问题是,由于我们一次一步地执行此操作,计算时间太长,而且也没有完全消除信息丢失。

2.1 想法

        变形金刚建议使用一种称为自注意力的概念。该模型将一次接收整个句子,然后使用自注意力来决定句子中其他单词在当前单词上下文中的重要性。因此,与常设循环架构相比,它具有以下优点:

  1. 在检测权重时,我们已经拥有了所有单词,因此不存在信息丢失的可能性,而且我们从双方都获得了上下文。也就是说,我们了解所选单词之前的单词和后面的单词,这有助于形成更好的上下文,而不是循环结构(Bi-LSTM 的情况除外)。
  2. 由于我们可以获得完整的句子,并且我们需要找到句子中每个单词的所有其他单词的重要性,因此我们可以对所有单词并行执行此操作。这节省了大量的处理时间并充分利用处理能力。

2.2 自注意力:构建块

        自注意力机制试图找出其他单词对于特定单词的重要性,然后创建一个组合的上下文向量来表示该单词。基本上,这意味着,如果你在句子中选择一个单词,它与句子中其他单词的相关程度有多少?众所周知,单词定义了句子的上下文,而单词的含义往往取决于上下文。这是一种找出句子上下文和相关单词的方法。

单词及其与其他单词的对应重要性

        为了实现这一点,它对句子中的每个输入单词嵌入 (xi) 使用三个向量,即查询 (Qi)、键 (Ki) 和值 (Vi)。根据论文,嵌入向量 x 的长度建议为 512。为了获得这些向量,首先定义三个权重矩阵:Wq、Wv 和 Wk。我们将每个输入词向量 Xi 与相应的权重矩阵相乘,以获得给定词的键、查询和值向量。

Qi = Xi * Wq

Vi = Xi * Wv

Ki = Xi * Wk

        为了找出单词 xi 在单词 xj 的上下文中的重要性,我们需要找到单词 xi 对应的关键向量 Ki 与单词 xj 的查询向量 Qj 的标量点积。然后点积结果除以向量 Ki 维度的平方根,即 8,因为论文中给出的 k 维度为 64。正如论文所建议的,如果我们不除法,点积值就会太大,这会导致 softmax 值变得太陡,从而产生不利于平滑学习的不良梯度。

向量计算:其中Xi是输入词的嵌入,W是权重矩阵。

        一旦我们找出了给定单词的所有单词的重要性,我们就对所有单词的结果使用 softmax。softmax 提供了所有单个单词的最终重要性,使得它们的总和为 1。接下来是单词的值 Vi 向量,我们将向量 Vi 与其相应的重要性相乘。直觉是创建单词表示的值向量,而重要性因素则为主题词的上下文赋予权重。如果一个单词与上下文单词没有关系,它的重要性值将非常非常低,因此最终的乘积向量将非常低,我们可以忽略它对任务的重要性。最后,我们取所有这些加权值向量的总和来创建该特定单词的最终上下文向量,该向量是我们从注意力块接收到的。

一个词的注意力计算

2.3 多头注意力

        我们已经看到了注意力如何工作并为每个单词产生上下文向量。本文的作者使用了多头注意力,以获得无偏的复合上下文向量。他们使用了8个这样的注意力头,为一个单词提供了8个不同的上下文向量。这个想法是,因为每个内部重量矩阵(即WQ,WV和WK)都是随机初始化的,因此每个头部初始化点的变化可能有助于捕获上下文向量中的一系列不同特征。

        最后,对于每个单词,我们都有8个上下文向量,我们将它们串联在一起以获取给定单词的代表性上下文向量。

所有关注的头脑都聚在一起

2.4 自我发挥的障碍:将所有这些结合在一起

        到目前为止,我们讨论过的任何内容都是基于句子中的一个特定单词,但是我们确实需要考虑句子中的所有单词并使系统平行。

        本文建议我们使用长度512的嵌入来表示句子中的每个单词。现在,我们已经知道,对于NLP任务,我们通常需要使用零盖来均衡句子长度。接下来,我们彼此堆叠所有512维词向量,并且由于句子中有固定的单词,我们会得到一个固定的维度2D向量来表示整个句子,这是通过整个注意力发送的。机制。

整体工作

一旦我们获得了所有单词的组合上下文向量,它就会乘以另一个权重矩阵,该矩阵集中学习并降低向量的维度。

三、变压器:体系结构

变压器架构

        变压器还遵循标准编码器架构体系结构。为了简单,更好的学习,单词向量和层的输出的维度都保持在512。模型的学习是以自动回归的方式完成的,即,单词是一个一个人生成的,对于(t+1)单词的预测,我们将t字的输出附加到输入中,然后将其馈送到模型。

        编码器:作者使用了带有2个子层的模块。第一层包含多头注意,我们在上面已经讨论过,第二个子层是完全连接的进料层。前馈层由2个连接的正常神经网络层组成。进料前层的输入和输出为尺寸512,但内部维度为2048,即,内部层中的节点数为2048。完全连接的图层使用Relu激活。作者还使用了加法和归一化层来平滑学习,并避免了我们在几个NLP和计算机视觉案例中看到的信息丢失。

因此,方程变为

output = norm(x + f(x)),其中x是输入,f()是层的转换,可以是前馈或注意块。

编码器块中有6个这样的模块。

        解码器:这与编码器块非常相似。这也有 6 个模块和类似的架构。唯一的区别是,除了已经存在的 2 个子层之外,解码器块还引入了第三个子层,这也是一个注意层,但输入被屏蔽,因此模型无法使用第 (t+1) 个时间戳单词作为输入,同时预测第 t 个单词。没有掩码的多头注意力子层从相应层的编码器获取值。因此,该层接收来自前一个解码器层和相应编码器层的输入。

掩蔽是这样实现的

        据作者称,模型在训练时以 3 种不同的方式使用了注意力层。正如我们所知,我们将所有单词的三个向量(Key、Query 和 Value)输入到注意力块中,作者使用它来更好地训练模型。

        选项 1:在这种情况下,查询来自前一个解码器层,内存键和值来自编码器的输出。这允许解码器中的每个位置关注输入序列中的所有位置。

        选项 2:在这种情况下,值和查询来自编码器中前一层的输出。编码器中的每个位置可以关注编码器上一层中的所有位置。

        选项 3:在这种情况下,值和查询来自解码器中前一层的输出。解码器中的每个位置可以参与解码器前一层中的所有位置。现在,这一点带来了屏蔽多头注意力的重要性,因为模型在 t+1 时看不到单词,所以保留了自回归属性。

最后,作者使用了一个线性变换层,然后是一个 softmax 层。

四、位置编码

        除了模型之外,本文还引入了位置编码的概念。问题是,由于本文没有使用循环网络或卷积网络,也不是基于时间步长的,作者认为应该有一些东西来表示单词的位置,因为它在表达含义中起着重要作用的句子。

        为了解决这个问题,作者提出了两种估计。

        其中 pos 是单词的位置,i 是维度,dmodel = 512,输入维度大小。编码的大小也保持在 512 维,因此可以轻松地将它们添加到词嵌入中。作者选择了这些特定函数,因为这些函数在一定偏移量后给出相同值的倍数,因此可以表示为线性函数。

五、结论

        我们已经了解了变压器的工作原理;接下来,该系列的第二个故事讲述 GPT。我们还将了解其他演变及其实现。

至此,祝您阅读愉快!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/272705.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

环保行业的物联网升级:采用钡铼技术R10

随着环境保护意识的增强和可持续发展的迫切需求,物联网技术在环保行业中扮演着越来越重要的角色。为了满足环保监测和数据采集的需求,钡铼技术R10在物联网应用中具有独特的优势。本文将探讨R10的参数和功能,并阐述其在环保行业中的应用前景。…

主流级显卡的新选择,Sparkle(撼与科技)Intel Arc A750兽人体验分享

▼前言 对于玩家而言,英特尔独显的出现不仅打破了NVIDIA与AMD双雄天下的局面,而且旗下的Arc A系列显卡还拥有不俗的做工性能以及颇具优势的价格,无论是升级或者是装新机都非常合适。如果要在Arc A系列当中选一个性能不俗,能够满足…

anaconda prompt进入虚拟环境 打开spyder

目录 1.查看有多少虚拟环境 2.conda create 指令创建新的虚拟环境 3.进入虚拟环境 4.spyder进入虚拟环境 5.退出虚拟环境 6.删除虚拟环境 1.查看有多少虚拟环境 打开anaconda prompt,输入 conda env list 2.conda create 指令创建新的虚拟环境 conda cre…

LinkedList与链表

[本节目标] 1.ArrayList的缺陷 2.链表 3.链表相关oj题 4.LinkedList的模拟实现 5.LinkedList的使用 6.ArratList和LinkedList的区别 1. ArrayList的缺陷 上篇博客已经熟悉了ArrayList的使用,并且进行了简单模拟实现,ArrayList底层使用数组来储存元素: public class Ar…

K8S 中对 Windows 节点的利用

目录 漏洞概述 漏洞详情 ​编辑 漏洞验证 补丁分析 在集群中探索 参考资料 在许多组织中,所运行的很大一部分服务和应用是 Windows 应用。Windows 容器提供了一种封装进程和包依赖项的方式,从而简化了 DevOps 实践,令 Windows 应用程序…

深入探究MongoDB:从基础到实战,一个全面的指南

MongoDB:海量数据库的介绍 定义与命名由来: MongoDB源自词“humongous”,意味着“巨大无比”。因此,MongoDB可译为“海量数据库”。类型: MongoDB是一种非关系型(NoSQL)数据库。与传统的关系型数据库相比,它的显著特点是不使用SQL语句。数据结构更灵活,没有固定的数据类…

装饰模式(单一责任)

Decorator(装饰模式:单一责任模式) 链接:装饰模式实例代码 解析 目的 在某些情况下我们可能会“过度地使用继承来扩展对象的功能”,由于继承为类型引入的静态特质,使得这种扩展方式缺乏灵活性&#xff…

【C语言】指针详解(四)

目录 1.assert断言 2.指针的使用和传址调用 2.1strlen的模拟使用 2.2传值调用和传址调用 1.assert断言 assert.h头文件定义了宏 assert(),用于在运行时确保程序符合指定条件,如果不符合,就报错终止运行。这个宏常常被称为“断言”。 例如…

【Azure 架构师学习笔记】- Power Platform(1) - 简介

本文属于【Azure 架构师学习笔记】系列。 本文属于【Power Platform】系列。 Power Platform 它是一个SaaS平台,支持和延伸M365, Dynamics 365和Azure甚至其他第三方服务。主要提供低代码,自动化,数据驱动和定制化业务逻辑的服务…

NFC物联网一次性口令认证解决方案

物联网是由无线传感器网络、射频识别(RadioFrequency Identificalion,RFID)网络、互联网等构成的一种复合型网络,具有部分终端设备体积小、存储和计算处理能力弱的特点。顾名思义,物联网就是“物物相连的互联网”,也就是说,物联网…

Spark与Hadoop的关系和区别

在大数据领域,Spark和Hadoop是两个备受欢迎的分布式数据处理框架,它们在处理大规模数据时都具有重要作用。本文将深入探讨Spark与Hadoop之间的关系和区别,以帮助大家的功能和用途。 Spark和Hadoop简介 1 Hadoop Hadoop是一个由Apache基金会…

工具系列:TimeGPT_(1)获取token方式和初步使用

文章目录 介绍获取Token用法数据的重要要求使用DateTime索引推断频率。 介绍 Nixtla的TimeGPT是一种用于时间序列数据的生成式预训练预测模型。TimeGPT可以在没有训练的情况下,仅使用历史值作为输入,为新的时间序列生成准确的预测。TimeGPT可以用于各种…

亚马逊云科技 re:Invent 大会 - ElastiCache Serverless 模式来袭

大会介绍 亚马逊云科技的 re:Invent 大会是一年一度的,面向全球技术开发者科技盛会。几乎每次都会发布云科技、云计算等相关领域的产品重磅更新,不但将时下主流热门的技术不断整合,也未将来的发展标明了方向。 亚马逊云科技开发者社区为开发…

安卓系统和鸿蒙系统,哪个更适合老人使用

安卓系统和鸿蒙系统各有优势,但总体来说,鸿蒙系统可能更适合老人使用。以下是几个原因: 1.易用性: 鸿蒙系统针对老年人的使用习惯和需求进行了优化设计。它采用了更加直观、简洁的界面设计,降低复杂度并提升操作效率。…

Vue在页面上添加水印

第一步:在自己的项目里创建一个js文件;如图所示我在在watermark文件中创建了一个名为waterMark.js文件。 waterMark.js /** 水印添加方法 */ let setWatermark (str1, str2) > {let id 1.23452384164.123412415if (document.getElementById(id) …

为什么深度学习神经网络可以学习任何东西

下图你所看到的,是著名的曼德尔布罗特集,我们可以见证这个集合呈现出的复杂形态: 要理解神经网络如何学习曼德尔布罗特集,我们首先需要从最基础的数学概念讲起:什么是函数?函数本质上是一个将输入转化为输出…

AR智慧校园三维主电子沙盘系统研究及应用

一 、概述 易图讯科技(www.3dgis.top)自主研发的智慧校园三维主电子沙盘系统,采用B/S架构模式,采用自主可控高性能WebGIS可视化引擎,支持多用户客户端通过网络请求访问服务器地图和专题数据,提供地理信息数据、专题数据的并发访问…

问题解决 | Ubuntu重启无法进入系统

Ubuntu18.04重启无法进入系统,重开后如图 一直在加载系统内核4.15.0-213-generic,无法加载 错误原因 原本的系统是Ubuntu16.04,使用命令升级到Ubuntu18.04版本,升级重启后,远程无法连接! 错误解决 第一步:进入GRUB…

java爬虫(jsoup)如何设置HTTP代理ip爬数据

目录 前言 什么是HTTP代理IP 使用Jsoup设置HTTP代理IP的步骤 1. 导入Jsoup依赖 2. 创建HttpProxy类 3. 设置代理服务器 4. 使用Jsoup进行爬取 结论 前言 在Java中使用Jsoup进行网络爬虫操作时,有时需要使用HTTP代理IP来爬取数据。本文将介绍如何使用Jsoup设…

2023年9月25日,开启华为鸿蒙应用开发新纪元!!!

鸿蒙!鸿蒙!鸿蒙! 要说2023年IT圈最火爆的名词,一定是鸿蒙! 2023年9月25日,华为发布会正式宣布2024年第一季度将推出HarmonyOS NEXT版本,这意味着鸿蒙原生应用开发将彻底摆脱Android手机系统&a…
最新文章