[学习笔记]刘知远团队大模型技术与交叉应用L6-基于大模型文本理解和生成介绍

介绍

NLP的下游运用可以分为:NLU(理解)和NLG(生成)
信息检索:NLU
文本生成:NLG
机器问答:NLU+NLG
在这里插入图片描述

大模型在信息检索

在这里插入图片描述
在这里插入图片描述

大模型在机器问答

在这里插入图片描述

大模型在文本生成

在这里插入图片描述

信息检索-Information Retrieval (IR)

背景

谷歌搜索引擎目前同时集成了文档排序和问答系统。

在这里插入图片描述

定义和评测

如何定义IR任务

IR系统分为两个阶段:
Retrieval阶段:对整个文档库排序后,抽回一部分相关文档的子集。主要考虑召回率。
Re-Rankink阶段:精排序

在这里插入图片描述

如何评测

IR中常用的评价指标为MRR、MAP、NDCG

平均倒数排名-MRR

只会考虑排名最靠前的相关文档的排名
在这里插入图片描述

平均准确率-MAP

会考虑所有相关文档。
在这里插入图片描述

归一化的折损累计增益-NDCG

这个指标是商业的搜索引擎或是推荐系统中最常用的评价指标。
前两个指标抽回的文档只有相关和不相关两个等级。NDCG有更细粒度的相关等级划分。
在这里插入图片描述

传统方法

BM25

BM25是一种典型的基于词汇匹配的IR方法。
其中k和b是可调节的超参数。
tf是词频:query中的每个词在文档中出现的频率。
idf是逆文档的频率:评估查询中的一个词汇在所有文档中常见或稀缺的程度。例如一个查询词在所有文档中都常见,则idf分数会很低。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

存在的问题-词汇失配

在这里插入图片描述

存在的问题-语义失配

在这里插入图片描述

神经网络方法-大模型

下面介绍两种架构:Cross-Encoder,Dual-Encoder

Neural IR

在Re-ranking阶段主要使用cross-encoder架构:query和doc进行词汇级别的拼接,然后喂给大模型。经过大模型之后生成q-d的表示,最后得到相关性分数。
好处是:精细,效果好。
缺点是:计算代价高。

在Retrieval阶段主要使用Dual-encoder架构:使用双塔架构,对query和doc分别进行编码,经过大模型,形成两个独立向量,再去计算向量的相似性。
好处是:计算开销较小。
在这里插入图片描述

Cross-Encoder

在这里插入图片描述
在这里插入图片描述

Dual-Encoder

在这里插入图片描述
Dual-Encoder的好处是,因为是分开编码的。所以可以对整个文档库提前编码好,将其向量存起来。有新的query进来,只需要编码query,然后用最近邻找到相关的文档。

在这里插入图片描述
在这里插入图片描述

前沿热点

Fine-tuning中的负例增强

in-batch negative:同一batch的正例可以作为其他query的负例
random negative:随机从文档库中采样,作为负例
BM25 negative:先用BM25针对每个query抽回一些top k文档,再把相关的删除,剩余就是不相关的。
在这里插入图片描述
下面介绍一篇ICLR2021的工作:训练过程中,使用模型本身去挖掘更难的负样本。
具体地,在模型训练过程中,异步维护一个inferencer的程序。每隔k步将最新的模型拿去做inference,把排名靠前的难负样本抽回来。再加到新的一轮训练中,不断迭代。

在这里插入图片描述
在这里插入图片描述
RocketQA引入了建模更精细的Cross-Encoder帮助Dual-Encoder筛选难负例,再加到Dual-encoder的训练中。
在这里插入图片描述

预训练阶段

为encoder配置弱的decoder,迫使中间的cls token具有更强的表达能力。

在这里插入图片描述

Few-Shot IR

有些网页天然缺乏用户的点击,用户的监督。
有一些涉及到隐私的个人检索,企业检索,他们的数据无法公开获得。
在医学和法律的检索领域,人工标注比较昂贵。
在这里插入图片描述
所以一部分研究是考虑如何用弱监督的数据去取代监督数据。生成弱监督数据的方式可以包含,titile和文档组成的q-d对,锚文本和文档组成的q-d对,文档和相应大语言生成q-d对。

在这里插入图片描述
弱监督数据的筛选:
但这些弱监督数据没有经过人工标注,可能存在噪声。于是可以经过筛选,具体的,通过训练和反馈的方式构建强化学习过程。
在这里插入图片描述
另一种方法是:meta-learning数据筛选
在这里插入图片描述

Zero-shot IR

训练好一个大模型之后,直接迁移到其他领域。

在这里插入图片描述

其他课题

  • 对话检索
  • 如何检索长文档
    在这里插入图片描述

机器问答

介绍

主要的机器问答类型:机器阅读理解、开放域问答、基于知识库问答、对话式QA

在这里插入图片描述

机器阅读理解

任务定义

在这里插入图片描述

  • 完形填空
    在这里插入图片描述
  • 多选
    在这里插入图片描述
  • 抽取式阅读理解(原文找答案)
    在这里插入图片描述

经典方法和pipeline

1.文档和问题分别进行编码
2.汇成一个向量
3.文章和问题进行交互
4.融合后的向量通过MLP来进行预测

在这里插入图片描述
实例:BiDAF
在这里插入图片描述

大模型方法

只需要大模型就可以将前三层直接替代

在这里插入图片描述
基于bert的问答系统
将问题和doc输入到bert中,再拿cls embedding出来,然后进行分类任务
在这里插入图片描述
在SQuAD这个非常流行的抽取式QA数据集上,只用bert就取得了很好的成绩。

在这里插入图片描述
除了简化了pipeline,大模型用于QA的另一个好处是可以统一不同任务的形式,统一为text to text的形式。这保证了迁移性。
在这里插入图片描述

开放式QA

有语料库,但是没有具体的文档。开放式QA有两种类型:生成式方法、检索式的方法

生成式方法

在这里插入图片描述
在这里插入图片描述

检索式方法

在这里插入图片描述

大模型之前

检索
在这里插入图片描述
阅读理解
在这里插入图片描述

大模型方法

如何用检索来辅助大模型的预训练过程。让大模型在下游的机器问答环节中表现更好。
REALM在预训练过程中也加入检索任务。相当于把预训练也当成开放式QA的任务,在预训练时,同时训练大模型和知识的检索器。

在这里插入图片描述
让大模型根据检索到的语料库来回答答案。
在这里插入图片描述

WebGPT

在这里插入图片描述
在这里插入图片描述

文本生成

介绍

data-to-text: 可以把一些非语言性的表示的信息,通过模型,以人类可以理解的语言表示出来。
text-to-text

在这里插入图片描述

文本生成任务

在这里插入图片描述

Data-to-Text

在这里插入图片描述

对话生成

在这里插入图片描述

机器翻译

在这里插入图片描述

诗歌生成

在这里插入图片描述

风格转义

在这里插入图片描述

故事生成

在这里插入图片描述

总结生成

在这里插入图片描述

神经网络文本生成

语言建模-Language Modeling

在这里插入图片描述

有条件的语言建模

在这里插入图片描述
例子:seq2seq

在这里插入图片描述
在这里插入图片描述

比较知名的模型:T5

在这里插入图片描述
T5是在一个被清洗过的爬取的数据集上训练的。输入时,会将其中一部分mask,
在这里插入图片描述

自回归的生成

在这里插入图片描述
经典的模型:GPT
在这里插入图片描述
GPT-2

在这里插入图片描述

非自回归的生成

在这里插入图片描述
非自回归的生成,可以一下子同时生成文本。
在这里插入图片描述

解码策略

模型得到的是概率。如何将概率解码得到文本。

贪心编码-Greedy Decoding

选择概率最大的token。
但是可读性可能比较差。
在这里插入图片描述

Beam Search Decoding

寻找一个子序列。但这样只是获得了局部的最优解,并不一定是全局的。
在这里插入图片描述
过程演示:
在这里插入图片描述
参数k很重要。
增大k的话,会生成更通用,但是和input text更无关的句子。
在这里插入图片描述
在这里插入图片描述

Sampling-based Decoding
  • Pure sampling:随机从词表选token,对于概率大的词以较大概率去选。模型的多样性会大大增加。

为了防止一些概率很小的词出现,又引入top-n和top-p来限制模型生成的范围。

  • Top-n sampling:不是在整个词表上采样,而是在n个最有可能概率的词上采样。
  • Top-p sampling:首先是概率最大的token,而且这些token的概率加起来大于等于阈值p

在这里插入图片描述

  • Sampling with temperature
    送入softmax之前会除以一个temperature。不同的temperature对应的是不同的生成策略。
    t高,则生成的文本更多样。
    t低,则生成的文本更相关。

在这里插入图片描述

受控文本生成

如何保持文本控制性和文本质量是一种重要课题。

Prompt methods
  • 文本前面加prompt
    在这里插入图片描述
  • 模型前面加prefix
    在这里插入图片描述
修改概率分布

除了基础模型,还会训练两个模型:生成非歧视文本的天使LM,生成有歧视文本的恶魔LM。
生成的时候希望生成语言的概率贴近天使模型,而去远离恶魔模型。
在这里插入图片描述

修改模型结构

在这里插入图片描述

文本生成测评

通用度量
  • BLEU
    生成的文本有多少与金标准的文本是类似的。BP是对短句的惩罚。我们希望尽量生成长句。

  • PPL
    在测试集上进行计算,会去验证模型有多大概率生成某个sample。PPL越低越好。

在这里插入图片描述

翻译和总结的通用度量

在这里插入图片描述

其他度量

在这里插入图片描述

文本生成的挑战

  • 在训练和模型策略上
    总是生成重复的词
    在seq2seq中,teacher forcing会引入一些exposure bias。

  • 逻辑一致性
    缺少逻辑一致性

  • 控制性
    很难保证有很好的控制性和很好的语言质量

  • 评估
    合理的度量和数据集
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/370649.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

复旦大学NLP团队发布86页大模型Agent综述

复旦大学自然语言处理团队(FudanNLP)发布了一篇长达86页的综述论文,探讨了基于大型语言模型的智能代理的现状和未来。该论文从AI Agent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括LLM-based Agent的背景…

机器学习周报第二十八周 PINNs2

文章目录 week28 PINNs2摘要Abstract一、Lipschitz条件二、文献阅读1. 题目数据驱动的偏微分方程2. 连续时间模型3. 离散时间模型4.结论 三、CLSTM1. 任务要求2. 实验结果3. 实验代码3.1模型构建3.2训练过程代码 小结参考文献 week28 PINNs2 摘要 本文主要讨论PINN。本文简要…

小米平板6获取root权限教程

1. 绑定账号 1> 打开"设置-我的设备-全部参数-连续点击MIUI版本按钮",直到提示已打开开发者模式( p s : 这里需要重点关注红框平板型号和 M I U I 版本,例如我这里平板型号是 X i a o m i P a d 6 , M I U I 版本是 14.0.10 &am…

二维平面阵列波束赋形原理和Matlab仿真

1 波束赋形基本原理 实现波束赋形的最基本的方法是对各个天线阵元的信号进行适当延迟后相加,使目标方向的信号同相叠加得到增强,而其他方向均有不同程度的削弱,该方法通常用于模拟信号.数字信号可以通过对各个天线阵元的信号乘以复加权系数后…

算法基础课-数学知识

质数 题目链接&#xff1a;866. 试除法判定质数 - AcWing题库 思路&#xff1a;1不是质数&#xff0c;枚举到根号n。 #include<bits/stdc.h>using namespace std;bool check(int num){if(num 1) return false;for(int i2;i<num/i;i){if(num%i0) return false;}retu…

用c语言实现三子棋

首先创建三个文本框&#xff1a;game.h&#xff08;放在头文件内&#xff09;test.c game.c&#xff08;放在源文件中&#xff09; 首先进行框架的搭建&#xff08;放在test.c文件中&#xff09; game.h #pragma once #define ROW 3 #define COL 3 void InitBoard(char board…

ChatGPT生产力|chat gpt实战介绍

标注说| ⭐ : 使用稳定&#xff0c;推荐 | &#x1f604; : 免费使用 | &#x1f511; : 需要登陆或密码 | ✈️ : 需waiwang进行访问 | ChatGPT 1PoePoe - Fast, Helpful ...&#x1f511;&#x1f604;&#x1f517;2 AItianhuGPT4&#x1f604;⭐&#x1f517;3 PhantoNa…

14:中断

中断 1、中断的引入2、使用单片机外部中断来处理按键2.1、外部中断2.2、参考数据手册中示例代码写程序2.2.1、外部中断0的测试程序2.2.2、完整程序 1、中断的引入 任务&#xff1a;独立数码管循环显示0-9&#xff0c;同时按键控制LED1亮灭。 代码如下&#xff1a; #include …

[word] word页面视图放大后,影响打印吗? #笔记#学习方法

word页面视图放大后&#xff0c;影响打印吗&#xff1f; word文档的页面视图又叫普通视图&#xff0c;又叫打印视图&#xff0c;是系统默认的视图&#xff0c;是用户用的最多最常见的视图。 问&#xff1a;怎样打开页面视图&#xff1f; 答&#xff1a;两种方法 方法一、点…

彻底扒光QQ音乐,批量下载音乐和MV文件

购买了一年的QQ音乐绿钻豪华版&#xff0c;还有几天就到期了&#xff0c;虽然平时听音乐比较少&#xff0c;但是还比较喜欢听歌曲的。计划会员到期前下载一些音乐文件&#xff0c;继续针对QQ音乐网站源码分析和歌曲下载链接的进行研究。 平时通过APP和软件播放歌曲也是趋势&…

2024年最新幻兽帕鲁服务器搭建教程

玩转幻兽帕鲁服务器&#xff0c;阿里云推出新手0基础一键部署幻兽帕鲁服务器教程&#xff0c;傻瓜式一键部署&#xff0c;3分钟即可成功创建一台Palworld专属服务器&#xff0c;成本仅需26元&#xff0c;阿里云服务器网aliyunfuwuqi.com分享2024年新版基于阿里云搭建幻兽帕鲁服…

【JavaEE进阶】 图书管理系统开发日记——伍

文章目录 &#x1f38b;前言&#x1f332;需求分析&#x1f384;约定前后端交互接口&#x1f333;实现服务器代码&#x1f6a9;控制层&#x1f6a9;业务层&#x1f6a9;数据层 &#x1f343;修改前端代码⭕总结 &#x1f38b;前言 这次我们来实现图书管理系统的增加图书模块。…

船舶监造系统:从设计到实现的全程解析

✍✍计算机编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java实战 |…

01-操作系统_名词_文件下载_反弹

操作系统_名词_文件下载_反弹 一、渗透测试1.1、POC、EXP、Payload与Shellcode1.2、后门1.3、木马1.4、反弹1.5、回显1.6、跳板1.7、黑白盒测试1.8、暴力破解1.9、社会工程学1.10、撞库1.11、ATT&CK 二、案例演示2.1、基础案例1&#xff1a;操作系统-用途&命令&权限…

AI-数学-高中-22-tanx的图像与性质

原作者视频&#xff1a;三角函数】9tanx的图像与性质&#xff08;易中档&#xff09;_哔哩哔哩_bilibili 做题时注意先画图&#xff0c;再计算。

电脑显示mfc140u.dll丢失怎么修复,这几个方法都可以解决

当打开软件时出现"mfc140u.dll丢失"的错误提示&#xff0c;通常是由于缺少或损坏了Microsoft Foundation Class (MFC)库文件导致的。MFC是Microsoft提供的一套用于开发Windows应用程序的类库&#xff0c;它包含了许多常用的功能和组件。 1、以下是可能导致"mfc…

BFS——双向广搜+A—star

有时候从一个点能扩展出来的情况很多&#xff0c;这样几层之后搜索空间就很大了&#xff0c;我们采用从两端同时进行搜索的策略&#xff0c;压缩搜索空间。 190. 字串变换(190. 字串变换 - AcWing题库) 思路&#xff1a;这题因为变化规则很多&#xff0c;所以我们一层一层往外…

Python实战:爬取小红书

有读者在公众号后台询问爬取小红书&#xff0c;今天他来了。 本文可以根据关键词&#xff0c;在小红书搜索相关笔记&#xff0c;并保存为excel表格。 爬取的字段包括笔记标题、作者、笔记链接、作者主页地址、作者头像、点赞量。 一、先看效果 1、爬取搜索页 2、爬取结果保存到…

2-12 SDATR的训练与测试

2.12 SDATR的训练与测试 使用环境:3卡服务器SDATR 服务器代码地址:/home/lihuanyu/code/036SDATR 本地代码地址:F:\BaiduNetdiskDownload\code\036SDATR 2.12.1 训练文件修改 输入数据修改 载入词汇修改 短点保存修改 权重保存修改 其他位置修改:

docker搭建Mysql集群准备(一)

docker搭建Mysql集群准备 Linux基本知识&#xff1a; 修改机器 IP&#xff0c;变成静态 IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 文件 TYPEEthernet PROXY_METHODnone BROWSER_ONLYno BOOTPROTOstatic IPADDR192.168.190.67 NETMASK255.255.255.0 GAT…