什么是大型语言模型(LLM)?

大型语言模型 (LLM) 是一种能够理解和生成人类语言文本的机器学习模型。它们通过分析大量语言数据集来工作。

一、什么是大型语言模型 (LLM)?

大型语言模型 (LLM) 是一种人工智能 (AI) 程序,它可以识别和生成文本以及完成其他任务。LLM 经过了庞大的数据集的训练,因此称之为“大型”。LLM 在机器学习的基础上构建:具体来说,它是一种称为 Transformer 模型的神经网络。

简单地说,LLM 是一个计算机程序,已经为它提供了足够多的示例,使它能够识别和解释人类语言或其他类型的复杂数据。许多 LLM 都是使用从互联网上收集的数据(成千上万甚至数百万 GB 的文本)进行训练的。但是,样本的质量会影响 LLM 学习自然语言的效果,因此 LLM 的程序员可能会使用更精心策划的数据集。

LLM 使用一种称为深度学习的机器学习来了解字符、单词和句子是如何共同发挥作用的。深度学习涉及对非结构化数据进行概率分析,最终使深度学习模型能够在无需人工干预的情况下识别不同内容之间的区别。

接着,在调整后进一步训练 LLM:根据程序员希望它们完成的特定任务进行微调或提示调整,例如解释问题并生成回答,或者将文本从一种语言翻译成另一种语言。

二、LLM 有什么用途?

可以训练 LLM 以执行多种任务。最广为人知的用途之一是将它作为生成式 AI 应用:当为它们提供提示或向它们提出问题时,它们可以生成文本作为回复。例如,公开提供的 LLM ChatGPT 可根据用户输入生成散文、诗歌和其他文本形式。

任何大型复杂数据集都可用于训练 LLM,包括编程语言。有些 LLM 可以帮助程序员编写代码。它们可以根据要求编写函数,或者以一些代码为起点,完成一个程序的编写。LLM 也可用于以下领域:

  • 情绪分析
  • DNA 研究
  • 客户服务
  • 聊天机器人
  • 在线搜索

现实世界中的 LLM 包括 ChatGPT (OpenAI)、Bard (Google)、Llama (Meta) 和 Bing Chat (Microsoft),国内的商量、通义千问、文心一言等。GitHub 的 Copilot 是另一个例子,但它用于编码而不是人类的自然语言。

三、LLM 有哪些优势和局限性?

LLM 的一个主要特点是能够响应不可预测的查询。传统的计算机程序接收使用它接受的语法提供的命令,或者接收用户提供的一组输入中的命令。视频游戏有一组有限的按钮,应用程序有一组有限的用户可以单击或输入的物件,而编程语言则由精确的 if/then 语句组成。

相比之下,LLM 可以响应人类的自然语言,并利用数据分析合理回答非结构化问题或提示。一般的计算机程序不能识别类似于“历史上最伟大的四支放克乐队是哪四支?”这样的提示,而 LLM 可能会列出四支此类乐队作答,并提供令人信服的理由说明为什么他们是最伟大的。

不过,就提供的信息而言,LLM 的可靠性取决于它们获取的数据。如果向它们提供虚假信息,它们就会在回答用户询问时提供虚假信息。LLM 有时也会“产生幻觉”:当它们无法提供准确答案时,它们会制造虚假信息。例如,在 2022 年,新闻媒体 Fast Company 向 ChatGPT 询问
特斯拉公司上一季度的财务状况;虽然 ChatGPT 提供了一篇连贯的新闻文章作为回复,但其中的许多信息都是编造的。

在安全方面,基于 LLM、面向用户的应用程序与其他应用程序一样容易出现错误。还可以通过恶意输入操纵 LLM,使其提供某些类型的响应,而不是其他类型的响应,包括危险或不道德的响应。最后,LLM 的安全问题之一是,用户可能为了提高自己的工作效率而将安全的机密数据上传到 LLM 中。但是,LLM 使用它们接收到的输入来进一步训练它们的模型,但是它们在设计上没有安全保险库功能;它们可能会在响应其他用户的查询时公开机密数据。

四、LLM 如何工作?

4.1 机器学习和深度学习

从根本上说,LLM 是在机器学习的基础上构建的。机器学习是 AI 的一个分支;机器学习是指向一个程序提供大量数据,以训练这个程序如何在没有人工干预的情况下识别数据特征的做法。

LLM 使用称为深度学习的机器学习类型。深度学习模型基本上可以在没有人工干预的情况下自行训练识别区别,尽管通常需要一些人工微调。

深度学习利用概率进行“学习”。例如,在句子 "The quick brown fox jumped over the lazy dog" 中,字母 "e" 和 "o" 最常见,各出现四次。根据这一点,深度学习模型可以(正确)得出结论,这些字符是最有可能出现在英语文本中的字符。

实际上,深度学习模型无法从一句话中得出任何结论。但是,在分析了数以万亿计的句子之后,它可以学到足够的知识来预测如何在逻辑上补全一个不完整的句子,甚至生成它自己的句子。

4.2 神经网络

为了实现这种类型的深度学习,LLM 在神经网络的基础上构建。正如人脑是由相互连接和发送信号的神经元组成一样,人工神经网络(通常简称为“神经网络”)也是由相互连接的网络节点组成的。它们由多个“层”组成:输入层、输出层以及这两个层之间的一个或多个层。各层只有在自己的输出超过某个阈值时,才会相互传递信息。

4.2.1 Transformer 模型

用于 LLM 的特定神经网络称为 Transformer 模型。Transformer 模型能够学习上下文,这对于高度依赖语境的人类语言尤为重要。Transformer 模型使用一种名为自注意力机制的数学技术来检测序列中元素相互之间的微妙关系。这使得它们比其他类型的机器学习更善于理解上下文。例如,这使它们能够理解句子的结尾与开头之间的联系,以及段落中各个句子相互之间的关系。

这使 LLM 能够解释人类语言,即使这些语言含糊不清或定义不明确,以它们以前从未遇到过的组合方式排列,或以新的方式结合上下文。在某种程度上,它们“了解”语义,因为它们可以根据词语和概念的含义将两者联系起来,因为它们已经数百万或数十亿次看到过这些词语和概念以这种方式组合在一起。

图片来源:What are Large Language Models? | Definition from TechTarget

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/273855.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Kali Linux结合cpolar内网穿透实现公网环境SSH远程访问

文章目录 1. 启动kali ssh 服务2. kali 安装cpolar 内网穿透3. 配置kali ssh公网地址4. 远程连接5. 固定连接SSH公网地址6. SSH固定地址连接测试 简单几步通过[cpolar 内网穿透](cpolar官网-安全的内网穿透工具 | 无需公网ip | 远程访问 | 搭建网站)软件实现ssh 远程连接kali! …

一款基于 SpringCloud 开发的AI聊天机器人系统,已对接GPT-4.0,非常强大

简介 一个基于SpringCloud的Chatgpt机器人,已对接GPT-3.5、GPT-4.0、百度文心一言、stable diffusion AI绘图、Midjourney绘图。用户可以在界面上与聊天机器人进行对话,聊天机器人会根据用户的输入自动生成回复。同时也支持画图,用户输入文本…

电学基础知识

目录 电流 前言 电流的产生 电流的单位安培(A) 电路和电池 开路和闭路 电灯泡原理 对电池容量的理解 毫安时 毫瓦时 直流电和交流电 AC交流电 DC直流电 直流电和交流电对比 电压 对电器的电压和电流的理解 电阻 电压电阻电子的关系 欧…

macbook删除软件只需几次点击即可彻底完成?macbook删除软件没有叉 苹果笔记本MacBook电脑怎么卸载软件? cleanmymac x怎么卸载

在MacBook的使用过程中,软件安装和卸载是我们经常需要进行的操作。然而,不少用户在尝试删除不再需要的软件时,常常发现这个过程既复杂又耗时。尽管MacOS提供了一些基本的macbook删除软件方法,但很多时候这些方法并不能彻底卸载软件…

Java面向对象特征(二)----- 继承

前言:在Java中面向对象的特征有三个,分别是封装、继承、多态,而这篇文章讲解的是Java面向对象特征中的第二个封装。 如果想了解Java面向对象特征的封装的话,可以浏览----------------------------------------------------------&…

2024-3-18-C++day6作业

1>思维导图 2>试编程 要求: 封装一个动物的基类,类中有私有成员:姓名,颜色,指针成员年纪 再封装一个狗这样类,共有继承于动物类,自己拓展的私有成员有:指针成员:腿的个数&a…

抖音无水印视频关键词批量下载|视频下载工具

抖音无水印视频关键词批量下载操作说明 我们根据自己的需要开发了抖音视频批量下载工具,现在市面上的视频无水印工具只能通过单个视频链接进行提取,太不方便 所以我们延伸出了 不仅可以通过单个视频链接进行提取也可通过关键词进行视频搜索 进行批量和有…

青海200MW光伏项目 35kV开关站图像监控及安全警示系统

一、背景 随着我国新能源产业的快速发展,光伏发电作为清洁能源的重要组成部分,得到了国家政策的大力扶持。青海作为我国光伏资源丰富地区,吸引了众多光伏项目的投资建设。在此背景下,为提高光伏发电项目的运行效率和安全性能&…

【Linux】日常使用命令(三)

文章目录 **cal 命令****date 命令****bc 命令****Linux下玩小游戏**: cal 命令 功能描述: cal 命令用于显示日历。 常用选项: -3:显示前一个月、当前月和下一个月的日历。-y:显示整年的日历。 常用示例: # 示例 1: 显示当前月的日历 cal# …

【vue】深入探讨vue中组件间多种传值方式

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

【DL经典回顾】激活函数大汇总(二十一)(BReLU附代码和详细公式)

激活函数大汇总(二十一)(BReLU附代码和详细公式) 更多激活函数见激活函数大汇总列表 一、引言 欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里,激活函数扮演着不可或缺的角色…

【ADF4351】使用FPGA进行SPI寄存器配置、使用FPGA计算各个频率的频点,ADF4351配置程序

简介 特性 输出频率范围:35 MHz至4,400 MHz 小数N分频频率合成器和整数N分频频率合成器 具有低相位噪声的VCO 可编程的1/2/4/8/16/32/64分频输出 典型抖动:0.3 ps rms EVM(典型值,2.1 GHz): 0.4% 电源:3.0 V至3.6 V …

MybatisPlus逆向工程

目录 🧂1.前提说明 🍿2.引入依赖 🌭3.使用导入模板 1.前提说明 注意 适用版本:mybatis-plus-generator 3.5.1 以下版本,3.5.1 及以上的请参考 3.5.1以上参考官网:3.5.1以上逆向工程 2.引入依赖 …

C#类型转换

C#类型转换 隐式类型转换 类型转换从根本上说是类型铸造,或者说是把数据从一种类型转换为另一种类型。在 C# 中,类型铸造有两种形式: 隐式类型转换 - 这些转换是 C# 默认的以安全方式进行的转换, 不会导致数据丢失。例如,从小的…

文件批量管理利器,一键复制备份安全删除原文件,让文件管理更高效!

在数字化时代,我们每天都在与各种文件打交道,从文档、图片到视频、音频,文件的管理和存储变得越来越重要。然而,手动逐个处理文件不仅繁琐,还容易出错。那么,有没有一种方法可以让我们轻松实现文件的批量管…

聚合音乐网-播放器网站源码

源码简介 MKOnlineMusicPlayer 是一款全屏的音乐播放器 UI 框架(为避免侵权,已移除所有后端功能)。 前端界面参照 QQ 音乐网页版进行布局,同时采用了流行的响应式设计,无论是在PC端还是在手机端,均能给您…

代码随想录算法训练营第14天 part01 | 二叉树理论基础篇

代码随想录 二叉树理论基础篇 二叉树的种类 二叉树有两种主要的形式:满二叉树和完全二叉树 满二叉树:如果一棵二叉树只有度为0的结点和度为2的结点,并且度为0的结点在同一层上,则这棵二叉树为满二叉树。 这棵二叉树为满二叉树…

抖音无水印视频批量下载|视频爬虫采集工具

抖音无水印视频批量下载神器,关键词搜索轻松获取您想要的视频! 随着抖音视频内容日益丰富,您是否常常希望能够批量下载您感兴趣的视频,但现有工具只支持单个链接提取,操作繁琐?别担心,q19774701…

腾讯云服务器入站规则端口开放使用指南(CentOS系统)

第一步:开放安全组入站规则 来源处0.0.0.0/0是对IPv4开发,::/0是对IPv6开放; 协议端口按照提示填写即可。云服务器防火墙开放 第三步:本地防火墙开放 sudo firewall-cmd --zonepublic --add-port你的端口号/tcp --perma…

ACM题解|牛客周赛 Round 37

&#x1f525;博客介绍&#xff1a; EvLast &#x1f3a5;系列专栏&#xff1a; <<数据结构与算法>> << 算法入门>> << C项目>> &#x1f3a5; 当前专栏: << 牛客周赛>> 专题 : 数据结构帮助小白快速入门算法 &#x1f4…
最新文章