BERT基础教程:Transformer大模型实战-苏达哈尔桑·拉维昌迪兰
- 书名: BERT基础教程:Transformer大模型实战
- 作者: 苏达哈尔桑·拉维昌迪兰
- 简介: 本书聚焦谷歌公司开发的BERT自然语言处理模型,由浅入深地介绍了BERT的工作原理、BERT的各种变体及其应用。本书呈现了大量示意图、代码和实例,详细解析了如何训练BERT模型、如何使用BERT模型执行自然语言推理任务、文本摘要任务、问答任务、命名实体识别任务等各种下游任务,以及如何将BERT模型应用于多种语言。通读本书后,读者不仅能够系统了解有关BERT的各种概念、术语和原理,还能够使用BERT模型及其变体执行各种自然语言处理任务。
- 出版时间 2023-02-01 00:00:00
- ISBN: 9787115603722
- 分类: 计算机-软件学习
- 出版社: 人民邮电出版社有限公司
高亮划线
封面
版权信息
献词
前言
第一部分 开始使用BERT
第1章 Transformer概览
-
📌 Transformer由编码器和解码器两部分组成。首先,向编码器输入一句话(原句),让其学习这句话的特征[插图],再将特征作为输入传输给解码器。最后,此特征会通过解码器生成输出句(目标句)。 ^6-1725-1967
- ⏱ 2024-02-05 19:19:38
-
📌 Transformer中的编码器不止一个,而是由一组[插图]个编码器串联而成。一个编码器的输出作为下一个编码器的输入。在图1-2中有[插图]个编码器,每一个编码器都从下方接收数据,再输出给上方。以此类推,原句中的特征会由最后一个编码器输出。编码器模块的主要功能就是提取原句中的特征。 ^6-2601-3038
- ⏱ 2024-02-05 19:20:51
-
📌 每一个编码器的构造都是相同的,并且包含两个部分:·多头注意力层·前馈网络层 ^6-4678-4773
- ⏱ 2024-02-05 19:22:39
-
📌 A dog ate the food because it was hungry(一只狗吃了食物,因为它很饿)例句中的代词it(它)可以指代dog(狗)或者food(食物)。当读这段文字的时候,我们自然而然地认为it指代的是dog,而不是food。但是当计算机模型在面对这两种选择时该如何决定呢?这时,自注意力机制有助于解决这个问题。 ^6-5023-5219
- ⏱ 2024-02-05 19:23:41
-
📌 还是以上句为例,我们的模型首先需要计算出单词A的特征值,其次计算dog的特征值,然后计算ate的特征值,以此类推。当计算每个词的特征值时,模型都需要遍历每个词与句子中其他词的关系。模型可以通过词与词之间的关系来更好地理解当前词的意思。 ^6-5248-5365
- ⏱ 2024-02-05 19:23:35
-
📌 首先,我们将每个词转化为其对应的词嵌入向量。需要注意的是,嵌入只是词的特征向量,这个特征向量也是需要通过训练获得的。 ^6-5946-6004
- ⏱ 2024-02-05 19:25:45
-
📌 现在通过矩阵[插图],我们再创建三个新的矩阵:查询(query)矩阵[插图]、键(key)矩阵[插图],以及值(value)矩阵[插图]。等一下,怎么又多了三个矩阵?为何需要创建它们?接下来,我们将继续了解在自注意力机制中如何使用这三个矩阵。 ^6-8354-9071
- ⏱ 2024-02-05 19:29:32
-
📌 因为每个向量的维度均为64,所以对应的矩阵维度为[句子长度×64]。因为我们的句子长度为3,所以代入后可得维度为[3×64]。 ^6-13847-13936
- ⏱ 2024-02-05 19:42:09
-
📌 现将自注意力机制的计算步骤总结如下:(1) 计算查询矩阵与键矩阵的点积[插图],求得相似值,称为分数;(2) 将[插图]除以键向量维度的平方根[插图];(3) 用softmax函数对分数进行归一化处理,得到分数矩阵[插图];(4) 通过将分数矩阵与值矩阵[插图]相乘,计算出注意力矩阵[插图]。 ^6-33049-34207
- ⏱ 2024-02-05 20:03:36
-
📌 多头注意力是指我们可以使用多个注意力头,而不是只用一个。 ^6-34954-34982
- ⏱ 2024-02-05 20:04:57
-
📌 如果某个词实际上由其他词的值向量控制,而这个词的含义又是模糊的,那么这种控制关系是有用的;否则,这种控制关系反而会造成误解。为了确保结果准确,我们不能依赖单一的注意力矩阵,而应该计算多个注意力矩阵,并将其结果串联起来。使用多头注意力的逻辑是这样的:使用多个注意力矩阵,而非单一的注意力矩阵,可以提高注意力矩阵的准确性。我们将进一步探讨这一点。 ^6-36459-36630
- ⏱ 2024-02-05 20:06:36
-
📌 假设我们有8个注意力矩阵,即[插图]到[插图],那么可以直接将所有的注意力头(注意力矩阵)串联起来,并将结果乘以一个新的权重矩阵[插图],从而得出最终的注意力矩阵,公式如下所示。 ^6-41791-42327
- ⏱ 2024-02-05 20:08:10