跳转至

BERT基础教程：Transformer大模型实战-苏达哈尔桑·拉维昌迪兰

书名： BERT基础教程：Transformer大模型实战

作者：苏达哈尔桑·拉维昌迪兰

简介：本书聚焦谷歌公司开发的BERT自然语言处理模型，由浅入深地介绍了BERT的工作原理、BERT的各种变体及其应用。本书呈现了大量示意图、代码和实例，详细解析了如何训练BERT模型、如何使用BERT模型执行自然语言推理任务、文本摘要任务、问答任务、命名实体识别任务等各种下游任务，以及如何将BERT模型应用于多种语言。通读本书后，读者不仅能够系统了解有关BERT的各种概念、术语和原理，还能够使用BERT模型及其变体执行各种自然语言处理任务。

出版时间 2023-02-01 00:00:00

ISBN： 9787115603722

分类：计算机-软件学习

出版社：人民邮电出版社有限公司

高亮划线

封面

版权信息

献词

前言

第一部分开始使用BERT

第1章 Transformer概览

📌 Transformer由编码器和解码器两部分组成。首先，向编码器输入一句话（原句），让其学习这句话的特征[插图]，再将特征作为输入传输给解码器。最后，此特征会通过解码器生成输出句（目标句）。 ^6-1725-1967
- ⏱ 2024-02-05 19:19:38
📌 Transformer中的编码器不止一个，而是由一组[插图]个编码器串联而成。一个编码器的输出作为下一个编码器的输入。在图1-2中有[插图]个编码器，每一个编码器都从下方接收数据，再输出给上方。以此类推，原句中的特征会由最后一个编码器输出。编码器模块的主要功能就是提取原句中的特征。 ^6-2601-3038
- ⏱ 2024-02-05 19:20:51
📌 每一个编码器的构造都是相同的，并且包含两个部分：·多头注意力层·前馈网络层 ^6-4678-4773
- ⏱ 2024-02-05 19:22:39
📌 A dog ate the food because it was hungry（一只狗吃了食物，因为它很饿）例句中的代词it（它）可以指代dog（狗）或者food（食物）。当读这段文字的时候，我们自然而然地认为it指代的是dog，而不是food。但是当计算机模型在面对这两种选择时该如何决定呢？这时，自注意力机制有助于解决这个问题。 ^6-5023-5219
- ⏱ 2024-02-05 19:23:41
📌 还是以上句为例，我们的模型首先需要计算出单词A的特征值，其次计算dog的特征值，然后计算ate的特征值，以此类推。当计算每个词的特征值时，模型都需要遍历每个词与句子中其他词的关系。模型可以通过词与词之间的关系来更好地理解当前词的意思。 ^6-5248-5365
- ⏱ 2024-02-05 19:23:35
📌 首先，我们将每个词转化为其对应的词嵌入向量。需要注意的是，嵌入只是词的特征向量，这个特征向量也是需要通过训练获得的。 ^6-5946-6004
- ⏱ 2024-02-05 19:25:45
📌 现在通过矩阵[插图]，我们再创建三个新的矩阵：查询(query)矩阵[插图]、键(key)矩阵[插图]，以及值(value)矩阵[插图]。等一下，怎么又多了三个矩阵？为何需要创建它们？接下来，我们将继续了解在自注意力机制中如何使用这三个矩阵。 ^6-8354-9071
- ⏱ 2024-02-05 19:29:32
📌 因为每个向量的维度均为64，所以对应的矩阵维度为[句子长度×64]。因为我们的句子长度为3，所以代入后可得维度为[3×64]。 ^6-13847-13936
- ⏱ 2024-02-05 19:42:09
📌 现将自注意力机制的计算步骤总结如下：(1) 计算查询矩阵与键矩阵的点积[插图]，求得相似值，称为分数；(2) 将[插图]除以键向量维度的平方根[插图]；(3) 用softmax函数对分数进行归一化处理，得到分数矩阵[插图]；(4) 通过将分数矩阵与值矩阵[插图]相乘，计算出注意力矩阵[插图]。 ^6-33049-34207
- ⏱ 2024-02-05 20:03:36
📌 多头注意力是指我们可以使用多个注意力头，而不是只用一个。 ^6-34954-34982
- ⏱ 2024-02-05 20:04:57
📌 如果某个词实际上由其他词的值向量控制，而这个词的含义又是模糊的，那么这种控制关系是有用的；否则，这种控制关系反而会造成误解。为了确保结果准确，我们不能依赖单一的注意力矩阵，而应该计算多个注意力矩阵，并将其结果串联起来。使用多头注意力的逻辑是这样的：使用多个注意力矩阵，而非单一的注意力矩阵，可以提高注意力矩阵的准确性。我们将进一步探讨这一点。 ^6-36459-36630
- ⏱ 2024-02-05 20:06:36
📌 假设我们有8个注意力矩阵，即[插图]到[插图]，那么可以直接将所有的注意力头（注意力矩阵）串联起来，并将结果乘以一个新的权重矩阵[插图]，从而得出最终的注意力矩阵，公式如下所示。 ^6-41791-42327
- ⏱ 2024-02-05 20:08:10

第2章了解BERT模型

第3章 BERT实战

第二部分探索BERT变体

第4章 BERT变体（上）：ALBERT、RoBERTa、ELECTRA和SpanBERT

第5章 BERT变体（下）：基于知识蒸馏

第三部分 BERT模型的应用

第6章用于文本摘要任务的BERTSUM模型

第7章将BERT模型应用于其他语言

第8章 Sentence-BERT模型和特定领域的BERT模型

第9章 VideoBERT模型和BART模型

习题参考答案

作者简介

读书笔记

本书评论