跳转至

BERT基础教程:Transformer大模型实战-苏达哈尔桑·拉维昌迪兰

  •  BERT基础教程:Transformer大模型实战|200
  • 书名: BERT基础教程:Transformer大模型实战
  • 作者: 苏达哈尔桑·拉维昌迪兰
  • 简介: 本书聚焦谷歌公司开发的BERT自然语言处理模型,由浅入深地介绍了BERT的工作原理、BERT的各种变体及其应用。本书呈现了大量示意图、代码和实例,详细解析了如何训练BERT模型、如何使用BERT模型执行自然语言推理任务、文本摘要任务、问答任务、命名实体识别任务等各种下游任务,以及如何将BERT模型应用于多种语言。通读本书后,读者不仅能够系统了解有关BERT的各种概念、术语和原理,还能够使用BERT模型及其变体执行各种自然语言处理任务。
  • 出版时间 2023-02-01 00:00:00
  • ISBN: 9787115603722
  • 分类: 计算机-软件学习
  • 出版社: 人民邮电出版社有限公司

高亮划线

封面

版权信息

献词

前言

第一部分 开始使用BERT

第1章 Transformer概览

  • 📌 Transformer由编码器和解码器两部分组成。首先,向编码器输入一句话(原句),让其学习这句话的特征[插图],再将特征作为输入传输给解码器。最后,此特征会通过解码器生成输出句(目标句)。 ^6-1725-1967

    • ⏱ 2024-02-05 19:19:38
  • 📌 Transformer中的编码器不止一个,而是由一组[插图]个编码器串联而成。一个编码器的输出作为下一个编码器的输入。在图1-2中有[插图]个编码器,每一个编码器都从下方接收数据,再输出给上方。以此类推,原句中的特征会由最后一个编码器输出。编码器模块的主要功能就是提取原句中的特征。 ^6-2601-3038

    • ⏱ 2024-02-05 19:20:51
  • 📌 每一个编码器的构造都是相同的,并且包含两个部分:·多头注意力层·前馈网络层 ^6-4678-4773

    • ⏱ 2024-02-05 19:22:39
  • 📌 A dog ate the food because it was hungry(一只狗吃了食物,因为它很饿)例句中的代词it(它)可以指代dog(狗)或者food(食物)。当读这段文字的时候,我们自然而然地认为it指代的是dog,而不是food。但是当计算机模型在面对这两种选择时该如何决定呢?这时,自注意力机制有助于解决这个问题。 ^6-5023-5219

    • ⏱ 2024-02-05 19:23:41
  • 📌 还是以上句为例,我们的模型首先需要计算出单词A的特征值,其次计算dog的特征值,然后计算ate的特征值,以此类推。当计算每个词的特征值时,模型都需要遍历每个词与句子中其他词的关系。模型可以通过词与词之间的关系来更好地理解当前词的意思。 ^6-5248-5365

    • ⏱ 2024-02-05 19:23:35
  • 📌 首先,我们将每个词转化为其对应的词嵌入向量。需要注意的是,嵌入只是词的特征向量,这个特征向量也是需要通过训练获得的。 ^6-5946-6004

    • ⏱ 2024-02-05 19:25:45
  • 📌 现在通过矩阵[插图],我们再创建三个新的矩阵:查询(query)矩阵[插图]、键(key)矩阵[插图],以及值(value)矩阵[插图]。等一下,怎么又多了三个矩阵?为何需要创建它们?接下来,我们将继续了解在自注意力机制中如何使用这三个矩阵。 ^6-8354-9071

    • ⏱ 2024-02-05 19:29:32
  • 📌 因为每个向量的维度均为64,所以对应的矩阵维度为[句子长度×64]。因为我们的句子长度为3,所以代入后可得维度为[3×64]。 ^6-13847-13936

    • ⏱ 2024-02-05 19:42:09
  • 📌 现将自注意力机制的计算步骤总结如下:(1) 计算查询矩阵与键矩阵的点积[插图],求得相似值,称为分数;(2) 将[插图]除以键向量维度的平方根[插图];(3) 用softmax函数对分数进行归一化处理,得到分数矩阵[插图];(4) 通过将分数矩阵与值矩阵[插图]相乘,计算出注意力矩阵[插图]。 ^6-33049-34207

    • ⏱ 2024-02-05 20:03:36
  • 📌 多头注意力是指我们可以使用多个注意力头,而不是只用一个。 ^6-34954-34982

    • ⏱ 2024-02-05 20:04:57
  • 📌 如果某个词实际上由其他词的值向量控制,而这个词的含义又是模糊的,那么这种控制关系是有用的;否则,这种控制关系反而会造成误解。为了确保结果准确,我们不能依赖单一的注意力矩阵,而应该计算多个注意力矩阵,并将其结果串联起来。使用多头注意力的逻辑是这样的:使用多个注意力矩阵,而非单一的注意力矩阵,可以提高注意力矩阵的准确性。我们将进一步探讨这一点。 ^6-36459-36630

    • ⏱ 2024-02-05 20:06:36
  • 📌 假设我们有8个注意力矩阵,即[插图]到[插图],那么可以直接将所有的注意力头(注意力矩阵)串联起来,并将结果乘以一个新的权重矩阵[插图],从而得出最终的注意力矩阵,公式如下所示。 ^6-41791-42327

    • ⏱ 2024-02-05 20:08:10

第2章 了解BERT模型

第3章 BERT实战

第二部分 探索BERT变体

第4章 BERT变体(上):ALBERT、RoBERTa、ELECTRA和SpanBERT

第5章 BERT变体(下):基于知识蒸馏

第三部分 BERT模型的应用

第6章 用于文本摘要任务的BERTSUM模型

第7章 将BERT模型应用于其他语言

第8章 Sentence-BERT模型和特定领域的BERT模型

第9章 VideoBERT模型和BART模型

习题参考答案

作者简介

读书笔记

本书评论