五深度学习中的自然语言处理核心技术：从词向量到注意力机制的完整演进之路

AI产品经理

深度学习中的自然语言处理核心技术：从词向量到注意力机制的完整演进之路

前言

自然语言处理（Natural Language Processing，NLP）是人工智能领域中最具挑战性也最令人着迷的研究方向之一。人类语言的复杂性、歧义性和上下文依赖性，使得让机器"理解"语言成为一个极具深度的科学问题。过去十余年间，随着深度学习技术的蓬勃发展，NLP领域经历了一场深刻的技术革命。从最初的词袋模型到分布式词表示，从循环神经网络到长短期记忆网络，从序列到序列模型到注意力机制，每一次技术迭代都推动着机器理解语言的能力向前迈进一大步。

本文将系统性地梳理这一演进过程中的六项核心技术——单词的分布式表示、Word2Vec、RNN、LSTM、Seq2Seq以及Attention机制——深入剖析每项技术的原理、优势、局限以及在整个技术演进链条中的历史意义。无论您是初入NLP领域的学习者，还是希望系统回顾基础知识的研究者，相信本文都能为您提供有价值的参考。

第一部分：单词的分布式表示——让机器理解语义的第一步

1.1 传统表示方法的困境

在深度学习崛起之前，NLP系统处理文本的主流方式是独热编码（One-Hot Encoding）。具体而言，假设词汇表中共有 $V$ 个不同的单词，则每个单词被表示为一个长度为 $V$ 的向量，该单词对应位置的值为1，其余位置均为0。

这种表示方法简单直观，但存在致命的缺陷：

第一，维度灾难。 现实世界的词汇表通常包含数万乃至数十万个词语，独热向量极度稀疏，存储和计算开销巨大。

第二，无法捕捉语义关系。 在独热编码中，任意两个词向量的点积均为零，余弦相似度也均为零。这意味着"猫"和"狗"与"猫"和"飞机"在数学上是等距的，模型完全无法感知词语之间的语义亲疏关系。

第三，泛化能力差。 当模型在训练数据中从未见过某个词与另一个词的组合时，它无法利用语义相似性进行推断和泛化。

1.2 分布式假设：一个优雅的语言学洞见

分布式表示（Distributed Representation）的理论根基来自著名的分布式假设（Distributional Hypothesis），这一假设由语言学家Zellig Harris在1954年首次提出，后由John Firth于1957年以一句广为引用的名言加以概括：

"You shall know a word by the company it keeps." （你可以通过一个词的"伙伴"来了解它。）

这个直观的想法告诉我们：在语义上相近的词语，往往出现在相似的上下文环境中。"医生"和"护士"经常出现在医院、病人、治疗等词语的附近；"足球"和"篮球"经常出现在运动、比赛、球员等词语的附近。如果我们能够利用大规模语料库中词语的共现统计信息来构建词向量，就有望让向量空间中距离相近的词对应语义相近的概念。

1.3 分布式表示的核心思想

词的分布式表示，即词嵌入（Word Embedding），将每个词映射到一个低维稠密的实数向量空间（通常维度为50至300）。这个向量空间具有以下令人赞叹的性质：

语义相似性： 语义相近的词在向量空间中距离较近。例如，"king"和"queen"的向量距离远小于"king"和"banana"的向量距离。
语义运算： 词向量可以进行有意义的代数运算。最著名的例子是：vec("king") - vec("man") + vec("woman") ≈ vec("queen")。这说明词向量不仅捕捉了语义相似性，还编码了语义关系（如性别关系、国家-首都关系等）。
维度压缩： 相比独热编码的高维稀疏表示，词嵌入是低维稠密的，大幅降低了计算复杂度，且每个维度都承载着一定的语义信息。

词的分布式表示为后续所有深度学习NLP模型奠定了基础——它解决了"如何将离散的符号化语言转化为神经网络可以处理的连续向量"这一根本性问题。

第二部分：Word2Vec——高效学习词嵌入的里程碑

2.1 Word2Vec的诞生背景

尽管分布式词表示的思想早已存在，但在Word2Vec出现之前，主流的词嵌入学习方法（如基于矩阵分解的潜在语义分析LSA）要么计算效率低下，要么模型质量有限。

2013年，Google研究员Tomas Mikolov及其团队发表了题为《Efficient Estimation of Word Representations in Vector Space》的论文，提出了Word2Vec模型。该模型的核心突破在于：利用浅层神经网络在超大规模语料库上高效地学习高质量词嵌入，将训练时间从数周压缩到数小时乃至数十分钟，且所得词向量的质量显著优于此前方法。

2.2 两种核心架构

Word2Vec提出了两种互为"镜像"的模型架构：

2.2.1 CBOW（Continuous Bag of Words，连续词袋模型）

CBOW的任务是：给定目标词的上下文词（Context Words），预测目标词（Target Word）。

具体而言，对于句子中的每一个目标词，模型将其前后各 $k$ 个词作为输入（即窗口大小为 $2k$），将这些上下文词的词向量取平均，再通过一个全连接层和Softmax函数，输出词汇表中每个词是目标词的概率。

CBOW的优点在于：通过对多个上下文词取平均，模型在一定程度上起到了平滑效果，对频繁出现的词的训练效果较好，且训练速度相对较快。

2.2.2 Skip-gram（跳字模型）

Skip-gram的任务与CBOW相反：给定目标词，预测其上下文词。

模型以单个目标词为输入，尝试预测其周围窗口内的每个上下文词。Skip-gram可以被理解为：对于给定的目标词，针对每个上下文词位置各训练一个独立的预测任务。

Skip-gram在处理低频词时表现更好，并且能够捕捉更精细的语义关系，但训练时间相对CBOW较长。

2.3 训练技巧：让Word2Vec走向实用

朴素的Word2Vec训练面临严重的计算瓶颈：在每一步训练中，Softmax需要对整个词汇表（可能有数十万个词）进行归一化计算，计算复杂度极高。为此，Mikolov等人提出了两项关键优化技术：

负采样（Negative Sampling）

负采样将多分类问题转化为一系列二分类问题。对于每一个正样本（目标词与其上下文词的真实配对），随机从词汇表中采样少量（通常5至20个）"负样本"（噪声词）。模型的训练目标变为：最大化正样本对的概率，同时最小化负样本对的概率。这将每步的计算量从$O(V)$降低到$O(k)$（$k$为负样本数量），极大地加速了训练过程。

层次Softmax（Hierarchical Softmax）

层次Softmax利用哈夫曼树（Huffman Tree）对词汇表进行编码，将$O(V)$的Softmax计算转化为$O(\log V)$的树路径遍历问题，对于高频词的计算效率提升尤为显著。

2.4 Word2Vec的深远影响

Word2Vec不仅在NLP领域产生了革命性影响，其"嵌入"思想也被推广到推荐系统（Item2Vec）、图神经网络（Node2Vec）等众多领域，成为表示学习（Representation Learning）的重要基石。

然而，Word2Vec也有其固有局限性：每个词对应唯一一个静态向量，无法处理一词多义问题。例如，"苹果"在"我喜欢吃苹果"和"苹果公司发布了新产品"中含义截然不同，但在Word2Vec中它们共享同一个向量表示。这一局限性催生了后来ELMo、BERT等动态上下文词嵌入方法的诞生。

第三部分：RNN——为序列数据而生的神经网络

3.1 为什么需要循环神经网络？

语言是天然的序列数据。一个句子的含义不仅取决于其中包含哪些词，还取决于这些词的排列顺序以及它们之间的依存关系。传统的前馈神经网络（Feedforward Neural Network）在处理序列数据时面临本质性挑战：

输入长度固定： 前馈网络要求固定大小的输入，而文本序列的长度是可变的。
无法建模时序依赖： 前馈网络对输入的各个位置独立处理，无法捕捉位置之间的时序依赖关系。
参数不共享： 如果强行将序列展平为定长向量，模型在不同位置学习到的特征无法共享，参数量巨大。

循环神经网络（Recurrent Neural Network，RNN） 正是为解决这些问题而设计的。

3.2 RNN的基本结构

RNN的核心思想是引入隐藏状态（Hidden State），作为网络对过去信息的"记忆"载体。在处理序列的每个时间步 $t$ 时，RNN执行以下计算：

h_t = f(W_h \cdot h_{t-1} + W_x \cdot x_t + b)

其中：

$x_t$ 是时间步 $t$ 的输入（通常为词嵌入向量）
$h_{t-1}$ 是上一时间步的隐藏状态
$h_t$ 是当前时间步的隐藏状态（即"记忆"的更新）
$W_h$、$W_x$ 是权重矩阵，$b$ 是偏置项
$f$ 通常是 $\tanh$ 或 $\text{ReLU}$ 激活函数

参数共享是RNN的一大特点：无论序列有多长，每个时间步使用的都是同一套权重参数 $W_h$ 和 $W_x$。这不仅大幅减少了参数量，还使得模型可以处理任意长度的序列。

3.3 RNN的多种应用范式

RNN的灵活性使其能够适应多种不同的输入输出结构：

一对多（One-to-Many）： 单个输入，序列输出。典型应用：图像描述生成（输入一张图片，输出一段文字描述）。
多对一（Many-to-One）： 序列输入，单个输出。典型应用：情感分析（输入一段评论，输出正面/负面的情感标签）。
多对多（Many-to-Many）： 序列输入，序列输出。典型应用：命名实体识别（对输入句子的每个词打标签）、机器翻译（后续将介绍的Seq2Seq框架）。

3.4 RNN的根本缺陷：梯度消失与梯度爆炸

尽管RNN在理论上能够捕捉任意长度的序列依赖，但在实践中，标准RNN在面对长序列时会遭遇严重的训练困难，根源在于梯度消失（Vanishing Gradient） 和 梯度爆炸（Exploding Gradient） 问题。

在反向传播过程中，梯度需要通过时间反向传播（Backpropagation Through Time，BPTT）。由于梯度在每个时间步都要乘以权重矩阵 $W_h$ 和激活函数的导数，在经历 $T$ 个时间步后，梯度大致正比于这些因子的 $T$ 次幂：

若这些因子的绝对值小于1，梯度会以指数速度衰减至零（梯度消失），导致模型无法有效学习长距离依赖关系；
若这些因子的绝对值大于1，梯度会以指数速度膨胀（梯度爆炸），导致训练过程不稳定。

梯度爆炸问题可以通过**梯度裁剪（Gradient Clipping）**技术相对容易地加以缓解，但梯度消失问题则更为根本，是制约标准RNN建模长距离依赖能力的核心瓶颈，最终催生了LSTM的诞生。

第四部分：LSTM——记忆的艺术

4.1 LSTM的提出

长短期记忆网络（Long Short-Term Memory，LSTM） 由Sepp Hochreiter和Jürgen Schmidhuber于1997年提出，旨在从根本上解决标准RNN的梯度消失问题，使模型能够有效地学习和保留长距离依赖关系。

LSTM的核心设计哲学是：引入一条独立的**单元状态（Cell State）信息流，并通过精心设计的门控机制（Gating Mechanism）**来精确控制信息的流入、流出和遗忘，从而在时间维度上维持一条相对"平坦"的梯度通道。

4.2 LSTM的三个门：遗忘、输入与输出

LSTM的每个单元包含三个门控结构，每个门都是一个Sigmoid函数，其输出值在0到1之间，可以理解为"阀门的开合程度"（0表示完全关闭，1表示完全开放）。

遗忘门（Forget Gate）

遗忘门决定从上一时刻的单元状态中丢弃多少信息：

f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)

$f_t$ 中接近0的分量意味着"几乎完全遗忘"，接近1的分量意味着"几乎完全保留"。

输入门（Input Gate）

输入门由两部分组成，共同决定将多少新信息写入单元状态：

$$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$$ $$\tilde{C}t = \tanh(W_C \cdot [h{t-1}, x_t] + b_C)$$

其中 $i_t$ 是输入门的"阀门值"，$\tilde{C}_t$ 是基于当前输入和上一隐藏状态计算出的"候选写入值"。

单元状态更新

结合遗忘门和输入门，更新单元状态：

$$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$$

这一更新公式是LSTM的精髓所在：通过逐元素乘法（Hadamard积 $\odot$），模型可以精确地控制哪些过去信息被遗忘，哪些新信息被写入。单元状态的更新路径只涉及加法和逐元素乘法，没有矩阵乘法，这保证了梯度在反向传播时能够相对畅通地流过长时间跨度。

输出门（Output Gate）

输出门决定从单元状态中读取多少信息作为当前隐藏状态输出：

o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)

h_t = o_t \odot \tanh(C_t)

4.3 LSTM为何有效——直觉理解

可以将LSTM的单元状态 $C_t$ 类比为一条在时间维度上流动的"传送带"，携带着长期记忆。遗忘门、输入门和输出门则像是传送带旁的智能操作员：

遗忘门： 判断传送带上哪些旧货物不再需要，予以清除；
输入门： 决定将哪些新货物（来自当前输入）放上传送带；
输出门： 在当前时刻，从传送带上取出哪些货物作为输出。

这种精细的门控机制使得LSTM能够在处理数百乃至数千个时间步的序列时，仍然保持对早期关键信息的"记忆"。

4.4 GRU：LSTM的简化变体

门控循环单元（Gated Recurrent Unit，GRU） 由Cho等人于2014年提出，是LSTM的一种简化变体。GRU将遗忘门和输入门合并为单一的更新门（Update Gate），并将单元状态和隐藏状态合并，从而减少了参数数量，提高了训练效率。

在大多数任务上，GRU与LSTM的性能相当，但训练速度更快，计算资源消耗更少，是实践中广受欢迎的替代选择。

第五部分：Seq2Seq——突破固定长度的枷锁

5.1 序列到序列问题的挑战

在NLP中，有大量任务需要将一个可变长度的输入序列映射到另一个可变长度的输出序列，典型案例包括：

机器翻译： "I love natural language processing" → "我热爱自然语言处理"
文本摘要： 将一篇长文章压缩为一段简短摘要
对话系统： 根据用户输入生成自然流畅的回复
语音识别： 将声学特征序列转化为文字序列

这类任务的共同特点是：输入序列和输出序列的长度不仅可变，而且往往不相等，传统的"一对一"映射模型无法直接处理。

5.2 Seq2Seq框架的诞生

2014年，Sutskever、Vinyals和Le发表了开创性论文《Sequence to Sequence Learning with Neural Networks》，提出了**Seq2Seq（序列到序列）框架。同年，Cho等人也独立提出了类似的编码器-解码器（Encoder-Decoder）**架构。

Seq2Seq框架的核心思想可以用一句话概括：用一个RNN（编码器）将输入序列压缩为一个固定维度的向量（上下文向量），再用另一个RNN（解码器）将该向量逐步解码为输出序列。

5.3 编码器（Encoder）的工作原理

编码器是一个标准的RNN（通常为LSTM或GRU），逐步处理输入序列 $x_1, x_2, \ldots, x_T$，在每个时间步更新隐藏状态：

$$h_t^{enc} = \text{LSTM}(x_t, h_{t-1}^{enc})$$

在处理完整个输入序列后，编码器最后一个时间步的隐藏状态（以及单元状态）$h_T^{enc}$ 被用作上下文向量（Context Vector），即输入序列的"压缩表示"或"语义摘要"。

5.4 解码器（Decoder）的工作原理

解码器也是一个LSTM，以编码器的上下文向量作为初始隐藏状态，以一个特殊的起始符号 <SOS>（Start of Sequence）作为初始输入，逐步生成输出序列：

以 $h_T^{enc}$ 初始化解码器隐藏状态；
在第一步，以 <SOS> 为输入，生成输出 $y_1$ 和新的隐藏状态 $h_1^{dec}$；
以 $y_1$ 为输入，生成 $y_2$ 和 $h_2^{dec}$；
如此循环，直到生成特殊的结束符号 <EOS>（End of Sequence）或达到最大长度限制。

解码过程中，模型在每个时间步通过Softmax输出词汇表上的概率分布，选取概率最高的词（贪婪搜索）或通过**束搜索（Beam Search）**保留概率最高的若干候选序列，以获得更好的全局最优解。

5.5 Seq2Seq的训练：教师强制

在训练阶段，通常使用**教师强制（Teacher Forcing）**技术：解码器在每个时间步的输入不是上一步模型预测的词，而是真实的目标词（Ground Truth）。这种方式显著加速了训练收敛，但也可能导致训练与推断阶段的不一致性（Exposure Bias），即模型在训练时总是接收正确输入，而在推断时却要依赖自身上一步的预测，一旦预测出错就可能"一错再错"。

5.6 Seq2Seq的根本局限：信息瓶颈

尽管Seq2Seq框架在机器翻译等任务上取得了当时的最佳性能，但它存在一个根本性的架构瓶颈：整个输入序列的信息必须被压缩进一个固定维度的上下文向量。

对于短句子，这种压缩尚且可行。但对于长句子（例如包含20个词以上的句子），单一的上下文向量难以完整保留所有词语的信息，导致解码质量显著下降——这一现象在机器翻译实验中被明确观察到：翻译质量随着句子长度的增加而显著衰退。

这个"信息瓶颈"问题直接催生了Attention机制的诞生。

第六部分：Attention机制——革命性的动态聚焦

6.1 Attention的灵感来源

人类在翻译或理解一个长句子时，并不需要将整个句子"一次性记住"，而是在生成每个输出词时，有选择地关注（Attend to）输入句子中最相关的部分。例如，在将英文句子"The cat sat on the mat"翻译为法文"Le chat s'est assis sur le tapis"时，在生成"chat"（猫）时，人类翻译者会重点关注"cat"；在生成"tapis"（垫子）时，会重点关注"mat"。

Bahdanau等人于2015年发表的论文《Neural Machine Translation by Jointly Learning to Align and Translate》首次将这一人类认知直觉引入神经网络，提出了注意力机制（Attention Mechanism），彻底改变了Seq2Seq模型的信息流动方式。

6.2 Attention的核心思想

Attention机制的核心在于：解码器在生成每个输出词时，不再仅依赖单一的固定上下文向量，而是动态地为编码器的所有隐藏状态分配权重（注意力分数），生成一个加权的动态上下文向量。

具体而言，编码器不再只输出最后一个时间步的隐藏状态，而是输出所有时间步的隐藏状态集合 ${h_1^{enc}, h_2^{enc}, \ldots, h_T^{enc}}$。在解码第 $t$ 步时：

第一步：计算注意力分数（Alignment Score）

$$e_{t,i} = \text{score}(s_{t-1}, h_i^{enc})$$

其中 $s_{t-1}$ 是解码器上一时间步的隐藏状态，$h_i^{enc}$ 是编码器第 $i$ 个时间步的隐藏状态，$\text{score}$ 函数衡量两者之间的"相关性"或"对齐程度"。

第二步：归一化注意力权重（Softmax）

$$\alpha_{t,i} = \frac{\exp(e_{t,i})}{\sum_{j=1}^{T} \exp(e_{t,j})}$$

注意力权重 $\alpha_{t,i}$ 表示在生成第 $t$ 个输出时，模型对编码器第 $i$ 个位置的"关注程度"，所有位置的权重之和为1。

第三步：计算动态上下文向量

$$c_t = \sum_{i=1}^{T} \alpha_{t,i} \cdot h_i^{enc}$$

动态上下文向量 $c_t$ 是编码器所有隐藏状态的加权求和，权重由注意力权重决定。

第四步：将上下文向量与解码器输入拼接，生成输出

$$s_t = \text{LSTM}([y_{t-1}; c_t], s_{t-1})$$ $$\hat{y}_t = \text{Softmax}(W_s \cdot s_t)$$

6.3 注意力分数的计算方式

不同的注意力机制在计算相关性分数时采用不同的函数，主要包括：

加性注意力（Additive / Bahdanau Attention）： $$e_{t,i} = v^T \tanh(W_1 s_{t-1} + W_2 h_i^{enc})$$ 使用前馈网络计算相关性，参数量相对较多，但表达能力强。
点积注意力（Dot-Product / Luong Attention）： $$e_{t,i} = s_{t-1}^T h_i^{enc}$$ 直接计算两个向量的点积，简单高效。
缩放点积注意力（Scaled Dot-Product Attention）： $$e_{t,i} = \frac{s_{t-1}^T h_i^{enc}}{\sqrt{d_k}}$$ 在点积基础上除以维度的平方根 $\sqrt{d_k}$，防止在高维空间中点积值过大导致Softmax梯度消失。这是后来Transformer模型使用的注意力形式。

6.4 Attention的多方面贡献

解决信息瓶颈问题： Attention机制彻底打破了"单一固定上下文向量"的限制，让解码器能够直接访问编码器的全部历史状态，信息流通不再受限于瓶颈。

显著提升长句子翻译质量： 实验证明，引入Attention后，模型对长句子的翻译质量大幅提升，BLEU分数显著改善。

提供可解释性： 注意力权重矩阵提供了一种直观的模型可解释性工具。可视化注意力权重，可以观察模型在翻译或处理时"关注"了输入的哪些部分，帮助研究者理解模型的决策过程。

催生Transformer架构： Attention机制的成功最终导致了2017年Vaswani等人提出的Transformer模型，该模型完全抛弃RNN结构，仅依赖多头自注意力机制（Multi-Head Self-Attention）来捕捉序列依赖关系，并行计算效率大幅提升，为后来BERT、GPT等大型预训练语言模型奠定了架构基础。

6.5 自注意力（Self-Attention）：语言理解的更高维度

值得一提的是，在标准的Attention机制中，查询（Query）来自解码器，而键值对（Key-Value）来自编码器。而**自注意力（Self-Attention）**将这一机制推广到序列内部：查询、键和值均来自同一个序列，从而使得序列中的每个位置都能与所有其他位置进行交互，捕捉序列内部的长距离依赖关系。自注意力机制是Transformer的核心，也是现代大型语言模型（如BERT、GPT系列）的基石。

第七部分：技术演进的整体脉络——回顾与展望

7.1 六项技术的内在逻辑

回顾这六项技术，可以清晰地看到一条层层递进、相互依存的演进逻辑：

技术	解决的核心问题	引入的新问题
分布式词表示	符号表示无语义，独热编码稀疏	如何高效学习高质量词向量？
Word2Vec	高效大规模学习词嵌入	静态词向量，无法处理多义词
RNN	处理可变长度序列，建模时序依赖	梯度消失，难以学习长距离依赖
LSTM	通过门控机制缓解梯度消失	序列到序列任务中的信息瓶颈
Seq2Seq	处理变长输入到变长输出的映射	固定上下文向量的信息压缩瓶颈
Attention	动态关注输入的不同部分，突破信息瓶颈	序列计算无法并行，效率瓶颈

每项技术的诞生都是对前一阶段核心问题的直接回应，而每项技术的应用又暴露出新的问题，推动着下一轮创新的到来。这种"螺旋式上升"的技术发展模式在深度学习领域中屡见不鲜。

7.2 通往现代NLP的道路

这六项技术所构建的技术体系，为后续的研究奠定了坚实基础：

2017年，Transformer： 完全基于Attention机制，放弃RNN，实现了序列处理的完全并行化。
2018年，ELMo： 基于双向LSTM，引入动态上下文词嵌入，解决了词义多义问题。
2018年，GPT / BERT： 基于Transformer，通过大规模预训练+微调范式，将NLP任务性能提升至前所未有的高度。
2020年至今，大型语言模型（GPT-3、ChatGPT、LLaMA、Claude等）： 模型规模的持续扩大，涌现出令人惊叹的语言理解和生成能力。

结语

从分布式词表示到注意力机制，从让机器"认识"单词到让机器能够流畅翻译长段落，NLP技术在短短十余年间走过了漫长的演进历程。每一项技术突破的背后，都是研究者们对语言本质的深刻理解和对工程实现的精妙设计。

分布式词表示告诉我们，语义可以在向量空间中被量化和计算；Word2Vec证明了高效学习语义表示是可行的；RNN让神经网络第一次真正具备了处理序列和时序信息的能力；LSTM通过门控机制将记忆与遗忘的控制权交给了模型本身；Seq2Seq框架搭建起了端到端序列映射的完整通道；而Attention机制则赋予了模型"聚焦"与"选择"的智慧，最终开启了Transformer时代的大门。

深入理解这六项技术，不仅是掌握现代NLP所必需的基础训练，更是理解深度学习如何在更广泛领域解决复杂问题的绝佳视角。技术的浪潮永不停歇，而扎实的基础，始终是站上浪潮之巅的根本所在。

本文约8000字，系统介绍了自然语言处理深度学习核心技术的演进脉络，如有疏漏之处，欢迎读者批评指正与交流探讨。

如果觉得文章对你有用，请随意赞赏

五 深度学习中的自然语言处理核心技术：从词向量到注意力机制的完整演进之路