这里为什么要开根号？

词向量乘以根号下的词嵌入维度，是什么含义？

破晓地平线 2024-12-19

源自：LLM大模型课算法全能工程师实战营 3-7 【实战3】Tranformer的参数设计及原理代码实战

收起

1回答

那位科技大模型算法 2025-01-07 20:27:23

在Transformer模型中，词向量乘以根号下的词嵌入维度（即 \(\sqrt{d_{\text{model}}}\)）的主要目的是为了缩放词嵌入向量的大小，以便在后续的计算中保持数值的稳定性。

这种缩放操作有以下几个作用：

1. 数值稳定性：在Transformer模型中，词嵌入向量会与位置编码向量相加。位置编码向量的值通常较小，而词嵌入向量的初始值可能会较大。通过乘以 \(\sqrt{d_{\text{model}}}\)，可以使得词嵌入向量的数值范围与位置编码向量的数值范围更加匹配，从而避免在相加时词嵌入向量的信息被位置编码向量淹没。

2. 保持信息：这种缩放操作有助于在后续的自注意力机制中保持词嵌入向量中的信息不被丢失，因为在自注意力机制中，词嵌入向量会与其他向量进行点积运算，缩放后的词嵌入向量可以更好地参与这些运算。

收起回答