例如：

对于 “it”，Query 是 “it” 想要寻找相关的信息（谁是指代对象）。

对于 “animal” 和 “street”，Key 表示它们提供的信息（它们的上下文语义和特性）。

计算注意力分数
对 “it” 的 Query，与每个词的 Key 计算相似性（注意力分数）：

可能的结果（假设经过归一化）：

• “animal”：0.8

• “street”：0.1 • 其他词：更低。

生成上下文表示：

用这些注意力分数对 Value 矩阵进行加权求和，生成 “it” 的上下文表示的注意力得分：

结果分析：

“it” 的上下文向量包含更多 “animal” 的信息，因为注意力机制认为它与 “it” 的关系更紧密。 具体应用场景