linda fa
@linda0
(二) 编码器(Encoder)处理 • 输入:处理后的词向量序列。 主要操作: 1. 自注意力机制(Self-Attention): • 计算序列中每个词与其他词之间的相关性,捕获全局上下文。 • 结果是每个词的加权表示,权重由注意力分数决定。 2. 前馈网络(Feed-Forward Network, FFN): • 对自注意力的输出进行非线性变换,进一步抽象特征。 3. 残差连接与归一化(Residual + Layer Normalization): • 稳定训练,防止梯度消失或爆炸。 堆叠多层:编码器由多个相同的层组成,每层提取更高阶特征。
0 reply
0 recast
0 reaction