linda fa
@linda0
(三) 解码器(Decoder)处理 输入:目标序列的前缀(训练时是已知的部分,推理时是已生成的部分)。 • 主要操作: 自注意力机制:类似于编码器,但只关注目标序列中已生成的部分(通过遮挡机制实现)。 编码器-解码器注意力(Encoder-Decoder Attention): • 将解码器的中间状态与编码器输出结合,获取输入序列的上下文信息。 前馈网络与归一化:与编码器类似。
0 reply
0 recast
0 reaction