注意力机制 (Attention Mechanism)
概述
注意力机制是一种让模型能够关注输入序列中重要部分的技术,广泛应用于自然语言处理、计算机视觉等领域。
主要特点
- 动态权重:根据输入内容动态调整关注程度
- 长距离依赖:有效捕捉序列中远距离的依赖关系
- 可解释性:注意力权重提供模型决策的可视化解释
基本类型
1. 自注意力 (Self-Attention)
- 序列内部元素之间的注意力
- 捕捉序列内部的依赖关系
- Transformer的核心组件
2. 多头注意力 (Multi-Head Attention)
- 并行计算多个注意力头
- 捕捉不同子空间的信息
- 增强模型的表达能力
3. 交叉注意力 (Cross-Attention)
- 两个不同序列之间的注意力
- 用于编码器-解码器架构
- 实现信息的跨序列传递
计算过程
1. 查询、键、值
- Query (Q):查询向量
- Key (K):键向量
- Value (V):值向量
2. 注意力分数
- 计算Q和K的相似度
- 使用softmax归一化
3. 加权求和
- 用注意力分数对V加权
- 得到最终的注意力输出
应用领域
- 机器翻译
- 文本摘要
- 图像描述生成
- 语音识别
- 推荐系统