注意力机制 (Attention Mechanism)

概述

注意力机制是一种让模型能够关注输入序列中重要部分的技术,广泛应用于自然语言处理、计算机视觉等领域。

主要特点

  • 动态权重:根据输入内容动态调整关注程度
  • 长距离依赖:有效捕捉序列中远距离的依赖关系
  • 可解释性:注意力权重提供模型决策的可视化解释

基本类型

1. 自注意力 (Self-Attention)

  • 序列内部元素之间的注意力
  • 捕捉序列内部的依赖关系
  • Transformer的核心组件

2. 多头注意力 (Multi-Head Attention)

  • 并行计算多个注意力头
  • 捕捉不同子空间的信息
  • 增强模型的表达能力

3. 交叉注意力 (Cross-Attention)

  • 两个不同序列之间的注意力
  • 用于编码器-解码器架构
  • 实现信息的跨序列传递

计算过程

1. 查询、键、值

  • Query (Q):查询向量
  • Key (K):键向量
  • Value (V):值向量

2. 注意力分数

  • 计算Q和K的相似度
  • 使用softmax归一化

3. 加权求和

  • 用注意力分数对V加权
  • 得到最终的注意力输出

应用领域

  • 机器翻译
  • 文本摘要
  • 图像描述生成
  • 语音识别
  • 推荐系统