为缓解 Transformer 处理长序列的计算复杂度,下列技术可用(多选):
仅保留关键位置的注意力(选择性/稀疏)
分层注意力(Hierarchical Attention)
稀疏注意力(Sparse Attention)
扩展正弦/余弦位置编码