为缓解 Transformer 处理长序列的计算复杂度，下列技术可用（多选）： | 学就创题库

题库实习信息校招公告参访活动

多选题

为缓解 Transformer 处理长序列的计算复杂度，下列技术可用（多选）：

A.

仅保留关键位置的注意力（选择性/稀疏）

B.

分层注意力（Hierarchical Attention）

C.

稀疏注意力（Sparse Attention）

D.

扩展正弦/余弦位置编码

确定

上一题

[多选题] 最大池化（Max Pooling）常见的更合适场景是（多选）：

下一题

[多选题] 关于 Batch Normalization（多选），以下说法正确的是：

题目信息

校招真题

-

正确率

0

评论

53

点击

收藏已收藏

错题本已加入错题本

我的笔记

登录添加笔记