注意力机制

个性化图像生成的注意力混合架构，Mixture-of-Attention (MoA)官网入口网址

Transformer-XL是一种超越固定长度上下文的注意力语言模型，支持单节点多GPU和多主机TPU训练，取得了最新的最佳结果，Transformer-XL官网入口网址

Gemma 2B模型，支持10M序列长度，优化内存使用，适用于大规模语言模型应用。Gemma-2B-10M官网入口网址

高分辨率多视角扩散模型，使用高效行注意力机制。Era3D官网入口网址