AI教程2026年1月5日Mosaic 分布式注意力分片:解决 15 万超长序列显存瓶颈深入探讨 Mosaic 库如何通过分布式注意力分片(Sharding Attention)技术,解决 15 万超长序列在 Transformer 模型中的显存瓶颈问题。阅读全文 →