文献阅读《Mystique: Enabling accurate and scalable generation of production AI benchmarks》

1. 挑战与贡献 挑战 模型的多样性和更新速度无法与云基础设施上不断变化、高度多样化的人工智能生产工作负载相匹配 工程师或研究人员需要手动选择现有的生产或开源工作负载,并将其调整为可用于基准测试的形式

文献阅读《Alibaba HPN: A Data Center Network for Large Language Model Training》

Alibaba High Performance Network (HPN) HPN介绍了一种两层的双平面网络,可以在一个Pod中接入1.5w个GPU,通常需要3层Clos架构的网络才能容纳这么多GPU HPN 提出了一种新的双 ToR 设计,以取代传统数据中心网络中的单 ToR 1. 贡献与挑战

文献阅读《xCCL: A Survey of Industry-Led Collective Communication Libraries for Deep Learning》

we survey the current state-of-the-art collective communication libraries (namely xCCL, including NCCL, oneCCL, RCCL, MSCCL, ACCL, and Gloo), with a f

文献阅读《Chakra: Advancing performance benchmarking and co-design using standardized execution traces》

1. 文章简介 1.1 摘要 基准测试和协同设计对于推动 ML 模型、ML 软件和下一代硬件的优化和创新至关重要。全工作量基准(如 MLPerf)在实现不同软件和硬件堆栈之间的公平比较方面发挥着至关重要的作用,尤其是在系统完全设计和部署之后。然而,人工智能创新的步伐要求模拟器和仿真器采用更加敏捷的方

文献阅读《Tofu: a 6D mesh/torus interconnect for exascale computers》

在XYZ维度拓扑结构类似3D Torus架构 在ABC维度按照如图所示的架构链接 每个节点需要引出来10个链接,每XYZB轴各2条,AC轴为1条
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×