CS336从头构建大模型
1. x
2. x
3. x
4. x
5. triton
对于矩阵乘法,是计算瓶颈(6倍),其他是内存瓶颈
insight systems 额外开销有两部分,第一个是初始化,数据传输之类的,第二个是编译
cpu和gpu执行异步,除非加synchronized
python编写,单次kernel调用,很快。但是还是慢于pytorch的实现
6. 并行
数据并行
Zero 三个阶段
第一个0开销
第二个多进行一次all reduce
第三次大量通信开销,但是可以并行起来,导致最终内存占用很少的同时性能开销不大
模型并行
张量并行
sequence(序列串分配到不同设备上)
tensor(不同设备处理不同段)
selective activation(选择化激活,flash attention第二个技巧)
其他并行方案
上下文并行(环形注意力)
专家并行
- Title: CS336从头构建大模型
- Author: Ethereal
- Created at: 2025-10-21 20:12:29
- Updated at: 2025-10-21 20:14:42
- Link: https://ethereal-o.github.io/2025/10/21/CS336从头构建大模型/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments