CS336从头构建大模型

Ethereal Lv5

1. x

2. x

3. x

4. x

5. triton

  • 对于矩阵乘法,是计算瓶颈(6倍),其他是内存瓶颈

  • insight systems 额外开销有两部分,第一个是初始化,数据传输之类的,第二个是编译

  • cpu和gpu执行异步,除非加synchronized

  • python编写,单次kernel调用,很快。但是还是慢于pytorch的实现

6. 并行

  1. 数据并行

    • Zero 三个阶段

      • 第一个0开销

      • 第二个多进行一次all reduce

      • 第三次大量通信开销,但是可以并行起来,导致最终内存占用很少的同时性能开销不大

  2. 模型并行

  3. 张量并行

    • sequence(序列串分配到不同设备上)

    • tensor(不同设备处理不同段)

    • selective activation(选择化激活,flash attention第二个技巧)

  4. 其他并行方案

    • 上下文并行(环形注意力)

    • 专家并行

  • Title: CS336从头构建大模型
  • Author: Ethereal
  • Created at: 2025-10-21 20:12:29
  • Updated at: 2025-10-21 20:14:42
  • Link: https://ethereal-o.github.io/2025/10/21/CS336从头构建大模型/
  • License: This work is licensed under CC BY-NC-SA 4.0.
 Comments
On this page
CS336从头构建大模型