[LLM 스터디] 6일차 인증 - Parallelism

2025. 1. 13. 01:32AI/LLM 스터디

오늘의 공부 내용:

- Data Parallelism(DP)

    - 여러 gpu에 모델을 복사하고 순/역전파 진행 -> 여러 gpu에서 모인 gradient 동기화.

    - 단점: 모델을 통째로 복사해서 소규모 모델만 가능

- Model Parallelism(MP)

    - 모델을 레이어별로 나눠서 gpu에 할당. e.g. layer0~3: gpu0, layer 4~7: gpu1

- Pipeline Parallelism(PP)

    - MP에서 데이터를 마이크로배치로 더 쪼개 gpu들간의 대기시간(버블)을 줄인 것

- Tensor Parallelism(TP)

    - 한 레이어 내에서 텐서를 쪼개서 각각에 gpu 할당.

- FSDP(Fully Sharded Data Parallelism)

    - 모델을 샤드라는 단위로 쪼개고 샤드별로 gpu 할당.

    - 단점: 구현이 복잡