[LLM 스터디] 6일차 인증 - Parallelism
2025. 1. 13. 01:32ㆍAI/LLM 스터디
오늘의 공부 내용:
- Data Parallelism(DP)
- 여러 gpu에 모델을 복사하고 순/역전파 진행 -> 여러 gpu에서 모인 gradient 동기화.
- 단점: 모델을 통째로 복사해서 소규모 모델만 가능
- Model Parallelism(MP)
- 모델을 레이어별로 나눠서 gpu에 할당. e.g. layer0~3: gpu0, layer 4~7: gpu1
- Pipeline Parallelism(PP)
- MP에서 데이터를 마이크로배치로 더 쪼개 gpu들간의 대기시간(버블)을 줄인 것
- Tensor Parallelism(TP)
- 한 레이어 내에서 텐서를 쪼개서 각각에 gpu 할당.
- FSDP(Fully Sharded Data Parallelism)
- 모델을 샤드라는 단위로 쪼개고 샤드별로 gpu 할당.
- 단점: 구현이 복잡
'AI > LLM 스터디' 카테고리의 다른 글
[LLM 스터디] 8일차 인증 - datasets, Collator (0) | 2025.01.15 |
---|---|
[LLM 스터디] 7일차 인증 - hugging face hub (1) | 2025.01.13 |
[LLM 스터디] 5일차 인증 - gemma, llama 구조 (1) | 2025.01.05 |
[LLM 스터디] 4일차 인증 - PEFT, NLP tasks (1) | 2025.01.02 |
[LLM 스터디] 3일차 인증 - transformer, tokenizers (3) | 2025.01.01 |