AI/LLM 스터디(12)
-
[LLM 스터디] 7일차 인증 - hugging face hub
오늘의 공부 내용:- 허깅페이스의 llm 모델 사용법(google/gemma-2b-it)- batch_size의 중요성 hugging face에서 gemma access 권한을 신청 했는데 몇일 지나도 안되길래 퍼플렉시티에 물어봤더니 같은 문제를 겪은 사람들이 많은 것 같았다. hugging face에 올라온 discussion들을 좀 더 뒤져봤더니 해결방법 발견! 그냥 20GB/20GB, H100 PCle로 했다. 책에서 하라는 용량보다 적게 했는데 아직은 굳이 클 필요는 없는 것 같다. 필요할 때 삭제하고 다시 생성하면 되겠지…그리고 전에 이 실습코드를 L40으로도 돌려봤는데 큰 차이는 없는 것 같았다. 괜히 h100으로 했다… 다시 L40으로! 이 함수를 실행시키던 중 ‘You seem to b..
2025.01.13 -
[LLM 스터디] 6일차 인증 - Parallelism
오늘의 공부 내용:- Data Parallelism(DP) - 여러 gpu에 모델을 복사하고 순/역전파 진행 -> 여러 gpu에서 모인 gradient 동기화. - 단점: 모델을 통째로 복사해서 소규모 모델만 가능- Model Parallelism(MP) - 모델을 레이어별로 나눠서 gpu에 할당. e.g. layer0~3: gpu0, layer 4~7: gpu1- Pipeline Parallelism(PP) - MP에서 데이터를 마이크로배치로 더 쪼개 gpu들간의 대기시간(버블)을 줄인 것- Tensor Parallelism(TP) - 한 레이어 내에서 텐서를 쪼개서 각각에 gpu 할당.- FSDP(Fully Sharded Data Parallelism) - 모델을 샤드..
2025.01.13 -
[LLM 스터디] 5일차 인증 - gemma, llama 구조
오늘의 공부 내용:- gemma와 llama의 모델 구조 - gemma, llama는 비교적 작은 모델이지만 설계로 효율성을 높인 아키텍처- BatchNorm과 LayerNorm의 차이 - BatchNorm: CNN에 적합, batch_size가 커야 좋음. - LayerNorm: NLP/RNN에 적합- RoPE, NLP에 적합한 활성화 함수들 gemma 구조인데 딱 보자마자 '인셉션을 여기에 써먹는구나~' 했다...전에 googlenet 리뷰할 때 본거랑 너무 똑같자나~
2025.01.05 -
[LLM 스터디] 4일차 인증 - PEFT, NLP tasks
오늘의 공부 내용:- 파인튜닝(Parameter Efficient Fine Tuning, PEFT)의 종류 - Adapter Tuning: 추가적인 Adapter 모듈(소규모 신경망)만 학습. (AutoEncoder처럼 차원축소를 이용해 파라미터를 많이 줄일 수 있음) - Prompt Tuning: 기존 모델은 고정시키고 입력에 soft prompt란 embedding을 추가해 학습. - LoRA(Low Rank Adaptation): 기존의 가중치 행렬을 저차원 행렬로 분해해 학습.- 파인튜닝 시 주의사항 - 기존의 학습내용 망각 - 오버피팅 - 데이터 질 - 컴퓨팅 리소스- NLP tasks - next token prediction/text g..
2025.01.02 -
[LLM 스터디] 3일차 인증 - transformer, tokenizers
오늘의 공부 내용:- transformer에 대한 이해(참고자료: https://wikidocs.net/31379)- hugging face tokenizers(참고자료: https://huggingface.co/docs/tokenizers/quicktour?code=python) transformer에 대해서는 전에 한 nlp course에서 배운적이 있어서 (잊어버린게 많긴 하지만) 처음보단 쉬웠다.아래는 노션에 정리한 내용~ 디코드 시 띄어쓰기 정보를 복원하는 방법에 대해 질문했는데안보이는 문자를 통해 한다는 답변을 얻었다.
2025.01.01