AI 미세 조정 하이퍼 파라미터 설명
fine tune hyperparameter, 인공지능 파인튜닝
* epoch : 전체 데이터 훈련 반복 횟수
범위 : 1-10 사이값, 기본값 : 3
* batch size : 한번(1 step) 에 훈련할 예제 수,
범위 : 1 ~ 64 사이값 : 기본 16, (OpenAI는 1 이 기본)
일반적으로 mini-batch gradient descent 사용
값이 클수록 훈련속도가 높아짐(비례)
작을수록 자주 업데이트 되지만 일반화(분산)이 커짐
클수록 훈련이 빨라짐, 일반화(Generalization)가 약해지고, 과적합(overfitting)이 심해짐
- 과적합(overfitting): 제한된 샘플이나 학습 데이터에 지나치게 특화되어, 새로운 샘플에 대한 예측 결과가 오히려 나빠지거나 학습의 효과가 나타나지 않는 경우
* learning rate : 학습률(학습속도)
범위 : 0.0001 ~ 0.01 사이값 : 기본값 0.001
경사하강법(gradient descent algorithm)으로 최적점에 도달하는 단계 크기
값이 클수록 훈련속도가 높아짐(비례)
학습률이 클수록 빨리 진행되지만, 빨리 발산하기 시작하고, 최적의 솔루션에 도달하지 못할 수 있습니다.
학습률이 낮을 수록 최적값에 도달하는 데 시간이 오래 걸림
* learning rate multiplier
범위 : 0.1~10 사이값 , 기본값 : 2
learning rate 의 배수값
* LoRA Rank
https://www.entrypointai.com/blog/lora-fine-tuning/
범위 : 4~16 사이값 , 기본 : 8
값 높을 수록 정밀해짐, 8이상이면 거의 비슷한 결과
LoRA(Low-Rank Adaptation) : Huggingface의 PEFT(Parameter-Efficient Fine-Tuning) 기술
"어댑터"는 기본 모델에 추가될 때 미세 조정된 모델을 생성하는 낮은 순위 행렬의 모음
대형 모델에 대해서 소수의 새로운 파라미터만을 추가하고 조정하는 방식
QLoRA(Quantized Low Rank Adapters) : 16bit를 4bit로 압축했다가 복원, 품질 열화가 거의 없음
//-------------------------------------
< 참고 >
https://www.baeldung.com/cs/learning-rate-batch-size
https://medium.com/geekculture/how-does-batch-size-impact-your-model-learning-2dd34d9fb1fa
'AI' 카테고리의 다른 글
구글, 프롬프트 엔지니어링 매뉴얼(pdf 한글 번역) (0) | 2024.05.25 |
---|---|
OpenAI Team 계정 사용법(workspace 사용자 추가 삭제 방법) (0) | 2024.05.23 |
AI 모델의 버전별 출시일 (0) | 2024.05.01 |
리눅스(WSL Ubuntu)에서 CUDA, cuDNN 설치하는 방법 (0) | 2024.04.30 |
음성 합성 AI - OpenVoice 사용법 (0) | 2024.04.30 |