증류(Distillation)는 대규모 언어 모델(LLM)의 성능을 향상시키기 위해 사용되는 중요한 학습 기법 중 하나입니다. 이 기법은 주로 더 큰 모델의 지식을 작은 모델로 전달하여 최종적으로 더 효율적이고 빠른 모델을 만드는 데 목적이 있습니다. 증류 기법은 주로 두 단계로 이루어집니다. 첫 번째 단계는 교사 모델(teacher model)로부터 지식을 추출하는 것이고, 두 번째 단계는 학생 모델(student model)을 학습시켜 원본 모델의 지식을 습득하게 하는 것입니다.
증류 과정의 핵심 개념
- 교사 모델과 학생 모델
- 교사 모델 : GPT-4, BERT와 같은 대형 모델로, 높은 정확도를 가지지만 추론 비용이 큽니다.
- 학생 모델 : 교사보다 레이어 수나 파라미터가 적은 소형 모델로, 경량화되어 실용적 배포가 가능합니다.
- 소프트 타겟(Soft Target)
- 교사 모델의 지식을 습득하기 위해, 교사 모델의 출력 확률 분포를 학생 모델의 학습 대상으로 사용합니다.
- 예: “강아지가 공을 물고 있다”라는 문장 생성 시, 교사 모델은
강아지(70%)
,고양이(20%)
,동물(10%)
처럼 클래스 간 관계를 포함한 확률을 출력합니다. - 온도 조절(Temperature Scaling) : 확률 분포 즉, 교사 모델의 출력을 부드럽게 만들기 위해 소프트맥스 함수에 온도 계수 ( T )를 적용합니다.
- ( T > 1 )이면 확률 분포가 평탄해져 학생이 세부적인 관계를 학습하기 용이합니다.
- 손실 함수(Loss Function)
- 학생 모델은 두 가지 손실을 최소화합니다:
- 교사와의 증류 손실 : 교사의 소프트 타겟과 학생 예측의 KL 발산(KL-Divergence).
- 실제 라벨 손실 : 원본 데이터의 정답(하드 타겟)과의 교차 엔트로피.
- 학생 모델은 두 가지 손실을 최소화합니다:
증류 예시: 텍스트 분류 작업
- 교사 모델 준비
- GPT-3를 IMDb 영화 리뷰 감성 분석(긍정/부정)에 미세 조정합니다.
- 소프트 타겟 생성
- 학습 데이터를 GPT-3에 입력해 각 샘플의 확률 분포(예: 긍정 85%, 부정 15%)를 추출합니다.
- 학생 모델 학습
- DistilBERT와 같은 소형 모델을 두 손실의 가중합으로 학습시킵니다:
- Loss=α⋅KL-Divergence(교사,학생)+(1−α)⋅Cross-Entropy(라벨,학생)
- 온도 ( T=2 )를 적용해 확률 분포를 부드럽게 합니다.
- DistilBERT와 같은 소형 모델을 두 손실의 가중합으로 학습시킵니다:
증류의 장점과 활용 사례
- 장점
- 추론 속도 향상: 학생 모델은 교사 대비 60% 이상 경량화되며, GPU 메모리 사용량이 감소합니다.
- 에지 디바이스 배포: 스마트폰이나 IoT 기기에서도 LLM 기능 사용이 가능해집니다.
- 데이터 효율성: 원본 데이터 없이 교사의 출력만으로도 학생을 학습시킬 수 있습니다(데이터 프라이버시 보호).
- 활용 사례
- DistilGPT-3 : GPT-3의 40% 크기로 95% 성능 유지.
- TinyBERT : BERT 대비 7.5배 작지만 GLUE 벤치마크에서 96% 성능 달성.
- 모바일 번역기 : 대형 번역 모델을 증류해 스마트폰에 탑재.
증류의 유형
- 오프라인 증류
- 교사 모델이 미리 학습된 후 고정된 상태에서 학생을 학습시킵니다.
- 온라인 증류
- 교사와 학생이 동시에 학습되며, 서로의 예측을 참조합니다(예: Mutual Learning).
- 자기 증류(Self-Distillation)
- 동일 모델의 깊은 버전이 얕은 버전을 가르칩니다(계층적 지식 전달).
한계와 극복 방안
- 성능 격차 : 학생 모델이 교사의 복잡한 추론을 완전히 흉내 내지 못할 수 있습니다.
- 해결 : 어텐션 맵 증류(Attention Distillation)로 모델 내부의 집중 메커니즘을 전달합니다.
- 과적합 위험 : 학생이 교사의 노이즈까지 학습할 수 있습니다.
- 해결 : 데이터 증강이나 교사 앙상블로 일반화 성능을 높입니다.
결론
지식 증류는 리소스 제약 환경에서도 LLM의 강력한 성능을 활용할 수 있게 하는 핵심 기술입니다. 교사 모델의 “암묵적 지식”을 전달함으로써, 소형 모델은 적은 자원으로도 높은 효율성을 달성할 수 있습니다.