LLM 파인튜닝 완전 가이드: LoRA부터 QLoRA까지, 2026년 기업이 알아야 할 것
범용 LLM을 내 도메인에 맞게 바꾸는 파인튜닝. Full FT·LoRA·QLoRA 차이부터 실전 데이터 준비, 비용 계산까지 총정리.
파인튜닝이 왜 지금 주목받는가
ChatGPT를 쓰다 보면 한계가 느껴지는 순간이 있다. 우리 회사만의 용어를 모른다, 내부 문서 스타일로 답변하지 않는다, 특정 분야의 전문 지식이 부족하다. 프롬프트를 정교하게 다듬어도 해결되지 않는 문제들이다.
파인튜닝(Fine-tuning) 은 이 문제의 근본적인 해결책이다. 범용 언어 모델에 우리 도메인의 데이터를 추가 학습시켜, 처음부터 그 분야 전문가처럼 행동하도록 만드는 기술이다.
2024년까지만 해도 파인튜닝은 대형 AI 연구소나 스타트업의 전유물이었다. 수억 원짜리 GPU 클러스터가 필요했고, 몇 달간의 시간이 걸렸다. 하지만 2026년 현재, 상황이 완전히 바뀌었다.
파인튜닝 vs. 프롬프트 엔지니어링 vs. RAG
파인튜닝을 검토하기 전에, 먼저 세 가지 접근법의 차이를 명확히 해야 한다.
| 방식 | 원리 | 비용 | 적합한 상황 |
|---|---|---|---|
| 프롬프트 엔지니어링 | 입력 지시문 최적화 | 최소 | 즉시 적용, 일반적 용도 |
| RAG | 외부 문서 검색 + LLM | 중간 | 최신 정보, 방대한 지식베이스 |
| 파인튜닝 | 모델 가중치 직접 학습 | 높음 | 스타일·어조·도메인 깊이 |
3가지 핵심 파인튜닝 기법
파인튜닝에는 크게 세 가지 방식이 있다. 비용, 성능, 인프라 요구사항이 크게 다르기 때문에 선택이 중요하다.
Full Fine-Tuning: 최고 성능, 최고 비용
모델의 모든 가중치(파라미터)를 업데이트하는 방식이다. GPT-3 수준(175B)을 Full FT하려면 A100 80GB GPU 수십 장이 필요하고, 비용은 수천만 원을 넘는다. 7B 모델도 최소 A100 2장 이상이 권장된다.
단, 성능은 가장 뛰어나다. 도메인 특화가 완벽하게 이루어지며, 모델이 새로운 지식을 깊이 내면화한다.
추천 대상: 자체 데이터센터를 보유한 대기업, 최고 수준의 성능이 필요한 헬스케어·법률 분야, 클라우드 비용에 제약이 없는 곳.
LoRA: 효율적인 파인튜닝의 표준
LoRA(Low-Rank Adaptation) 는 2021년 Microsoft가 제안한 방법으로, 현재 사실상의 파인튜닝 표준이다. 핵심 아이디어는 모든 가중치를 업데이트하는 대신, 작은 보조 행렬 두 개(A, B)만 학습하는 것이다.
수식으로 표현하면: W = W₀ + BA
- W₀: 원본 가중치 (고정, frozen)
- B와 A: 새로 학습할 작은 행렬 (r ≪ d, 랭크가 매우 낮음)
실제로 학습하는 파라미터는 전체의 0.1~1% 수준이다. 그럼에도 Full FT와 비슷한 수준의 성능을 달성한다. 이유는 대부분의 모델 지식이 이미 W₀에 잘 담겨 있고, 도메인 적응은 작은 조정만으로도 가능하기 때문이다.
실제 인프라: Llama 3 8B 모델 LoRA 파인튜닝 시 A100 40GB 1장으로 충분.
QLoRA: 소규모 팀의 선택지
QLoRA(Quantized LoRA) 는 LoRA에 4-bit 양자화(quantization)를 더한 방식이다. 2023년 University of Washington이 발표했으며, 현재 개인 연구자와 스타트업에서 가장 많이 쓰이는 방법이다.
모델 가중치를 4-bit로 압축함으로써 메모리 사용량을 극적으로 줄인다. Llama 3 70B 같은 대형 모델도 RTX 4090 2장(48GB) 으로 파인튜닝이 가능하다. GPU 비용으로 환산하면 하루 5~10만 원 수준.
실전 데이터 준비 가이드
파인튜닝의 성패는 데이터 품질이 결정한다. 아무리 좋은 기법을 써도 데이터가 나쁘면 모델도 나빠진다 — “garbage in, garbage out"은 파인튜닝에서도 그대로 통한다.
데이터 형식: Instruction Tuning
가장 일반적인 형식은 Instruction-Input-Output 쌍이다.
{
"instruction": "아래 계약서 조항을 법률 전문 용어를 사용해 요약하라.",
"input": "제3조 (계약 해지) 갑은 을이 본 계약의 조건을 위반하는 경우...",
"output": "계약 위반 시 갑의 일방적 해지권 행사 가능 조항. 을에게 귀책사유 있는 채무불이행 시 즉시 해지 가능하며, 손해배상 청구권 병존..."
}
데이터 품질 기준
- 최소 권장량: 1,000~5,000쌍 (도메인 복잡도에 따라 다름)
- 다양성: 동일한 패턴의 반복보다 다양한 입출력 쌍이 효과적
- 균형: 정답 예시와 함께 경계 케이스(엣지 케이스)도 포함
- 노이즈 제거: 오류, 모순된 답변, 불완전한 쌍을 사전에 필터링
비용과 인프라 현실적으로 보기
2026년 현재 파인튜닝 비용은 예전과 비교할 수 없을 정도로 낮아졌다.
클라우드 기반 예산 가이드
소규모 프로젝트 (7B 모델, QLoRA)
- GPU: RTX 4090 × 1 (클라우드 임대)
- 학습 시간: 2~4시간
- 비용: 약 2~5만 원
중규모 프로젝트 (13B~30B 모델, LoRA)
- GPU: A100 40GB × 1~2
- 학습 시간: 6~12시간
- 비용: 약 10~30만 원
대규모 프로젝트 (70B 모델, Full FT)
- GPU: A100 80GB × 8
- 학습 시간: 1~3일
- 비용: 수백만 원 이상
국내 이용 가능한 클라우드 옵션
- AWS: SageMaker + p4d 인스턴스 (A100 × 8)
- GCP: Vertex AI + A3 인스턴스 (H100 × 8)
- NCP (네이버 클라우드): HPC AI 서비스, 국내 데이터 규제 준수에 유리
- Lambda Labs: GPU 임대 전문, 비용 효율 높음
국내 기업 도입 사례
A 금융사: 여신 심사 자동화
기존 LLM은 금융 규제 용어와 내부 심사 기준을 제대로 이해하지 못했다. 5년치 심사 보고서 3,200건을 Instruction 데이터로 변환해 Llama 3 13B를 LoRA 파인튜닝했다. 결과: 심사 초안 작성 시간 70% 단축, 심사역 검토 시간 30% 절감.
B 의료기관: 임상 노트 요약
환자 기록 요약의 정확도가 범용 LLM으로는 미흡했다. 익명화된 임상 노트 8,000건으로 파인튜닝 후, 주요 진단·처방·경과를 구조화된 형식으로 자동 정리. 오류율 Full FT 대비 2배 높은 QLoRA를 사용했으나, 의료진 최종 검토 과정이 있어 실용적 수준이었다.
C 이커머스: 상품 설명 자동 생성
2만 개 상품의 브랜드별 설명 스타일이 제각각이었다. 고품질 상품 설명 1,500쌍으로 파인튜닝한 결과, 브랜드 보이스를 일관되게 유지하면서 SEO 최적화까지 자동화했다. 기존 카피라이팅 비용 대비 80% 절감.
파인튜닝 전 반드시 확인할 사항
결론
파인튜닝은 더 이상 AI 연구소만의 기술이 아니다. 2026년 현재, 충분한 도메인 데이터와 명확한 목적이 있다면 중견 기업도 충분히 도전할 수 있는 영역이 됐다.
핵심 판단 기준은 하나다: “프롬프트와 RAG로 안 되는 문제인가?” 그렇다면 파인튜닝을 검토할 시점이다.
시작점으로는 QLoRA + 소규모 데이터셋으로 파일럿을 먼저 진행하길 권장한다. 작게 시작해서 효과를 측정하고, 그 결과를 바탕으로 투자 규모를 결정하는 것이 가장 안전한 접근이다.