Qwen3-VL-32B Distilled GPTQ

Qwen3-VL-32B을 기반으로 Knowledge Distillation 방식으로 학습한 후 GPTQ 4-bit 양자화를 적용한 Vision-Language 모델입니다.
DeepSeek-v3.2(Teacher)로 생성한 한국어 CoT 데이터셋으로 학습되었으며, Prompt Pre-filling 기법으로 Tool Call 문제를 해결했습니다.

모델 정보

항목	내용
Base Model	Qwen/Qwen3-VL-32B-Instruct
Teacher Model	DeepSeek-v3.2 (OpenRouter API)
양자화 방식	GPTQ 4-bit
파라미터 수	33.4B
학습 언어	한국어 (주), 영어
학습 데이터	2,031건 한국어 학술 지문 (CoT 포함)

학습 방법

1. CoT 데이터 증류

DeepSeek-v3.2(Teacher)를 사용해 2,031건의 한국어 학술 지문에 대한 Chain-of-Thought 데이터를 생성했습니다.

증류 전략 (Zero-shot + Guided Fallback)

1차: Teacher 모델이 <think> 태그 포함 사고 과정 생성
2차: 실패 시 정답 힌트 제공 후 재생성
3차: 완전 실패 시 Ground Truth 기반 기본 답변 사용

품질 관리 결과

CoT 태그 완결성: 100% (</think> 포함 보장)
정답 포맷 준수율: 100%
커버리지: 2,031건 / 2,031건 (100%)
평균 CoT 길이: 1,200자

2. Prompt Pre-filling (핵심 기법)

Qwen3-VL은 내장된 Tool-Calling 기능 때문에 일반 System Prompt만으로는 텍스트 추론을 강제할 수 없었습니다.
Prompt Pre-filling 기법으로 이 문제를 완전히 해결했습니다.

# ❌ Before (실패): tool_call 태그 생성
full_prompt = "<|im_start|>assistant\n"

# ✅ After (성공): think 태그로 CoT 강제
full_prompt = "<|im_start|>assistant\n<think>\n"

상태	정답 추출률
Pre-filling 적용 전	0% (`<tool_call>` 생성)
Pre-filling 적용 후	100% (`<think>` CoT 추론)

3. GPTQ 양자화

⚠️ 실험 결과 및 주의사항
32B 이상 대형 모델에서 3 epoch 학습 후 GPTQ 양자화를 적용하면 -3% 성능 저하가 발생할 수 있습니다.
원인: 고밀도 CoT 데이터로 인한 과적합 패턴이 양자화 시 붕괴됩니다.

권장 학습 설정 (32B 이상):
num_train_epochs = 1   # 3 epoch → 1 epoch
learning_rate = 1e-5   # 기본값 절반

사용 방법

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("xeker/qwen3-vl-32b-distilled-gptq")
model = AutoModelForCausalLM.from_pretrained(
    "xeker/qwen3-vl-32b-distilled-gptq",
    device_map="auto"
)

messages = [
    {"role": "system", "content": "당신은 한국어 학술 지문을 분석하고 추론하는 전문가입니다."},
    {"role": "user", "content": "다음 지문을 읽고 질문에 답하세요.\n\n[지문 내용]"}
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
text += "<think>\n"  # ⭐ Prompt Pre-filling: Tool Call 방지, CoT 추론 강제

inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=4096, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=False))

주의: <think>\n pre-filling 없이 사용하면 <tool_call> 태그가 생성되어 답변 추출에 실패할 수 있습니다.

기술 스택

Python PyTorch Transformers vLLM GPTQ Knowledge Distillation OpenRouter API

프로젝트 배경

네이버 부스트캠프 AI Tech 8기 팀 프로젝트의 일환으로 진행된 수능 풀이 특화 LLM 개발 프로젝트에서 파생된 모델입니다.

GitHub: boostcampaitech8/pro-nlp-mrc-nlp-01
관련 모델: xeker/qwen3-14b-distilled-gptq

Downloads last month: 17

Safetensors

Model size

33B params

Tensor type

BF16

I32

Model tree for xeker/qwen3-vl-32b-distilled-gptq

Base model

Qwen/Qwen3-VL-32B-Instruct

Quantized

(35)

this model