Qwen3-Next-80B on NVIDIA DGX Spark(GB10 Grace Blackwell GPU): 완전한 가이드

📋 개요

이 문서는 NVIDIA GB10 GPU에서 Qwen3-Next-80B 모델을 실행하기 위한 완전한 가이드입니다. vLLM의 호환성 문제를 해결하기 위해 Ollama로 전환하고, 60GB VRAM을 최대한 활용하는 최적화 설정을 포함합니다.

작성일: 2025-12-20
테스트 환경: GB10 GPU (60GB VRAM), CUDA 12.1, PyTorch 2.9.x
모델: Qwen/Qwen3-Next-80B-A3B-Instruct-GGUF (Q5_K_M 양자화)

🎯 주요 성과

✅ vLLM 호환성 문제 해결: GB10에서 vLLM의 EngineCore exiting 오류를 Ollama로 우회
✅ Qwen3-Next-80B Q5_K_M 모델 성공적으로 실행: GGUF 양자화 모델 사용
✅ 성능 최적화: 동시 처리 8개, Context Window 32K 토큰 지원
✅ 통합 시작 스크립트: Ollama부터 NIKA 서비스까지 원클릭 시작

⚠️ vLLM에서 발생한 문제

문제 증상

EngineCore exiting 오류로 모델 로딩 후 즉시 종료
RuntimeError: Engine core initialization failed
다양한 환경변수와 플래그 시도에도 해결되지 않음

시도한 해결책 (모두 실패)

환경변수 조정
- VLLM_DISABLE_CUSTOM_ALL_REDUCE=1
- VLLM_WORKER_MULTIPROC_METHOD=spawn
- VLLM_ENGINE_INIT_TIMEOUT=1200
- VLLM_IPC_RETRY_COUNT=20
- 기타 GB10 호환성 관련 환경변수 다수
vLLM 버전 변경
- vllm/vllm-openai:nightly (최신 개발 버전)
- vllm/vllm-openai:latest (안정 버전)
- 소스 빌드 시도
결론
- GB10 아키텍처와 vLLM의 IPC 통신 방식 간 근본적인 호환성 문제로 판단
- vLLM 실행 시 초기화 단계에서 멈춤(Hang) 현상 발생
- 로그상에서 GPU 간 통신(NCCL)이 맺어지지 않고 타임아웃(Timeout) 발생
- Ray(분산 처리 프레임워크)가 워커 프로세스와 통신하지 못해 죽는 현상
- GB10의 특수 아키텍처인 **NVLink-C2C (Chip-to-Chip)**와 vLLM이 사용하는 통신 라이브러리(NCCL) 간의 호환성 문제
- 기본 P2P(Peer-to-Peer) 통신이 ARM64 환경 드라이버 충돌로 인해 제대로 수행되지 않음
- "강제 TCP 전환" (The TCP Workaround)
- vLLM on GB10 (ARM64): 아직 소프트웨어 생태계(PyTorch, Triton, NCCL)가 완벽하게 GB10의 하드웨어 특성을 받아주지 못함. (특히 직접 빌드해야 하는 경우가 많아 의존성 지옥 발생)
- Ollama로 전환 결정

🚀 Ollama로 전환

1. Ollama 설치 및 모델 다운로드

# Ollama 설치 (이미 설치되어 있다면 생략)
# Ubuntu/Debian
curl -fsSL https://ollama.com/install.sh | sh

# Qwen3-Next-80B Q5_K_M 모델 다운로드 (HuggingFace)
ollama pull hf.co/Qwen/Qwen3-Next-80B-A3B-Instruct-GGUF:Q5_K_M

2. 모델 이름 변경 (선택사항)

# 다운로드한 모델을 더 짧은 이름으로 등록
ollama create qwen3-next-80b-q5km -f /path/to/Modelfile

3. Modelfile 생성 (템플릿 문제 해결)

초기 다운로드 시 빈 응답이 발생할 수 있습니다. 이는 템플릿 문제로, 다음 Modelfile을 사용하세요:

FROM qwen3-next-80b-q5km

PARAMETER num_thread 8
PARAMETER num_ctx 32768

PARAMETER stop "<|im_end|>"
PARAMETER stop "<|endoftext|>"
PARAMETER stop "<|eot_id|>"

TEMPLATE """{{- $lastUserIdx := -1 -}}
{{- range $idx, $msg := .Messages -}}
{{- if eq $msg.Role "user" }}{{ $lastUserIdx = $idx }}{{ end -}}
{{- end }}
{{- if or .System .Tools }}<|im_start|>system
{{ if .System }}{{ .System }}

{{ end }}
{{- if .Tools }}# Tools

You may call one or more functions to assist with the user query.

You are provided with function signatures within <tools></tools> XML tags:
<tools>
{{- range .Tools }}
{"type": "function", "function": {{ .Function }}}
{{- end }}
</tools>

For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
<tool_call>
{"name": <function-name>, "arguments": <args-json-object>}
</tool_call>
{{- end -}}
<|im_end|>
{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 -}}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{ else if eq .Role "assistant" }}<|im_start|>assistant
{{ if (and $.IsThinkSet (and .Thinking (or $last (gt $i $lastUserIdx)))) -}}
<think>{{ .Thinking }}</think>
{{ end -}}
{{ if .Content }}{{ .Content }}{{ end }}
{{- if .ToolCalls }}
{{- range .ToolCalls }}
<tool_call>
{"name": "{{ .Function.Name }}", "arguments": {{ .Function.Arguments }}}
</tool_call>
{{- end }}
{{- end }}{{ if not $last }}<|im_end|>
{{ end }}
{{- else if eq .Role "tool" }}<|im_start|>user
<tool_response>
{{ .Content }}
</tool_response><|im_end|>
{{ end }}
{{- if and (ne .Role "assistant") $last }}<|im_start|>assistant
<think>
{{ end }}
{{- end }}"""

SYSTEM """You are a helpful AI assistant."""

⚡ 성능 최적화 (60GB VRAM 활용)

핵심 최적화 설정

60GB VRAM이 충분히 남아있을 때, 다음 설정으로 성능을 극대화할 수 있습니다:

1. 동시 처리량 증가 (`OLLAMA_NUM_PARALLEL`)

가장 중요: RAG 시스템은 보통 [검색 → 요약 → 답변] 과정을 거치며 여러 번 모델을 호출합니다. 기본값(1)이라면 요청이 2개만 동시에 들어와도 한 명은 줄 서서 기다려야 합니다.

export OLLAMA_NUM_PARALLEL=8  # 60GB면 대략 8~10명 동시 처리 가능

효과: 질문 4개가 동시에 들어와도 4개 다 즉시 답변 시작 (체감 속도 4배 향상)

2. Context Window 확장 (`OLLAMA_NUM_CTX`)

기본값(4096 토큰)은 A4용지 5~6장 분량입니다. RAG 문서를 많이 넣으면 잘립니다.

export OLLAMA_NUM_CTX=32768  # 32K 토큰 (기본값의 8배)

효과: PDF 매뉴얼 수십 페이지를 한 번에 입력(Prompt)으로 넣어도 OOM 없이 한 방에 답변 (나눠서 여러 번 물어볼 필요 없음 → 전체 시간 단축)

3. KV Cache 양자화 (선택사항)

60GB나 남기 때문에 굳이 안 해도 되지만, 만약 num_ctx를 128k(책 한 권)까지 늘리고 싶다면:

export OLLAMA_KV_CACHE_TYPE=q8_0  # KV Cache 양자화

전체 최적화 스크립트

#!/bin/bash
# Ollama 성능 최적화 환경변수 설정
# 60GB VRAM을 활용한 동시 처리량 및 문맥 크기 최적화

export OLLAMA_NUM_PARALLEL=8  # 동시 처리 요청 수 (60GB VRAM 기준 8~10명 가능)
export OLLAMA_MAX_LOADED_MODELS=1
export OLLAMA_FLASH_ATTENTION=1
export OLLAMA_NUM_CTX=32768  # Context Window 확장 (기본 4096 → 32768)
export OLLAMA_KV_CACHE_TYPE=q8_0  # KV Cache 양자화 (선택사항, 128k까지 확장 시 유용)

Ollama 서버 시작 (최적화 설정 적용)

# 최적화 환경변수 로드
source setup_ollama_optimization.sh

# Ollama 서버 시작
nohup env OLLAMA_NUM_PARALLEL=8 \
         OLLAMA_NUM_CTX=32768 \
         OLLAMA_KV_CACHE_TYPE=q8_0 \
         ollama serve > /tmp/ollama_server.log 2>&1 &

📊 성능 비교

최적화 전 vs 후

항목	최적화 전	최적화 후	개선율
동시 처리	1개	8개	8배
Context Window	4,096 토큰	32,768 토큰	8배
긴 문서 처리	여러 번 분할 필요	한 번에 처리	시간 단축
동시 요청 대기	큐잉 발생	즉시 처리	체감 속도 향상

🐛 문제 해결

1. 빈 응답 문제

증상: 모델이 로딩되지만 응답이 비어있음

해결책: Modelfile의 TEMPLATE 섹션을 Qwen3 표준 형식으로 수정 (위의 Modelfile 예시 참조)

2. OOM (Out of Memory) 오류

증상: 모델 로딩 시 메모리 부족

해결책:

OLLAMA_NUM_PARALLEL 값을 줄이기 (8 → 4)
OLLAMA_NUM_CTX 값을 줄이기 (32768 → 16384)
다른 프로세스의 메모리 사용량 확인

3. API 연결 실패

증상: curl: connection refused 또는 타임아웃

해결책:

# Ollama 프로세스 확인
ps aux | grep "ollama serve"

# 포트 확인
netstat -tlnp | grep 11434

# Ollama 재시작
pkill -f "ollama serve"
ollama serve

📝 API 사용 예시

Python

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3-next-80b-q5km",
    "messages": [
        {"role": "user", "content": "안녕하세요!"}
    ],
    "options": {
        "num_ctx": 32768,  # Context Window 확장
        "num_predict": 512,
        "temperature": 0.7,
        "top_p": 0.9
    }
}

response = requests.post(url, json=payload)
print(response.json())

cURL

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-next-80b-q5km",
    "messages": [
      {"role": "user", "content": "안녕하세요!"}
    ],
    "options": {
      "num_ctx": 32768,
      "num_predict": 512
    }
  }'

🔗 관련 리소스

🙏 감사의 말

이 가이드는 GB10 GPU에서 Qwen3-Next-80B를 실행하기 위해 수많은 시행착오를 거쳐 완성되었습니다. vLLM의 호환성 문제를 Ollama로 우회하고, 60GB VRAM을 최대한 활용하는 최적화 방법을 찾아냈습니다.

다른 사람들이 같은 고생을 하지 않기를 바라며 이 문서를 공유합니다.

📄 라이선스

이 문서는 MIT 라이선스 하에 배포됩니다. 자유롭게 사용, 수정, 배포하실 수 있습니다.

작성자: NIKA 개발팀
최종 업데이트: 2025-12-20

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support