DeepSeek-R1-0528-Qwen3-8B: 오픈소스 LLM의 새로운 지평
DeepSeek가 최근 출시한 DeepSeek-R1-0528-Qwen3-8B는 오픈소스 대규모 언어 모델(LLM)의 새로운 이정표를 세웠습니다. 이 모델은 단일 GPU에서도 실행 가능하면서도 뛰어난 성능을 보여주는 혁신적인 모델입니다.
주요 특징
1. 효율적인 리소스 활용
- 단일 GPU에서 실행 가능 (최소 40GB VRAM 필요)
- 8B 파라미터 규모로 경량화된 버전
- MIT 라이선스로 상업적/비상업적 사용 모두 가능
2. 뛰어난 성능
- AIME 2025 테스트에서 76.3% 정확도 달성
- Qwen3-32B(72.9%)보다 우수한 성능
- o3-mini medium effort(76.7%)에 근접하는 성능
3. 기술적 특징
- 최대 64,000 토큰의 입력/출력 처리 가능
- JSON 출력 지원
- 도구 사용 기능 내장
- 추론 시 토큰 소비량 최적화
가격 정책
- Hugging Face를 통한 무료 사용 가능
- DeepSeek API 사용 시:
- 일반 시간대: 입력/출력 각각 $0.14/$2.19 per 1M 토큰
- 특별 시간대(태평양 시간 4:30 PM - 12:30 AM): 입력/출력 각각 $0.035/$0.55 per 1M 토큰
사용 방법
1. 로컬 실행
# vLLM을 사용한 서버 실행
python3 -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--enforce-eager
# SGLang을 사용한 서버 실행
python3 -m sglang.launch_server \
--model deepseek-ai/DeepSeek-R1-0528-Qwen3-8B \
--trust-remote-code \
--tp 1
2. 사용 권장사항
- Temperature는 0.5-0.7 사이로 설정 (권장값: 0.6)
- 시스템 프롬프트는 사용하지 않음 (모든 지시사항은 사용자 프롬프트에 포함)
- 수학 문제의 경우 “Please reason step by step, and put your final answer within \boxed{}”와 같은 지시사항 포함
- 성능 평가 시 여러 번 테스트 후 평균값 사용
3. 추론 최적화
- 모델이 충분한 추론을 하도록 하기 위해 출력 시작을 “
\n"로 강제하는 것을 권장 - 긴 응답의 경우 구조화된 형식으로 작성
- 객관적 Q&A의 경우 간단한 답변에 관련 정보 1-2문장 추가
혁신적 접근
DeepSeek-R1-0528-Qwen3-8B는 Qwen3-8B를 기반으로 하며, DeepSeek-R1-0528의 추론 지식을 증류하여 개발되었습니다. 이는 오픈소스 모델들 간의 협력을 통한 혁신적인 접근 방식을 보여줍니다.
결론
DeepSeek-R1-0528-Qwen3-8B는 오픈소스 LLM의 새로운 가능성을 보여주는 중요한 모델입니다. 단일 GPU에서도 실행 가능하면서도 뛰어난 성능을 보여주는 이 모델은, 더 많은 개발자들이 고성능 AI 모델을 활용할 수 있게 해줄 것입니다.