NVIDIA FlashInfer로 고성능 LLM 추론 최적화하기
NVIDIA의 FlashInfer 라이브러리를 활용해 LLM 추론 성능을 극대화하는 방법과 실제 구현 가이드
NVIDIA의 FlashInfer 라이브러리를 활용해 LLM 추론 성능을 극대화하는 방법과 실제 구현 가이드
폭넓게 적응(CPT) → 정확히 가르치기(SFT) → 사람 취향 맞추기(DPO)의 3단계 순차 튜닝으로 똑똑하면서도 인간 친화적인 LLM을 만드는 검증된 전략을 알아봅니다.
NVIDIA GB200 NVL72에서 SGLang을 활용한 DeepSeek 671B 모델의 대규모 추론 최적화 및 성능 분석
분산 훈련과 추론을 쉽고 효율적으로 만드는 DeepSpeed 라이브러리의 핵심 기능, ZeRO 최적화, 실무 적용 가이드
다양한 AI 모델의 포스트 트레이닝을 간소화하는 Axolotl 프레임워크의 기능, 설치, 사용법 및 실무 적용 가이드