Datasets

ByteDance Dolphin 문서 이미지 파싱: Fox 데이터셋과 벤치마크 완전 분석

2025년 08월 08일

ByteDance에서 공개한 Dolphin 프로젝트의 Fox 데이터셋과 벤치마크를 상세히 분석합니다. ACL 2025에 게재된 최신 문서 이해 기술과 3천만 개 이상의 샘플로 구성된 대규모 데이터셋을 알아보세요.

dots.ocr: 1.7B 파라미터로 달성한 SOTA 다국어 문서 파싱 - 완전 분석

2025년 08월 06일

RedNote가 공개한 dots.ocr로 다국어 문서 레이아웃 분석과 OCR을 단일 비전-언어 모델에서 구현하는 방법을 알아봅니다.

Chunkr: RAG/LLM을 위한 지능형 문서 데이터 처리 플랫폼

2025년 08월 05일

복잡한 PDF, PPT, Word 문서를 레이아웃 분석, OCR, 시맨틱 청킹을 통해 RAG 시스템에 최적화된 구조화 데이터로 변환하는 오픈소스 문서 지능형 API 플랫폼

Google LangExtract: LLM 기반 텍스트 정보 추출 완벽 가이드

2025년 08월 04일

Google에서 개발한 LangExtract를 활용하여 비구조화된 텍스트에서 정확한 정보를 추출하고 시각화하는 방법을 실습과 함께 알아봅니다.

NVIDIA Nemotron Post-Training Dataset v1 - LLM 성능 향상을 위한 대규모 합성 데이터셋 완전 분석

2025년 07월 31일

NVIDIA가 공개한 2,560만 개 샘플의 대규모 합성 데이터셋으로, 수학, 코딩, STEM, 추론, 도구 호출 능력 향상을 위한 고품질 훈련 데이터를 제공합니다.

기업용 RAG 시스템을 위한 산업별 공개 데이터셋 완벽 가이드: 은행부터 증권까지

2025년 07월 19일

은행, 보험, 회계, 법률, 의료, 자동차, 증권 분야에서 RAG 기반 LLM 챗봇 구축에 활용 가능한 공개 데이터셋과 실제 구현 방법을 종합 정리

Metabase Dataset Generator: LLM 기반 현실적인 합성 데이터 생성 완벽 가이드

2025년 07월 04일

OpenAI GPT-4o를 활용한 Metabase Dataset Generator로 데모, 학습, 대시보드를 위한 현실적인 합성 데이터셋을 생성하는 방법을 알아보세요.

FineWeb2: 50억 개 문서의 다국어 웹 데이터셋 완벽 가이드

2025년 06월 30일

Hugging Face의 FineWeb2 데이터셋을 활용한 다국어 LLM 학습 가이드. 2000개 언어 지원, 투명한 처리 파이프라인, 실제 활용 사례까지 완벽 분석.

Yandex Yambda: 50억 규모 음악 추천시스템 데이터셋 완전 가이드

June 28, 2025

Yandex가 공개한 대규모 음악 청취 행동 데이터셋으로 추천시스템 연구의 새로운 표준을 제시하는 Yambda 완전 분석

Facebook Seamless Interaction Dataset: 4,000시간 인간 상호작용 멀티모달 데이터셋 완전 가이드

June 28, 2025

AI 연구를 위한 대규모 멀티모달 인간 상호작용 데이터셋 Seamless Interaction의 특징, 구조, 활용법을 상세 분석

OMEGA Explorative: LLM 수학 추론 능력 평가를 위한 혁신적 데이터셋

June 25, 2025

Allen AI의 OMEGA Explorative 데이터셋으로 LLM의 탐색적 일반화 능력을 체계적으로 평가하는 완전 가이드

Essential-Web v1.0: 24조 토큰 규모의 고품질 웹 데이터셋 - EAI 분류 체계와 품질 평가 시스템

June 20, 2025

Essential AI의 24T 토큰 웹 데이터셋 완전 분석 - EAI 분류학, Red Pajama v2 품질 지표, FastText 분류, ODC-By 라이센스 가이드

NVIDIA OpenMathReasoning: AIMO-2 우승 모델의 기반이 된 대규모 수학 추론 데이터셋

June 18, 2025

306K 수학 문제와 568만 솔루션으로 구성된 OpenMathReasoning 데이터셋 완전 분석 - CoT, TIR, GenSelect 방법론과 OpenMath-Nemotron 시리즈 성과

NVIDIA OpenCodeReasoning: 경쟁 프로그래밍을 위한 최대 규모 추론 기반 코딩 데이터셋

June 18, 2025

735K 샘플과 28K 문제로 구성된 OpenCodeReasoning 완전 분석 - R1 모델 기반 합성 데이터, 10개 주요 플랫폼 통합, SFT 최적화

NVIDIA AceReason-1.1-SFT: 수학·코딩 추론 특화 SFT 데이터셋 완전 가이드

June 18, 2025

NVIDIA의 AceReason-1.1-SFT 데이터셋 상세 분석 - CC BY 4.0 라이센스, 400만 샘플, DeepSeek-R1 기반 고품질 수학·코딩 추론 데이터

Nanonets-OCR-s 완벽 사용 가이드: 복합 문서를 구조화된 Markdown으로 변환하기

June 16, 2025

LaTeX 수식·표·서명·워터마크까지 변환하는 Nanonets-OCR-s 모델을 Transformers, vLLM, Docext 환경에서 사용하는 방법과 LLM 파이프라인 통합 전략을 소개합니다.

Debatable Intelligence: LLM 판사 성능 벤치마킹과 실전 활용 가이드

June 12, 2025

들어가며

Synthetic Unanswerable Math (SUM): LLM 신뢰성 향상을 위한 답변 불가능 수학 문제 데이터셋

June 11, 2025

LLM(Large Language Model)의 신뢰성을 높이기 위한 혁신적인 접근법이 등장했습니다. USC의 연구팀이 개발한 Synthetic Unanswerable Math (SUM) 데이터셋은 AI 모델이 “모른다”고 말할 수 있는 능력을 기르는 데 특화된 고품질 수학 문제 ...

Nemotron-Personas: 실제 인구 분포를 반영한 NVIDIA의 합성 페르소나 데이터셋 완전 가이드

June 11, 2025

NVIDIA가 공개한 Nemotron-Personas는 실제 인구 통계학적 분포를 정확히 반영한 혁신적인 합성 페르소나 데이터셋입니다. 100,000개의 다양한 인물 프로필로 구성된 이 데이터셋은 AI 모델의 편향을 줄이고 데이터 다양성을 크게 향상시키는 게임체인저 역할을 하고 있...

한국어 LLM 학습 완전 정복: 18만+ 샘플부터 11.4M 멀티모달까지

May 30, 2025

Hugging Face heegyu 컬렉션부터 AI-Hub 공공데이터까지. 한국어 대화형 AI 구축을 위한 사전학습, SFT, RLHF 전체 파이프라인 데이터셋 가이드