Essential-Web v1.0: 24조 토큰 규모의 고품질 웹 데이터셋 - EAI 분류 체계와 품질 평가 시스템

개요

Essential-Web v1.0은 Essential AI에서 제공하는 24조 토큰 규모의 대규모 웹 데이터셋입니다. 이 데이터셋은 체계적인 품질 평가 시스템과 EAI 분류학(EAI Taxonomy)을 통해 분류된 고품질 웹 콘텐츠를 제공하며, ODC-By 라이센스로 상업적 활용이 가능합니다.

웹 아카이브 데이터를 기반으로 하여 WARC(Web ARChive) 메타데이터를 포함하고 있으며, Red Pajama v2 품질 지표와 FastText 분류 스코어를 통해 데이터 품질을 다각도로 평가합니다. 대규모 언어모델 사전학습과 고품질 웹 데이터 연구에 최적화된 데이터셋입니다.

데이터셋 핵심 특징

규모 및 구성

항목	규모	설명
총 토큰 수	24조 토큰	대규모 언어모델 사전학습 최적화
데이터 크기	10B-100B	효율적인 분산 처리 지원
품질 지표	다중 평가 시스템	EAI Taxonomy + Red Pajama v2 + FastText
메타데이터	WARC 표준	웹 아카이브 호환 메타데이터
라이센스	ODC-By	상업적 활용 허용

데이터 구조 요약

# 데이터셋 기본 구조
{
    "id": int64,                    # 고유 식별자
    "text": string,                 # 웹 페이지 텍스트 콘텐츠
    "metadata": dict,               # WARC 메타데이터 (URL, 도메인, 타임스탬프 등)
    "line_start_n_end_idx": dict,   # 텍스트 라인 위치 정보
    "quality_signals": dict,        # 품질 평가 지표 (Red Pajama v2 + FastText)
    "eai_taxonomy": dict,           # EAI 분류학 (도메인, 기술 정확성, 교육 수준)
    "pid": string                   # 프로세스 식별자
}

EAI 분류학 (EAI Taxonomy) 시스템

Essential-Web v1.0의 핵심 혁신 중 하나는 EAI Taxonomy라는 체계적인 분류 시스템입니다.

도메인 분류 (Domain Classification)

웹 콘텐츠를 주제별로 체계적으로 분류합니다:

# 도메인 분류 구조
eai_taxonomy.domain.primary.code     # 주요 도메인 코드
eai_taxonomy.domain.primary.label    # 주요 도메인 레이블
eai_taxonomy.domain.secondary.code   # 보조 도메인 코드  
eai_taxonomy.domain.secondary.label  # 보조 도메인 레이블

코드	레이블	설명
-1	Abstain	도메인 판별 불가
1	Arts & Humanities	예술, 인문학, 문화
2	Business & Economics	비즈니스, 경제, 금융
3	Computers & Internet	IT, 기술, 인터넷
4	Games & Recreation	게임, 오락, 취미
5	Health & Medicine	건강, 의학, 헬스케어
6	News & Politics	뉴스, 정치, 시사
7	Reference & Education	교육, 참고자료, 학술
8	Science & Technology	과학, 기술, 연구
9	Society & Culture	사회, 문화, 생활
10	Sports	스포츠, 운동

기술 정확성 평가 (Technical Correctness)

콘텐츠의 기술적 정확성을 6단계로 평가합니다:

# 기술 정확성 평가 구조
eai_taxonomy.technical_correctness.primary.code     # 주요 정확성 코드
eai_taxonomy.technical_correctness.primary.label    # 주요 정확성 레이블
eai_taxonomy.technical_correctness.secondary.code   # 보조 정확성 코드
eai_taxonomy.technical_correctness.secondary.label  # 보조 정확성 레이블

코드	레이블	설명
-1	Abstain	판별 불가
1	Technically Flawed	심각한 오류로 인한 내용 신뢰성 저하
2	Partially Correct	일부 정확하지만 결함, 누락, 오류 포함
3	Mostly Correct	기술적으로 정확하나 약간의 결함 또는 불완전한 설명
4	Highly Correct	높은 기술적 정확성과 명확한 설명
5	Exceptionally Correct	뛰어난 기술적 정확성과 완벽한 내용
6	Not Applicable	기술적 내용 없음 또는 문맥 부족

교육 수준 평가 (Education Level)

콘텐츠 이해에 필요한 교육 배경을 평가합니다:

# 교육 수준 평가 구조
eai_taxonomy.education_level.primary.code     # 주요 교육 수준 코드
eai_taxonomy.education_level.primary.label    # 주요 교육 수준 레이블
eai_taxonomy.education_level.secondary.code   # 보조 교육 수준 코드
eai_taxonomy.education_level.secondary.label  # 보조 교육 수준 레이블

코드	레이블	설명
-1	Abstain	판별 불가
1	General Audience	기본 문해력으로 접근 가능, 쉬운 용어
2	High School Level	고등학교 교육 필요, 전문 용어 설명 포함
3	Undergraduate Level	대학 교육 필요, 전문 용어와 배경지식 가정
4	Graduate/Expert Level	대학원 또는 전문가 수준, 깊은 배경지식 필요
5	Indeterminate	교육 수준 판별을 위한 콘텐츠 부족

품질 평가 시스템

Red Pajama v2 품질 지표

웹 텍스트의 종합적인 품질을 평가하는 지표들입니다:

콘텐츠 구조 지표

# 기본 구조 분석
quality_signals.red_pajama_v2.ccnet_original_length      # 원본 문서 길이
quality_signals.red_pajama_v2.ccnet_original_nlines      # 원본 문서 라인 수
quality_signals.red_pajama_v2.rps_doc_num_sentences      # 총 문장 수
quality_signals.red_pajama_v2.rps_doc_word_count         # 총 단어 수
quality_signals.red_pajama_v2.rps_doc_mean_word_length   # 평균 단어 길이

언어 품질 지표

# 언어 품질 분석
quality_signals.red_pajama_v2.rps_doc_stop_word_fraction    # 불용어 비율
quality_signals.red_pajama_v2.rps_doc_frac_unique_words     # 고유 단어 비율
quality_signals.red_pajama_v2.rps_doc_frac_all_caps_words   # 대문자 단어 비율
quality_signals.red_pajama_v2.rps_doc_frac_no_alph_words    # 비알파벳 단어 비율
quality_signals.red_pajama_v2.rps_doc_unigram_entropy       # 유니그램 엔트로피

중복 탐지 지표

# N-gram 중복 분석 (5-gram부터 10-gram까지)
quality_signals.red_pajama_v2.rps_doc_frac_chars_dupe_5grams   # 5-gram 중복률
quality_signals.red_pajama_v2.rps_doc_frac_chars_dupe_6grams   # 6-gram 중복률
quality_signals.red_pajama_v2.rps_doc_frac_chars_dupe_7grams   # 7-gram 중복률
quality_signals.red_pajama_v2.rps_doc_frac_chars_dupe_8grams   # 8-gram 중복률
quality_signals.red_pajama_v2.rps_doc_frac_chars_dupe_9grams   # 9-gram 중복률
quality_signals.red_pajama_v2.rps_doc_frac_chars_dupe_10grams  # 10-gram 중복률

# 상위 N-gram 커버리지
quality_signals.red_pajama_v2.rps_doc_frac_chars_top_2gram     # 상위 2-gram 커버리지
quality_signals.red_pajama_v2.rps_doc_frac_chars_top_3gram     # 상위 3-gram 커버리지
quality_signals.red_pajama_v2.rps_doc_frac_chars_top_4gram     # 상위 4-gram 커버리지

도메인 중요도 점수

# 고품질 데이터셋 유사도 점수
quality_signals.red_pajama_v2.rps_doc_books_importance                           # 도서 콘텐츠 유사도
quality_signals.red_pajama_v2.rps_doc_books_importance_length_correction         # 길이 보정 도서 유사도
quality_signals.red_pajama_v2.rps_doc_openwebtext_importance                     # OpenWebText 유사도
quality_signals.red_pajama_v2.rps_doc_openwebtext_importance_length_correction   # 길이 보정 OpenWebText 유사도
quality_signals.red_pajama_v2.rps_doc_wikipedia_importance                       # Wikipedia 유사도
quality_signals.red_pajama_v2.rps_doc_wikipedia_importance_length_correction     # 길이 보정 Wikipedia 유사도

FastText 분류 스코어

콘텐츠 유형별 분류 확률을 제공합니다:

# FastText 분류 스코어
quality_signals.fasttext.dclm                  # DataComp-LM 분류기 점수
quality_signals.fasttext.english               # 영어 신뢰도
quality_signals.fasttext.fineweb_edu_approx    # 교육 콘텐츠 근사값
quality_signals.fasttext.eai_general_math      # 일반 수학 콘텐츠
quality_signals.fasttext.eai_open_web_math     # 웹 수학 콘텐츠
quality_signals.fasttext.eai_web_code          # 코드 콘텐츠 탐지

메타데이터 구조

WARC 메타데이터

웹 아카이브 표준을 따르는 상세한 메타데이터를 제공합니다:

# URL 정보
metadata.url                      # 원본 URL
metadata.source_domain           # 소스 도메인
metadata.snapshot_id             # 웹 아카이브 스냅샷 ID

# WARC 표준 메타데이터
metadata.warc_metadata.Content-Length                    # 콘텐츠 크기
metadata.warc_metadata.Content-Type                      # MIME 타입
metadata.warc_metadata.WARC-Block-Digest                 # 블록 체크섬
metadata.warc_metadata.WARC-Date                         # 크롤링 타임스탬프
metadata.warc_metadata.WARC-IP-Address                   # 서버 IP 주소
metadata.warc_metadata.WARC-Identified-Payload-Type      # 식별된 콘텐츠 타입
metadata.warc_metadata.WARC-Payload-Digest               # 페이로드 체크섬
metadata.warc_metadata.WARC-Record-ID                    # 고유 WARC 레코드 ID
metadata.warc_metadata.WARC-Target-URI                   # 대상 URL
metadata.warc_metadata.WARC-Type                         # WARC 레코드 타입

데이터셋 활용 방법

기본 로드 및 탐색

Hugging Face Datasets 사용

from datasets import load_dataset

# 전체 데이터셋 로드
dataset = load_dataset("EssentialAI/essential-web-v1.0")

# 데이터셋 구조 확인
print(f"데이터셋 크기: {len(dataset['train'])}")
print(f"컬럼: {dataset['train'].column_names}")

# 샘플 데이터 확인
sample = dataset['train'][0]
print("샘플 구조:")
for key in sample.keys():
    print(f"- {key}: {type(sample[key])}")

스트리밍 모드 사용

# 대용량 데이터셋을 위한 스트리밍 로드
dataset_stream = load_dataset("EssentialAI/essential-web-v1.0", streaming=True)
data_iter = dataset_stream["train"]

# 첫 5개 샘플 확인
for i, example in enumerate(data_iter):
    if i >= 5:
        break
    print(f"ID: {example['id']}")
    print(f"Text length: {len(example['text'])}")
    print(f"Domain: {example['eai_taxonomy']['domain']['primary']['label']}")
    print("---")

품질 기반 필터링

EAI Taxonomy 기반 필터링

def filter_by_quality(dataset, min_correctness=3, target_domains=None):
    """
    EAI Taxonomy 기반 고품질 데이터 필터링
    
    Args:
        dataset: 입력 데이터셋
        min_correctness: 최소 기술 정확성 점수 (1-5)
        target_domains: 대상 도메인 리스트
    """
    filtered_data = []
    
    for sample in dataset:
        # 기술 정확성 필터링
        correctness = sample['eai_taxonomy']['technical_correctness']['primary']['code']
        if correctness < min_correctness:
            continue
            
        # 도메인 필터링
        if target_domains:
            domain_label = sample['eai_taxonomy']['domain']['primary']['label']
            if domain_label not in target_domains:
                continue
                
        filtered_data.append(sample)
    
    return filtered_data

# 고품질 기술/과학 콘텐츠 필터링
high_quality_tech = filter_by_quality(
    dataset['train'],
    min_correctness=4,
    target_domains=['Science & Technology', 'Computers & Internet']
)

print(f"필터링된 샘플 수: {len(high_quality_tech)}")

Red Pajama v2 지표 기반 필터링

def filter_by_redpajama_metrics(dataset, 
                               min_word_count=100,
                               max_duplicate_ratio=0.1,
                               min_stop_word_fraction=0.05):
    """
    Red Pajama v2 품질 지표 기반 필터링
    
    Args:
        dataset: 입력 데이터셋
        min_word_count: 최소 단어 수
        max_duplicate_ratio: 최대 중복 비율
        min_stop_word_fraction: 최소 불용어 비율
    """
    filtered_data = []
    
    for sample in dataset:
        quality = sample['quality_signals']['red_pajama_v2']
        
        # 단어 수 필터
        if quality['rps_doc_word_count'] < min_word_count:
            continue
            
        # 중복 비율 필터 (5-gram 기준)
        if quality['rps_doc_frac_chars_dupe_5grams'] > max_duplicate_ratio:
            continue
            
        # 불용어 비율 필터
        if quality['rps_doc_stop_word_fraction'] < min_stop_word_fraction:
            continue
            
        filtered_data.append(sample)
    
    return filtered_data

# 고품질 텍스트 필터링
high_quality_text = filter_by_redpajama_metrics(dataset['train'])
print(f"Red Pajama 필터링 후 샘플 수: {len(high_quality_text)}")

도메인별 분석 및 활용

import matplotlib.pyplot as plt
from collections import Counter

def analyze_domain_distribution(dataset):
    """도메인별 분포 분석"""
    domains = []
    correctness_scores = []
    
    for sample in dataset:
        domain = sample['eai_taxonomy']['domain']['primary']['label']
        correctness = sample['eai_taxonomy']['technical_correctness']['primary']['code']
        
        domains.append(domain)
        correctness_scores.append(correctness)
    
    # 도메인별 분포
    domain_counts = Counter(domains)
    
    # 도메인별 평균 기술 정확성
    domain_correctness = {}
    for domain, correctness in zip(domains, correctness_scores):
        if domain not in domain_correctness:
            domain_correctness[domain] = []
        if correctness != -1:  # Abstain 제외
            domain_correctness[domain].append(correctness)
    
    domain_avg_correctness = {
        domain: sum(scores) / len(scores) 
        for domain, scores in domain_correctness.items() 
        if scores
    }
    
    return domain_counts, domain_avg_correctness

# 분석 실행
domain_dist, domain_quality = analyze_domain_distribution(dataset['train'])

print("도메인별 분포:")
for domain, count in domain_dist.most_common():
    avg_quality = domain_quality.get(domain, 0)
    print(f"{domain}: {count:,}개 (평균 기술정확성: {avg_quality:.2f})")

PySpark 활용 (대규모 처리)

# PySpark로 대규모 데이터 처리
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when, avg

# Spark 세션 초기화
spark = SparkSession.builder.appName("EssentialWeb-Analysis").getOrCreate()

# 데이터셋 로드
df = spark.read.format("huggingface").load("EssentialAI/essential-web-v1.0")

# 도메인별 통계 분석
domain_stats = df.groupBy("eai_taxonomy.domain.primary.label") \
                .agg(
                    avg("quality_signals.red_pajama_v2.rps_doc_word_count").alias("avg_word_count"),
                    avg("eai_taxonomy.technical_correctness.primary.code").alias("avg_correctness")
                ) \
                .orderBy(col("avg_correctness").desc())

domain_stats.show()

# 고품질 데이터 필터링 및 저장
high_quality_df = df.filter(
    (col("eai_taxonomy.technical_correctness.primary.code") >= 4) &
    (col("quality_signals.red_pajama_v2.rps_doc_word_count") >= 200)
)

high_quality_df.write.mode("overwrite").parquet("essential_web_high_quality.parquet")

라이센스 및 활용 가이드

ODC-By 라이센스 상세

Open Data Commons Attribution License (ODC-By)는 Essential-Web v1.0에 적용되는 라이센스입니다.

허용 사항

✅ 상업적 활용 허용: 비즈니스 목적으로 자유롭게 사용 가능
✅ 수정 및 재배포: 데이터 변경, 가공, 재배포 가능
✅ 파생 작품 생성: 데이터 기반 새로운 콘텐츠 제작 가능
✅ AI 모델 학습: 대규모 언어모델 사전학습 및 파인튜닝 활용

의무 사항

📋 출처 표시 필수: 데이터 사용 시 Essential AI 크레딧 명시
📋 라이센스 고지: ODC-By 라이센스임을 명시
📋 변경사항 기록: 데이터 수정 시 변경 내역 문서화

올바른 인용 방법

@misc{ai2025essentialwebv1024ttokens,
      title={Essential-Web v1.0: 24T tokens of organized web data}, 
      author={Essential AI and Andrew Hojel and Michael Pust and Tim Romanski and Yash Vanjani and Ritvik Kapila and Mohit Parmar and Adarsh Chaluvaraju and Alok Tripathy and Anil Thomas and Ashish Tanwer and Darsh J Shah and Ishaan Shah and Karl Stratos and Khoi Nguyen and Kurt Smith and Michael Callahan and Peter Rushton and Philip Monk and Platon Mazarakis and Saad Jamal and Saurabh Srivastava and Somanshu Singla and Ashish Vaswani},
      year={2025},
      eprint={2506.14111},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2506.14111}, 
}

상업적 활용 시나리오

AI 모델 개발 회사

# 상업적 LLM 사전학습 예제
from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import load_dataset

# Essential-Web 데이터 로드
dataset = load_dataset("EssentialAI/essential-web-v1.0", streaming=True)

# 고품질 데이터만 필터링
filtered_stream = dataset['train'].filter(
    lambda x: x['eai_taxonomy']['technical_correctness']['primary']['code'] >= 4
)

# 상업적 모델 사전학습
tokenizer = AutoTokenizer.from_pretrained("your-base-model")
model = AutoModelForCausalLM.from_pretrained("your-base-model")

# 학습 코드...
# 결과 모델을 상업적으로 배포 가능

데이터 애널리틱스 서비스

# 웹 콘텐츠 품질 분석 서비스 개발
class WebContentQualityAnalyzer:
    def __init__(self):
        self.dataset = load_dataset("EssentialAI/essential-web-v1.0")
        
    def analyze_domain_quality(self, domain):
        """특정 도메인의 콘텐츠 품질 분석"""
        domain_data = self.dataset['train'].filter(
            lambda x: x['eai_taxonomy']['domain']['primary']['label'] == domain
        )
        
        # 품질 지표 계산
        quality_metrics = self.calculate_quality_metrics(domain_data)
        
        # 상업적 리포트 생성
        return self.generate_commercial_report(quality_metrics)
    
    # 이 서비스를 유료로 제공 가능

주의사항 및 제한사항

데이터셋	규모	라이센스	품질 지표	활용 분야
Essential-Web v1.0	24T 토큰	ODC-By	EAI Taxonomy + Red Pajama v2	상업적 LLM 개발
Common Crawl	수백TB	제한적	기본적	연구용
C4	750GB	Apache 2.0	기본적	학술 연구
RefinedWeb	600B 토큰	ODC-By	고급	LLM 사전학습

특히 EAI Taxonomy의 도메인 분류, 기술 정확성 평가, 교육 수준 분석 기능은 용도별 맞춤형 데이터 선별을 가능하게 하며, Red Pajama v2 품질 지표와 FastText 분류 스코어는 데이터 품질을 다각도로 검증할 수 있게 합니다.

대규모 언어모델 사전학습, 도메인 특화 AI 개발, 웹 콘텐츠 품질 연구 등 다양한 분야에서 활용할 수 있는 차세대 웹 데이터셋입니다.

개요