⏱️ 예상 읽기 시간: 8분

서론

음성 AI 기술이 급속도로 발전하면서, 다양한 언어를 지원하는 고품질 음성 데이터셋의 중요성이 더욱 커지고 있습니다. 특히 글로벌 서비스를 위해서는 단일 언어가 아닌 다언어 음성 처리 능력이 필수적입니다. 이런 상황에서 NVIDIA가 공개한 Granary 데이터셋은 음성 AI 분야에 새로운 이정표를 제시합니다.

Granary는 25개 유럽 언어에 걸쳐 총 64만 시간에 달하는 방대한 음성 데이터를 제공하는 대규모 다언어 데이터셋입니다. 단순히 음성 인식(ASR)뿐만 아니라 음성 번역(AST) 작업까지 지원하여, 연구자와 개발자들이 차세대 다언어 음성 AI 모델을 구축할 수 있는 풍부한 토대를 마련했습니다.

NVIDIA Granary 데이터셋 개요

압도적인 규모와 범위

Granary 데이터셋의 가장 인상적인 특징은 그 규모입니다. 총 64만 시간의 음성 데이터는 기존 공개 데이터셋과 비교했을 때 압도적인 수준입니다. 이는 약 73년에 해당하는 연속 재생 시간으로, 하나의 언어당 평균 2만 5천 시간 이상의 데이터를 제공합니다.

데이터셋은 25개 유럽 언어를 지원하며, 여기에는 독일어, 영어, 프랑스어, 스페인어, 이탈리아어와 같은 주요 언어부터 불가리아어, 라트비아어, 슬로베니아어와 같은 상대적으로 자원이 부족한 언어까지 포함됩니다. 이러한 광범위한 언어 지원은 유럽 전역에서 활용할 수 있는 음성 AI 시스템 개발을 가능하게 합니다.

두 가지 핵심 작업 지원

Granary는 현대 음성 AI의 두 가지 핵심 작업을 모두 지원합니다:

음성 인식(ASR, Automatic Speech Recognition) 각 언어의 음성을 해당 언어의 텍스트로 변환하는 작업입니다. 예를 들어 독일어 음성을 독일어 텍스트로 변환하는 것입니다. Granary는 25개 언어 모두에 대해 ASR 데이터를 제공하며, 총 64만 3천 시간의 ASR 데이터를 포함합니다.

음성 번역(AST, Automatic Speech Translation) 소스 언어의 음성을 다른 언어의 텍스트로 직접 번역하는 작업입니다. Granary에서는 24개 비영어권 언어의 음성을 영어 텍스트로 번역하는 AST 데이터를 제공하며, 총 35만 1천 시간의 AST 데이터를 포함합니다.

데이터 구성과 출처

4개 주요 코퍼스의 통합

Granary의 강력함은 서로 다른 특성을 가진 4개의 주요 음성 코퍼스를 체계적으로 통합했다는 점에서 나옵니다:

YODAS (YouTube-Over-Dataset Audio Segmentation) 카네기 멜론 대학교(CMU)에서 개발한 데이터셋으로, 23개 언어에 걸쳐 19만 2천 시간의 데이터를 제공합니다. YODAS의 특징은 실제 YouTube 콘텐츠에서 추출된 자연스러운 음성 데이터라는 점입니다. 이는 다양한 억양, 말하기 스타일, 배경 소음 등을 포함하여 실제 환경에서 발생할 수 있는 다양한 음성 조건을 반영합니다.

VoxPopuli 유럽 의회 회의록을 기반으로 한 데이터셋으로, 24개 언어에 걸쳐 20만 6천 시간의 고품질 정치 담론 데이터를 제공합니다. 공식적이고 명확한 발화가 특징이며, 다양한 유럽 언어의 표준적인 발음과 문법을 학습하는 데 매우 유용합니다.

YouTube-Commons 다양한 YouTube 콘텐츠에서 수집된 24개 언어의 12만 2천 시간 데이터입니다. 교육, 엔터테인먼트, 뉴스 등 다양한 장르의 콘텐츠를 포함하여 실제 사용되는 언어의 다양성을 잘 반영합니다.

LibriLight 영어 전용 데이터셋으로 2만 3천 시간의 영어 음성 데이터를 제공합니다. 도서 낭독을 기반으로 하여 명확하고 표준적인 영어 발음을 제공하며, 영어 ASR 모델의 기준점 역할을 합니다.

데이터 품질 관리

각 코퍼스마다 엄격한 품질 관리 과정을 거쳤습니다. 음성 인식의 경우, 두 단계의 Whisper 모델을 사용한 추론 과정과 언어 식별 검증을 통해 정확성을 보장했습니다. 또한 음성 분할, 잡음 제거, 메타데이터 일관성 검사 등 다양한 전처리 과정을 통해 최고 품질의 데이터만을 선별했습니다.

음성 번역 데이터의 경우, EuroLLM-9B 모델을 사용한 고품질 번역과 교차 언어 검증을 통해 번역 품질을 보장했습니다. 환각(hallucination) 탐지와 문자율 필터링 등의 추가적인 품질 관리 과정도 적용되었습니다.

데이터 구조와 접근 방법

유연한 데이터 구성

Granary 데이터셋은 사용자의 다양한 요구사항을 충족하기 위해 매우 유연한 구조로 설계되었습니다. 총 76가지 설정을 통해 데이터에 접근할 수 있으며, 이는 크게 두 가지 방식으로 구분됩니다:

언어별 접근 특정 언어의 모든 코퍼스 데이터를 한번에 가져올 수 있습니다. 예를 들어 독일어 데이터가 필요한 경우, 모든 독일어 관련 데이터(YODAS, VoxPopuli, YouTube-Commons 등)를 통합해서 제공받을 수 있습니다.

코퍼스별 접근 특정 코퍼스의 특정 언어 데이터만 선별적으로 사용할 수 있습니다. 예를 들어 공식적인 언어 스타일만 필요한 경우 VoxPopuli 데이터만 선택하거나, 자연스러운 일상 대화가 필요한 경우 YouTube 기반 데이터만 선택할 수 있습니다.

실용적인 데이터 형식

각 데이터 샘플은 실제 음성 AI 개발에 필요한 모든 메타데이터를 포함합니다:

  • 음성 파일 경로: 실제 오디오 파일의 위치 정보
  • 전사 텍스트: 소스 언어의 정확한 텍스트 전사
  • 지속 시간: 음성 길이 정보로 배치 처리 최적화에 활용
  • 언어 정보: 소스와 타겟 언어 코드
  • 작업 유형: ASR 또는 AST 구분
  • 고유 식별자: 데이터 추적과 재현성을 위한 ID
  • 정답 텍스트: ASR의 경우 전사문, AST의 경우 영어 번역문

이러한 상세한 메타데이터는 연구자들이 특정 조건의 데이터만 필터링해서 사용하거나, 실험 결과를 정확히 재현할 수 있도록 도와줍니다.

NeMo 툴킷과의 완벽한 통합

즉시 사용 가능한 매니페스트 파일

Granary의 가장 실용적인 특징 중 하나는 NVIDIA NeMo 툴킷과의 완벽한 통합입니다. 별도의 복잡한 변환 과정 없이, 다운로드 받은 데이터를 즉시 NeMo 환경에서 사용할 수 있도록 매니페스트 파일이 준비되어 있습니다.

각 언어와 코퍼스 조합에 대해 별도의 매니페스트 파일이 제공되므로, 연구자들은 자신의 연구 목적에 맞는 정확한 데이터셋을 선택해서 즉시 모델 훈련을 시작할 수 있습니다. 예를 들어 독일어 음성 인식 모델을 개발하고 싶다면, 독일어 ASR 매니페스트 파일을 사용해서 바로 훈련을 시작할 수 있습니다.

대규모 훈련을 위한 최적화

실제 산업 환경에서 사용하기 위한 고성능 모델을 훈련할 때는 일반적으로 WebDataset 형태의 최적화된 데이터 포맷이 필요합니다. Granary는 이러한 요구사항을 미리 고려하여, NeMo에서 제공하는 변환 도구를 통해 쉽게 WebDataset 형태로 변환할 수 있도록 설계되었습니다.

이를 통해 수백 개의 GPU를 사용하는 대규모 분산 훈련에서도 효율적인 데이터 로딩이 가능하며, 메모리 사용량과 I/O 성능을 최적화할 수 있습니다.

새로운 언어 확장 가능성

더 나아가, Granary는 단순히 완성된 데이터셋을 제공하는 것을 넘어서서, 동일한 파이프라인을 사용해 새로운 언어의 데이터셋을 생성할 수 있는 도구까지 제공합니다. NeMo-speech-data-processor를 통해 연구자들은 자신만의 언어나 도메인에 특화된 음성 데이터셋을 Granary와 동일한 품질 수준으로 생성할 수 있습니다.

활용 분야와 응용 가능성

다언어 음성 인식 시스템

Granary의 가장 직접적인 활용 분야는 다언어 음성 인식 시스템 개발입니다. 기존에는 언어별로 개별적인 모델을 개발해야 했지만, Granary의 통합된 데이터 구조를 활용하면 여러 언어를 동시에 지원하는 통합 모델을 개발할 수 있습니다.

특히 유럽 지역에서 서비스를 제공하는 기업들에게는 매우 유용한 자원입니다. 하나의 모델로 25개 언어를 모두 지원할 수 있다면, 개발 비용과 유지보수 비용을 크게 절감할 수 있을 뿐만 아니라, 언어 간 전이 학습 효과를 통해 개별 언어의 성능도 향상시킬 수 있습니다.

실시간 음성 번역 서비스

음성 번역(AST) 데이터를 활용하면 실시간 음성 번역 서비스를 개발할 수 있습니다. 이는 국제 회의, 관광, 교육 등 다양한 분야에서 활용 가능한 실용적인 기술입니다.

특히 Granary에서 제공하는 24개 언어에서 영어로의 번역 데이터는 영어가 국제 공용어 역할을 하는 현실을 고려할 때 매우 실용적입니다. 유럽의 다양한 언어를 구사하는 사람들이 영어권 사람들과 실시간으로 소통할 수 있는 도구를 개발할 수 있습니다.

저자원 언어 연구

Granary에는 불가리아어, 라트비아어, 슬로베니아어 등 상대적으로 데이터가 부족한 언어들도 포함되어 있습니다. 이러한 언어들에 대한 대규모 음성 데이터는 저자원 언어 처리 연구에 중요한 기여를 할 수 있습니다.

연구자들은 고자원 언어(독일어, 프랑스어 등)에서 저자원 언어로의 전이 학습 기법을 연구하거나, 다언어 모델이 언어 간 공통점과 차이점을 어떻게 학습하는지 분석할 수 있습니다.

도메인 적응 연구

Granary의 4개 코퍼스는 각각 다른 특성을 가지고 있습니다. VoxPopuli는 공식적인 정치 담론, YouTube 데이터는 일상적인 대화, LibriLight는 표준적인 낭독 음성을 포함합니다. 이러한 다양성은 도메인 적응 연구에 매우 유용합니다.

연구자들은 특정 도메인에서 훈련된 모델이 다른 도메인에서 어떻게 작동하는지 분석하거나, 여러 도메인을 혼합해서 더 강건한 모델을 개발하는 연구를 수행할 수 있습니다.

라이선스와 접근성

개방적인 라이선스 정책

Granary 데이터셋은 CC-BY-3.0 라이선스 하에 제공됩니다. 이는 매우 개방적인 라이선스로, 상업적 이용을 포함한 거의 모든 용도로 사용할 수 있습니다. 유일한 요구사항은 적절한 출처 표시뿐입니다.

이러한 개방적인 라이선스 정책은 학술 연구뿐만 아니라 산업계에서의 활용도 장려합니다. 스타트업부터 대기업까지, 누구나 이 데이터셋을 활용해서 혁신적인 음성 AI 제품을 개발할 수 있습니다.

허깅페이스를 통한 쉬운 접근

데이터셋은 허깅페이스(Hugging Face) 플랫폼을 통해 제공되므로, 전 세계 어디서나 쉽게 접근할 수 있습니다. 복잡한 신청 절차나 승인 과정 없이, 몇 줄의 코드만으로 필요한 데이터를 다운로드할 수 있습니다.

특히 스트리밍 기능을 지원하므로, 전체 데이터셋을 다운로드하지 않고도 필요한 부분만 실시간으로 사용할 수 있습니다. 이는 제한된 저장 공간을 가진 연구 환경에서 매우 유용합니다.

기술적 혁신과 품질 보장

최신 AI 기술의 집약체

Granary 데이터셋의 생성 과정에는 최신 AI 기술들이 총동원되었습니다. 음성 인식에는 Whisper 모델의 두 단계 추론 과정이 사용되었고, 번역에는 EuroLLM-9B 모델이 활용되었습니다.

이러한 최신 기술의 활용은 단순히 데이터 양만 늘린 것이 아니라, 품질 면에서도 기존 데이터셋을 크게 앞서는 결과를 만들어냈습니다. 특히 환각 탐지, 품질 추정 필터링, 교차 언어 검증 등의 고급 기법들이 적용되어 매우 높은 신뢰성을 보장합니다.

다단계 품질 관리 시스템

데이터 품질 관리는 여러 단계에 걸쳐 체계적으로 이루어집니다. 음성 분할의 정확성, 전사의 정확성, 번역의 품질, 메타데이터의 일관성 등 모든 측면에서 엄격한 검증 과정을 거칩니다.

이러한 다단계 품질 관리 시스템 덕분에, 연구자들은 데이터 전처리에 시간을 소모하지 않고 바로 모델 개발에 집중할 수 있습니다. 또한 일관된 품질 기준으로 처리된 데이터를 사용함으로써, 실험 결과의 재현성과 비교 가능성도 크게 향상됩니다.

연구 협력과 공동체 기여

산학연 협력의 모범 사례

Granary 프로젝트는 NVIDIA, 카네기 멜론 대학교(CMU), 그리고 이탈리아의 Fondazione Bruno Kessler(FBK) 간의 협력으로 탄생했습니다. 이는 산업계의 기술력과 학계의 연구 역량, 그리고 국제적인 협력이 결합된 모범적인 사례입니다.

각 기관이 자신의 강점 분야에서 기여함으로써 어느 한 기관이 단독으로는 달성하기 어려운 규모와 품질의 데이터셋을 만들어낼 수 있었습니다. 이러한 협력 모델은 앞으로 다른 대규모 AI 프로젝트들에도 좋은 참고가 될 것입니다.

오픈 사이언스 정신의 구현

Granary의 공개는 오픈 사이언스 정신의 훌륭한 구현 사례입니다. 엄청난 비용과 노력이 투입된 고품질 데이터셋을 개방적인 라이선스 하에 공개함으로써, 전 세계 연구 공동체의 발전에 기여하고 있습니다.

이러한 개방성은 다시 연구 공동체로부터의 피드백과 기여를 유도하여, 데이터셋의 지속적인 개선과 새로운 활용 방안의 발견으로 이어질 것입니다.

미래 전망과 발전 방향

언어 확장 가능성

현재 Granary는 25개 유럽 언어를 지원하지만, 동일한 파이프라인을 사용해서 다른 언어 계열로 확장할 수 있는 가능성을 보여줍니다. 아시아 언어, 아프리카 언어, 아메리카 원주민 언어 등으로 확장된다면, 진정한 글로벌 다언어 음성 AI의 기반이 될 수 있습니다.

특히 한국어, 일본어, 중국어 등 동아시아 언어들에 대한 동일한 수준의 데이터셋이 구축된다면, 아시아 지역에서의 음성 AI 발전에 큰 기여를 할 수 있을 것입니다.

새로운 작업 유형의 추가

현재는 ASR과 AST에 집중하고 있지만, 음성 감정 인식, 화자 식별, 음성 합성을 위한 데이터 등 다양한 음성 관련 작업으로 확장될 가능성이 있습니다. 이미 구축된 고품질 음성 데이터에 추가적인 라벨링을 통해 새로운 작업을 지원할 수 있습니다.

실시간 처리 최적화

현재의 대용량 데이터셋은 주로 오프라인 훈련을 위한 것이지만, 앞으로는 실시간 음성 처리를 위한 최적화된 서브셋이나 경량화된 버전들도 제공될 수 있을 것입니다. 이를 통해 모바일 기기나 엣지 컴퓨팅 환경에서도 고품질 다언어 음성 인식이 가능해질 수 있습니다.

결론

NVIDIA Granary 데이터셋은 단순히 큰 규모의 데이터셋을 넘어서서, 다언어 음성 AI의 새로운 가능성을 제시하는 혁신적인 자원입니다. 25개 언어에 걸친 64만 시간의 고품질 음성 데이터는 연구자와 개발자들에게 이전에는 불가능했던 규모의 실험과 개발을 가능하게 합니다.

특히 체계적인 품질 관리, NeMo 툴킷과의 완벽한 통합, 개방적인 라이선스 정책 등은 이 데이터셋을 실제로 활용 가능한 실용적인 자원으로 만들어줍니다. 산학연 협력을 통한 개발 과정과 오픈 사이언스 정신의 구현은 앞으로의 AI 연구 발전 방향에 대한 좋은 지침을 제공합니다.

앞으로 Granary를 활용한 다양한 연구 성과들이 나타날 것이며, 이는 다시 더 발전된 다언어 음성 AI 기술로 이어질 것입니다. 언어의 장벽을 넘나드는 진정한 글로벌 커뮤니케이션 시대의 기술적 기반이 바로 여기서 시작되고 있습니다.