noScribe: Whisper와 화자 인식을 활용한 AI 오디오 전사 완벽 가이드
⏱️ 예상 읽기 시간: 12분
소개
오디오 전사는 연구자, 기자, 콘텐츠 제작자, 그리고 녹음된 인터뷰나 회의를 다루는 전문가들에게 필수적인 작업이 되었습니다. 수동 전사는 시간이 많이 걸리고 비용이 많이 드는 반면, noScribe는 OpenAI의 Whisper AI와 고급 화자 식별 기능을 결합한 최첨단 솔루션을 제공합니다.
noScribe는 자동 오디오 전사를 위한 사용자 친화적인 인터페이스를 제공하는 오픈소스 데스크톱 애플리케이션으로, 화자 감지, 타임스탬프 삽입, 그리고 결과를 정제하기 위한 내장 편집기를 특징으로 합니다. GitHub에서 1.3k개 이상의 스타를 받으며 질적 연구 커뮤니티에서 신뢰받는 도구가 되었습니다.
noScribe란 무엇인가?
noScribe는 다음을 활용하는 포괄적인 오디오 전사 솔루션입니다:
- OpenAI의 Whisper: 60개 이상의 언어를 지원하는 최첨단 음성 인식 AI
- pyannote: 서로 다른 화자를 식별하는 고급 화자 분할 기술
- 내장 편집기: 전사본을 검토하고 수정하기 위한 통합 도구
- 다양한 출력 형식: 연구 도구와 호환되는 HTML, 텍스트 및 기타 형식
주요 기능
- 높은 정확도: 여러 품질 설정으로 정밀한 전사
- 화자 감지: 서로 다른 화자의 자동 식별
- 침묵 표시: 무음 구간의 감지 및 표기
- 겹치는 발화: 동시 발화 감지를 위한 실험적 기능
- 비유창성: 간투사와 불완전한 문장을 포함하는 옵션
- 타임스탬프: 구성 가능한 타임스탬프 삽입
- 다국어 지원: 주요 언어에 대한 우수한 지원
- 연구 통합: MAXQDA, ATLAS.ti, QualCoder와 호환
시스템 요구사항 및 설치
전제 조건
noScribe를 설치하기 전에 시스템이 다음 요구사항을 충족하는지 확인하세요:
- 운영 체제: Windows 10+, macOS 10.14+, 또는 Linux
- RAM: 최소 8GB (긴 오디오 파일의 경우 16GB 권장)
- 저장 공간: 모델과 임시 파일을 위한 최소 5GB 여유 공간
- 오디오 형식: 대부분의 일반적인 형식 지원 (MP3, WAV, M4A 등)
설치 방법
방법 1: 사전 빌드된 실행 파일 (권장)
- noScribe GitHub 릴리스 페이지를 방문하세요
- 운영 체제에 맞는 최신 버전을 다운로드하세요
- 압축을 해제하고 실행 파일을 실행하세요
- 애플리케이션이 첫 실행 시 필요한 AI 모델을 다운로드합니다
방법 2: Python 설치
# 저장소 복제
git clone https://github.com/kaixxx/noScribe.git
cd noScribe
# 가상 환경 생성
python -m venv noscribe-env
source noscribe-env/bin/activate # Windows의 경우: noscribe-env\Scripts\activate
# 의존성 설치
pip install -r requirements.txt
# 애플리케이션 실행
python noScribe.py
초기 설정
첫 실행 시 noScribe는 다음을 수행합니다:
- AI 모델 다운로드: Whisper 모델(수 GB)이 자동으로 다운로드됩니다
- 구성 생성: 사용자 디렉토리에
config.yml
파일이 생성됩니다 - 로깅 설정: 문제 해결을 위한 로그 파일이 저장됩니다
중요: 초기 모델 다운로드는 안정적인 인터넷 연결이 필요하며 연결 속도에 따라 30-60분이 소요될 수 있습니다.
단계별 전사 가이드
1단계: 오디오 파일 선택
- noScribe를 실행하고 “찾아보기” 버튼을 클릭하세요
- 오디오 파일을 선택하세요 - 지원되는 형식:
- MP3, WAV, M4A, FLAC
- 비디오 파일 (MP4, AVI) - 오디오가 추출됩니다
- 파일 경로가 입력 필드에 올바르게 표시되는지 확인하세요
2단계: 출력 구성
- 출력 필드 옆의 “찾아보기”를 클릭하여 출력 위치를 선택하세요
- 파일 형식을 선택하세요:
- HTML (권장): 워드 프로세서 및 QDA 소프트웨어와 호환
- 텍스트: 일반 텍스트 형식
- SRT: 타임스탬프가 포함된 자막 형식
3단계: 전사 설정
오디오 처리 옵션
시작/종료 시간:
- 전체 파일을 전사하려면 비워두세요
- 긴 녹음의 경우 특정 시간 범위를 설정하세요
- 형식: HH:MM:SS (예: 5분 30초의 경우 00:05:30)
품질 설정:
- 정밀 (권장): 최고 정확도, 느린 처리
- 빠름: 빠른 결과, 더 많은 수동 편집이 필요할 수 있음
- 사용자 정의 모델: 고급 사용자는 전문 모델을 설치할 수 있음
고급 기능
침묵 표시:
- 1초+: 1초 이상의 침묵을 표시
- 2초+: 2초 이상의 침묵을 표시
- 3초+: 긴 침묵만 표시
- 없음: 침묵 감지 비활성화
침묵은 다음과 같이 표시됩니다:
- 짧은 침묵:
(..)
(점은 초를 나타냄) - 긴 침묵:
(XX초 침묵)
또는(XX분 침묵)
화자 감지:
- 자동: 화자 수를 자동으로 감지
- 특정 수: 정확한 화자 수를 알고 있는 경우 설정
- 없음: 화자 식별 비활성화 (빠른 처리)
추가 옵션:
- 겹치는 발화: 동시 발화를
//이중 슬래시//
로 표시 - 비유창성: “음”, “어” 및 불완전한 단어 포함
- 타임스탬프: 화자 변경 시 또는 간격으로
[hh:mm:ss]
마커 추가
4단계: 처리
- 시작하기 전에 모든 설정을 검토하세요
- “시작”을 클릭하여 전사를 시작하세요
- 진행률 표시줄과 로그 메시지를 통해 진행 상황을 모니터링하세요
- 처리 시간: 오디오 길이의 2-3배 예상 (1시간 오디오 = 2-3시간 처리)
성능 팁:
- 불필요한 애플리케이션 종료
- AC 전원 사용 (배터리 아님)
- 처리 중 시스템 사용량 최소화
- 긴 파일의 경우 밤새 처리 고려
noScribe 편집기 사용하기
통합 편집기는 전사가 완료되면 자동으로 열리며, 전사본 정제를 위한 강력한 기능을 제공합니다:
오디오 동기화
- 오디오 재생:
Ctrl + 스페이스바
(Mac:⌘ + Space
) 또는 주황색 재생 버튼 클릭 - 텍스트 따라가기: 선택이 오디오 재생을 자동으로 따라감
- 탐색: 텍스트의 아무 곳이나 클릭하여 해당 오디오 위치로 이동
- 속도 제어: 재생 속도를 50%에서 200%까지 조정
편집 기능
기본 편집:
- 표준 텍스트 편집 (잘라내기, 복사, 붙여넣기, 실행 취소, 다시 실행)
- 찾기 및 바꾸기 기능 (
Ctrl + F
) - 가독성을 위한 확대/축소
- 몇 초마다 자동 저장
화자 관리:
- 찾기 및 바꾸기를 사용하여 화자를 일관되게 이름 변경
- 형식: “화자 1”을 “김철수”로 바꾸기
- 전체 전사본에서 일괄 변경
품질 관리:
- 읽으면서 들어서 오류 식별
- 일반적인 문제: 고유명사, 전문 용어, 불분명한 발화
- 나중에 검토할 불확실한 섹션 표시
키보드 단축키
기능 | Windows/Linux | Mac |
---|---|---|
오디오 재생/일시정지 | Ctrl + Space |
⌘ + Space |
저장 | Ctrl + S |
⌘ + S |
찾기/바꾸기 | Ctrl + F |
⌘ + F |
실행 취소 | Ctrl + Z |
⌘ + Z |
다시 실행 | Ctrl + Y |
⌘ + Shift + Z |
전사 품질 최적화
오디오 녹음 모범 사례
녹음 전:
- 품질 좋은 마이크 사용 (내장보다 외장 선호)
- 에코가 최소인 조용한 환경 선택
- 중요한 녹음 전 오디오 레벨 테스트
- 여러 화자의 경우 라펠 마이크 고려
녹음 설정:
- 샘플링 레이트: 44.1 kHz 이상
- 비트 깊이: 최소 16비트, 24비트 선호
- 형식: 무압축 (WAV) 또는 고품질 압축 (320kbps MP3)
언어 고려사항
최고 지원 언어:
- 영어
- 스페인어
- 이탈리아어
- 포르투갈어
- 독일어
방언 처리:
- Whisper는 지역 억양을 합리적으로 잘 처리함
- 스위스 독일어, 영국 영어, 미국 영어 모두 지원
- 덜 일반적인 방언의 경우 더 많은 수동 수정 예상
일반적인 문제 해결
반복적인 텍스트 루프:
- 원인: AI가 구문을 반복하며 멈춤
- 해결책: 더 짧은 세그먼트 처리 (15-30분)
- 예방: 좋은 오디오 품질 보장
화자 분리 불량:
- 원인: 비슷한 목소리 또는 낮은 오디오 품질
- 해결책: 편집기에서 수동 화자 수정
- 대안: 화자 감지 비활성화, 수동 추가
환각:
- 원인: AI가 배경 소음을 음성으로 해석
- 해결책: 전사 전 노이즈 감소 사용
- 식별: 조용한 섹션에서 무의미한 텍스트 찾기
고급 구성
사용자 정의 설정
사용자 디렉토리의 config.yml
을 통해 고급 옵션에 액세스:
Windows: C:\Users\<사용자명>\AppData\Local\noScribe\noScribe\config.yml
Mac: ~/Library/Application Support/noscribe/config.yml
Linux: ~/.config/noscribe/config.yml
# 예제 구성
locale: ko # 인터페이스 언어
whisper_model: medium # 모델 크기
output_format: html
enable_logging: true
max_segment_length: 30 # 초
사용자 정의 Whisper 모델
특수한 사용 사례의 경우 사용자 정의 모델을 설치할 수 있습니다:
- 사용자 정의 모델 다운로드 (예: 의학 용어에 특화된 모델)
- noScribe 설치 내 모델 디렉토리에 배치
- 사용자 정의 모델을 참조하도록 구성 업데이트
- 새 모델을 로드하기 위해 애플리케이션 재시작
배치 처리
여러 파일의 경우 스크립트 생성 고려:
#!/bin/bash
# 배치 전사 스크립트
for file in *.mp3; do
python noScribe.py --input "$file" --output "${file%.mp3}.html" --auto
done
연구 도구와의 통합
MAXQDA 통합
- noScribe에서 HTML로 내보내기
- MAXQDA에서 가져오기: 문서 시스템 → 가져오기 → 텍스트 문서
- 코딩: 전사된 텍스트에서 MAXQDA의 코딩 기능 사용
- 오디오 연결: 검증을 위해 원본 오디오로 다시 연결
ATLAS.ti 워크플로우
- noScribe 편집기에서 전사본 준비
- 더 나은 형식 보존을 위해 RTF로 내보내기
- ATLAS.ti에서 가져오기: 문서 → 문서 가져오기
- ATLAS.ti의 질적 분석 도구를 사용하여 코딩 및 분석
QualCoder 통합
- noScribe에서 일반 텍스트로 내보내기
- QualCoder에서 가져오기: 파일 → 가져오기 → 텍스트 파일
- QualCoder의 오픈소스 분석 기능 활용
성능 최적화
하드웨어 권장사항
CPU: 멀티코어 프로세서 (Intel i5/AMD Ryzen 5 최소) RAM: 긴 오디오 파일의 최적 성능을 위해 16GB 저장소: 빠른 모델 로딩을 위해 SSD 권장 GPU: CUDA 호환 GPU로 처리 가속화 가능 (고급 설정)
처리 전략
긴 녹음의 경우 (2시간 이상):
- 세그먼트로 분할: 30-60분 청크
- 밤새 처리: 시스템 중단 방지
- 온도 모니터링: 적절한 냉각 보장
- 배치 처리: 여러 짧은 파일을 대기열에 추가
여러 파일의 경우:
- 중요도별 우선순위: 중요한 파일을 먼저 처리
- 일관된 설정 사용: 품질 표준 유지
- 출력 정리: 프로젝트용 폴더 구조 생성
문제 해결 가이드
일반적인 오류 메시지
“모델을 찾을 수 없음”:
- 해결책: 모델을 다시 다운로드하거나 인터넷 연결 확인
- 위치: 애플리케이션 디렉토리에 저장된 모델
“메모리 부족”:
- 해결책: 다른 애플리케이션 종료, 더 짧은 세그먼트 처리
- 대안: “빠름” 품질 설정 사용
“지원되지 않는 오디오 형식”:
- 해결책: 오디오 변환 도구를 사용하여 MP3 또는 WAV로 변환
- 도구: FFmpeg, Audacity, 또는 온라인 변환기
성능 문제
느린 처리:
- CPU 사용량 확인 및 불필요한 프로그램 종료
- 충분한 여유 디스크 공간 확보 (10GB+)
- 초기 초안의 경우 “빠름” 품질 설정 고려
애플리케이션 충돌:
- 사용자 디렉토리의 로그 파일 확인
- 시스템이 최소 요구사항을 충족하는지 확인
- 더 짧은 오디오 세그먼트 처리 시도
모범 사례 요약
전처리 체크리스트
- 오디오 품질: 배경 소음이 최소인 명확한 녹음
- 파일 형식: 지원되는 형식 (MP3, WAV 권장)
- 시스템 리소스: 충분한 RAM과 저장 공간 사용 가능
- 설정 검토: 적절한 품질 및 기능 설정
- 출력 위치: 결과를 위한 충분한 디스크 공간
처리 중
- 진행 상황 모니터링: 오류 메시지 확인
- 시스템 성능: 처리 중 무거운 작업 피하기
- 전원 관리: 긴 세션의 경우 AC 전원 사용
- 백업: 원본 오디오 파일이 백업되었는지 확인
후처리
- 품질 검토: 전사본을 읽으면서 듣기
- 화자 확인: 필요한 경우 화자 레이블 수정
- 오류 수정: 명백한 전사 오류 수정
- 형식 내보내기: 워크플로우에 필요한 형식으로 저장
- 보관: 원본 오디오와 최종 전사본 모두 저장
결론
noScribe는 자동 오디오 전사 분야에서 상당한 발전을 나타내며, 최소한의 수동 개입으로 전문적인 품질의 결과를 제공합니다. OpenAI의 Whisper와 지능적인 화자 감지 및 강력한 편집 인터페이스를 결합하여 연구자, 기자, 콘텐츠 제작자를 위한 종단간 솔루션을 제공합니다.
noScribe의 성공 열쇠는 다음에 있습니다:
- 품질 입력: 명확하고 잘 녹음된 오디오로 시작
- 적절한 설정: 속도와 정확도의 올바른 균형 선택
- 철저한 검토: 품질 관리를 위한 통합 편집기 사용
- 워크플로우 통합: 연구 또는 콘텐츠 제작 프로세스에 결과 통합
적절한 설정과 기능에 대한 이해를 통해 noScribe는 전문적인 작업에 필요한 정확도를 유지하면서 오디오 전사와 관련된 시간과 비용을 극적으로 줄일 수 있습니다.
질적 연구 인터뷰를 진행하든, 팟캐스트 에피소드를 전사하든, 회의 녹음을 처리하든, noScribe는 오디오를 실행 가능한 텍스트로 효율적이고 정확하게 변환하는 데 필요한 도구를 제공합니다.
참고 자료: