소개

inclusionAI에서 개발한 Ming-Lite-Omni는 GPT-4o와 동등한 모달리티 지원을 제공하는 첫 번째 오픈소스 멀티모달 AI 모델입니다. 2.8B 활성화 파라미터를 가진 경량 버전으로, 이미지, 텍스트, 오디오, 비디오를 통합적으로 처리할 수 있습니다.

주요 특징

  • 통합 멀티모달 인식: MoE(Mixture of Experts) 아키텍처인 Ling을 기반으로 구축
  • 인식과 생성의 통합: 멀티모달 이해와 고품질 콘텐츠 생성 동시 지원
  • 혁신적인 생성 기능: 텍스트, 실시간 음성, 생생한 이미지 동시 생성 가능

기술적 특징

아키텍처

Ming-Lite-Omni는 다음과 같은 구조로 설계되었습니다:

  • 전용 인코더: 각 모달리티(이미지, 오디오, 비디오, 텍스트)별 토큰 추출
  • Ling MoE 아키텍처: 모달리티별 라우터를 통한 효율적인 처리
  • 통합 프레임워크: 별도 모델 없이 다양한 태스크 수행

생성 기능

  • 음성 생성: 고급 오디오 디코더를 통한 자연스러운 음성 합성
  • 이미지 생성: Ming-Lite-Uni를 통한 고품질 이미지 생성
  • 이미지 편집: 컨텍스트 인식 이미지 편집 및 스타일 변환

성능 평가

이미지 벤치마크

벤치마크 Ming-Lite-Omni Qwen2.5-VL-7B InternVL2.5-8B
AI2D 83.1 84.4 84.5
HallusionBench 55.0 55.8 51.7
MMBench_TEST_V11 80.8 82.8 82.0
MMMU 56.3 56.6 54.8
OCRBench 88.4 87.8 88.2
MathVista 71.6 68.1 67.9

오디오 성능

Ming-Lite-Omni는 음성 이해 및 지시 수행에서 뛰어난 성능을 보여주며, Qwen2.5-Omni와 Kimi-Audio를 능가합니다.

이미지 생성 성능

  • GenEval 점수: 0.64 (SDXL 등 주요 모델 대비 우수)
  • FID 점수: 4.85 (기존 방법 대비 새로운 SOTA 달성)

사용 예제

기본 멀티모달 대화

# 이미지와 텍스트 처리
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "이 이미지에서 무엇을 볼 수 있나요?"},
            {"type": "image", "image": "path/to/image.jpg"},
        ],
    }
]

# 모델 추론 실행
text = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=[text], images=image_inputs, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)

음성 인식 및 생성

# 음성 인식
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "이 음성을 인식하고 전사해주세요."},
            {"type": "audio", "audio": "path/to/audio.wav"},
        ],
    }
]

# ASR 태스크용 설정
inputs = processor(
    text=[text],
    audios=audio_inputs,
    return_tensors="pt",
    audio_kwargs={'use_whisper_encoder': True}
)

이미지 생성

# 텍스트-이미지 생성
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "짧은 머리의 소녀를 그려주세요."},
        ],
    }
]

image = model.generate(
    **inputs,
    image_gen=True,
    image_gen_cfg=6.0,
    image_gen_steps=20,
    image_gen_width=480,
    image_gen_height=544
)

활용 분야

교육 및 학습

  • 멀티모달 콘텐츠 분석
  • 음성 인식 기반 학습 도구
  • 시각적 질문 응답 시스템

콘텐츠 생성

  • 텍스트-이미지 생성
  • 음성 합성 및 더빙
  • 이미지 편집 및 스타일 변환

접근성 도구

  • 시각 장애인을 위한 이미지 설명
  • 청각 장애인을 위한 음성-텍스트 변환
  • 다국어 음성 번역

기술적 혁신

모달리티별 라우터

  • 각 모달리티에 특화된 처리 경로
  • 태스크 간 충돌 해결
  • 효율적인 토큰 통합

통합 인식-생성 아키텍처

  • 단일 모델로 다양한 모달리티 처리
  • 컨텍스트 인식 생성
  • 태스크별 미세 조정 불필요

오픈소스 기여

Ming-Lite-Omni는 완전한 오픈소스 모델로, 다음을 제공합니다:

  • 전체 모델 가중치: 상업적 이용 가능한 MIT 라이선스
  • 소스 코드: 모든 훈련 및 추론 코드 공개
  • 사용 예제: 다양한 태스크별 구현 예제
  • 기술 문서: 상세한 아키텍처 및 사용법 문서

결론

Ming-Lite-Omni는 멀티모달 AI 분야에서 중요한 이정표를 제시합니다. GPT-4o 수준의 모달리티 지원을 제공하면서도 오픈소스로 공개되어, 연구자와 개발자들이 멀티모달 AI 기술을 더 쉽게 접근하고 활용할 수 있게 합니다.

2.8B 파라미터라는 상대적으로 작은 모델 크기에도 불구하고 뛰어난 성능을 보여주며, 특히 이미지 생성과 음성 처리 분야에서 새로운 SOTA를 달성했습니다. 이는 효율적인 멀티모달 AI 모델 개발의 새로운 방향을 제시합니다.


참고 자료: