OSS - Thaki Cloud Tech Blog ThakiCloud 타키클라우드 기술 블로그

GLM-4.5V: 오픈소스 시각 추론의 획기적인 발전과 106B MoE 아키텍처 완전 분석

2025년 08월 11일

41개 벤치마크에서 압도적 성능을 보인 GLM-4.5V의 106B 매개변수 MoE 아키텍처와 GLM-4.1V-Thinking 기술 계승을 통한 오픈소스 멀티모달 AI 혁신을 상세히 분석합니다.

KittenTTS: 25MB 미만의 초경량 TTS 모델 - 완전 분석

2025년 08월 06일

단 15M 파라미터로 고품질 음성 합성을 구현한 KittenTTS의 혁신적인 아키텍처와 실제 활용법을 알아봅니다.

Qwen-Image: 텍스트 렌더링 혁신을 이끄는 차세대 확산 모델

2025년 08월 05일

2025년 8월 출시된 Qwen-Image는 복잡한 텍스트 렌더링과 정밀한 이미지 편집으로 AI 이미지 생성의 새로운 패러다임을 제시합니다. 중국어와 영어 텍스트의 완벽한 통합부터 고급 이미지 편집까지 완전 분석.

FastVideo: 50배 가속화된 통합 비디오 생성 프레임워크

2025년 08월 05일

Sparse Distillation과 Video Sparse Attention으로 50배 이상의 디노이징 가속화를 달성한 FastVideo 프레임워크의 혁신적인 기술과 실제 구현 방법을 상세히 분석합니다.

XBai o4: 오픈소스 추론 모델의 새로운 패러다임, Reflective Generative Model

2025년 08월 03일

MetaStone-AI의 XBai o4는 Long-CoT 강화학습과 Process Reward Learning을 통합한 혁신적인 오픈소스 추론 모델로, OpenAI o3-mini를 넘어선 성능을 보여줍니다.

Deep Cogito v2의 자기 개선 AI 혁명 - 추론에서 초지능까지, OWM 워크플로우의 새로운 패러다임

2025년 08월 01일

Deep Cogito가 발표한 Cogito v2 Preview는 Iterated Distillation and Amplification을 통해 자기 개선하는 AI의 새로운 가능성을 제시합니다. 671B MoE 모델의 혁신적 효율성과 오픈소스 초지능 구축 전략을 OWM 관점에서 분석...

중국 AI 모델들이 주도하는 오픈 워크플로우 관리 혁신 - Kimi K2, DeepSeek-R1, Qwen3, GLM-4.5 심층 분석

2025년 08월 01일

Moonshot AI의 Kimi K2부터 Alibaba의 Qwen3까지, 중국발 AI 모델들이 어떻게 Agentic Intelligence를 통해 워크플로우 자동화의 새로운 패러다임을 제시하고 있는지 상세히 분석합니다.

Qwen3-30B-A3B-Instruct-2507: GPT-4o급 성능을 맥북에서 로컬 실행하기

2025년 07월 30일

Qwen이 새롭게 출시한 30B 파라미터 MoE 모델을 LM Studio로 맥북에서 실행하는 완전 가이드. GPT-4o 수준의 성능을 로컬에서 오프라인으로 경험해보세요.

Llama Nemotron Super 49B v1.5: 오픈소스 추론 모델의 새로운 지평을 연 혁신적 AI

2025년 07월 30일

70B 오픈 모델 카테고리에서 1위를 차지한 Llama Nemotron Super 49B v1.5의 기술적 혁신과 오픈 워크플로우 관리에서의 활용 방안을 상세히 분석합니다.

Wan2.2: 세계 최초 오픈소스 MoE 아키텍처 비디오 생성 모델의 혁신

2025년 07월 29일

Wan AI가 공개한 Wan2.2는 세계 최초 오픈소스 MoE(Mixture-of-Experts) 아키텍처를 적용한 비디오 생성 모델로, 시네마틱 컨트롤과 복잡한 모션 생성 능력을 제공하는 차세대 AI 영상 제작 플랫폼입니다.

OmniSVG: 벡터 그래픽의 새로운 혁명, AI가 만드는 무한 확장 가능한 디자인

2025년 07월 29일

복단대학교와 StepFun이 공개한 OmniSVG는 세계 최초 멀티모달 SVG 생성 모델로, 간단한 아이콘부터 복잡한 애니메 캐릭터까지 벡터 그래픽의 모든 영역을 AI로 자동화하여 디자인 워크플로우를 혁신적으로 변화시키고 있습니다.

GLM-4.5: 오픈소스 AI 에이전트의 새로운 강자, Zai의 차세대 모델

2025년 07월 29일

중국의 Zai 연구소가 공개한 GLM-4.5는 32B 활성 파라미터로 Claude Opus 4 수준의 성능을 달성하며, 코딩과 에이전틱 도구 사용에서 특히 강력한 모습을 보이는 오픈소스 AI 모델입니다.

Qwen3-MT 다국어 번역 모델 - 글로벌 워크플로우 혁신을 위한 완전 가이드

2025년 07월 25일

92개 언어를 지원하는 Qwen3-MT로 글로벌 비즈니스 워크플로우를 혁신하고 언어 장벽을 완전히 극복하는 방법

Higgs Audio V2: 차세대 오픈소스 음성 생성 모델 완벽 가이드

2025년 07월 24일

BosonAI의 Higgs Audio V2는 1천만 시간 데이터로 훈련된 혁신적인 오픈소스 TTS 모델입니다. 표현력 있는 음성 생성과 다국어 지원을 통해 차세대 오디오 AI 워크플로우를 구현하세요.

Qwen3-Coder 480B: 에이전트 코딩 혁명과 워크플로우 자동화의 새로운 지평

2025년 07월 23일

480B 매개변수로 SWE-Bench에서 69.6% 성능을 달성한 Qwen3-Coder와 워크플로우 자동화를 위한 Qwen Code CLI 도구의 실전 활용 가이드

NVIDIA OpenReasoning-Nemotron: 추론과 효율성을 겸비한 하이브리드 AI 모델

2025년 07월 20일

NVIDIA가 공개한 Nemotron-H 추론 모델 패밀리의 혁신적인 아키텍처와 성능을 분석하고, 기업 AI 워크플로우 최적화 방안을 탐구합니다.

EXAONE 4.0-32B: 차세대 오픈 워크플로우 관리를 위한 LG AI 혁신 모델

2025년 07월 15일

LG AI Research의 최신 EXAONE 4.0-32B 모델로 워크플로우 자동화와 지능형 프로세스 관리의 새로운 패러다임을 탐구해보세요.

MoonshotAI Kimi-K2-Instruct: 1조 파라미터 에이전틱 인텔리전스 완전 가이드

2025년 07월 12일

128k 컨텍스트와 강화학습 기반 o1-level 추론 성능을 갖춘 Kimi-K2-Instruct의 에이전틱 AI 활용법과 실전 배포 가이드

MoonshotAI Kimi-K1.5: 강화학습으로 진화한 차세대 o1급 추론 모델

2025년 07월 12일

MoonshotAI의 Kimi-K1.5가 128k 컨텍스트와 강화학습을 통해 달성한 GPT-4o 대비 +550% 성능 향상의 핵심 기술 완전 분석

Moonshot AI Kimi-Dev-72B: 소프트웨어 이슈 해결 특화 LLM 완전 가이드

2025년 07월 12일

SWE-bench Verified 60.4% 성능을 달성한 Kimi-Dev-72B의 소프트웨어 엔지니어링 활용법과 실전 배포 가이드

Menlo Jan-nano 4B: MCP 통합 특화 연구 모델 완전 가이드

2025년 07월 12일

Model Context Protocol 서버 통합에 최적화된 4B 파라미터 Jan-nano 모델의 연구 활용법과 로컬 배포 가이드

Google MedSigLIP-448: 의료 AI의 새로운 지평을 여는 멀티모달 모델

2025년 07월 12일

Google의 MedSigLIP-448으로 의료 이미지와 텍스트를 통합 처리하는 혁신적인 AI 모델의 핵심 기술과 실전 활용법을 완전 분석

AI-MO Kimina-Prover-72B: 수학 정리 증명 특화 LLM 완전 가이드

2025년 07월 12일

72B 파라미터로 수학 정리 증명에 특화된 Kimina-Prover-72B의 논리적 추론 능력과 수학적 증명 시스템 구축 가이드

Microsoft Phi-4-mini-flash-reasoning: 경량 수학 추론 AI의 혁신적 돌파구

2025년 07월 11일

3.8B 파라미터로 대형 모델 성능에 근접한 Microsoft Phi-4-mini-flash-reasoning의 혁신적 아키텍처와 실용적 활용 방안을 상세히 살펴봅니다.

Google MedGemma-27B-IT: 의료 현장을 위한 차세대 멀티모달 AI 모델 완전 가이드

2025년 07월 11일

Google의 Health AI Developer Foundation이 출시한 MedGemma-27B-IT 모델의 핵심 기능과 의료 현장 적용 방안을 상세히 살펴봅니다.

Skywork-Reward-V2-Qwen3-8B: 차세대 리워드 모델로 보는 AI 정렬의 새로운 기준

2025년 07월 09일

Skywork-Reward-V2-Qwen3-8B는 Human-AI 협력 데이터 큐레이션을 통해 훈련된 8B 파라미터 리워드 모델로, 7개 주요 벤치마크에서 SOTA 성능을 달성했습니다.

NVIDIA AMPLIFY_120M: 효율성을 극대화한 차세대 단백질 언어 모델

2025년 07월 09일

NVIDIA AMPLIFY_120M은 기존 모델 대비 훨씬 적은 비용으로 훈련하고 배포할 수 있으면서도 최고 수준의 성능을 달성한 혁신적인 단백질 언어 모델입니다.

Apple DiffuCoder-7B-cpGRPO: 코드 생성 디퓨전 모델과 MLX-LM 지원 현황

2025년 07월 06일

Apple의 혁신적인 코드 생성 디퓨전 모델 DiffuCoder-7B-cpGRPO의 특징과 MLX-LM 프로젝트 지원 현황을 종합적으로 분석합니다.

Wan2.1 완벽 가이드 - 차세대 오픈소스 비디오 생성 AI로 콘텐츠 혁신하기

2025년 07월 04일

SOTA 성능의 오픈소스 비디오 생성 모델 Wan2.1의 핵심 기술과 창의적 응용 사례를 알아보고, Text-to-Video와 Image-to-Video 기능을 활용한 실무 가이드를 제공합니다.

Polaris 4B: 오픈소스로 Claude-4-Opus 넘어서기 - AI 민주화 혁명

2025년 07월 04일

100% 오픈 데이터와 학술 수준 리소스로 Claude-4-Opus를 능가하는 4B 모델 구현. 강화학습 기반 post-training으로 AIME 성능 65→79점 돌파.

Kyutai TTS 1.6B: 실시간 스트리밍 음성 합성 완벽 가이드

2025년 07월 04일

CC-BY 4.0 라이센스의 오픈소스 Kyutai TTS 모델로 실시간 텍스트-음성 변환 구현하기. 다국어 지원과 음성 조건화 기능까지.

중국 오픈소스 AI 히트맵: 글로벌 AI 생태계 추적 완벽 가이드

2025년 07월 04일

DeepSeek 모멘트 이후 급부상하는 중국 오픈소스 AI 생태계를 실시간으로 추적하는 히트맵 도구. 알리바바부터 스타트업까지 한눈에 보기.

NVIDIA LLaMA NemoRetriever ColEmbed 3B v1 완전 가이드

2025년 07월 02일

시각적 문서 검색 분야 1위를 차지한 NVIDIA의 멀티모달 임베딩 모델 완전 분석 및 활용법

Baidu ERNIE 4.5: 0.3B부터 424B까지 완전 오픈소스 AI 모델 시리즈 완벽 가이드

2025년 06월 30일

Baidu가 2025년 6월 마지막 날 공개한 ERNIE 4.5 모델 시리즈 완벽 분석. MoE 아키텍처, Vision-Language 모델, Apache 2.0 라이선스, 실전 활용까지 총정리.

Hunyuan-A13B-Instruct - 효율적인 MoE 아키텍처로 구현한 차세대 언어모델

June 27, 2025

텐센트의 Hunyuan-A13B-Instruct는 80B 파라미터 중 13B만 활성화하는 혁신적인 MoE 구조로 높은 성능과 효율성을 동시에 제공하는 오픈소스 언어모델입니다.

Gemma 3n 완전 활용 가이드 - 2B/4B 멀티모달 모델 실전 배포까지

June 27, 2025

Google의 Gemma 3n 모델 라인업부터 실전 배포까지, 개발자를 위한 완전 가이드

OmniGen2: 차세대 멀티모달 생성 모델 완전 분석

June 25, 2025

GPT-4o를 넘어서는 오픈소스 통합 멀티모달 모델 OmniGen2의 핵심 기능과 실전 활용 가이드

Skywork-SWE-32B: 가성비 최고의 소프트웨어 엔지니어링 AI 에이전트 완벽 가이드

June 24, 2025

SWE-bench에서 38% 성능을 기록한 Skywork-SWE-32B 모델의 특징, 실용적 활용 방법, 비용 효율적인 배포 전략을 상세히 분석합니다.

Kimi-VL-A3B-Thinking-2506: 효율적인 MoE 비전-언어 모델의 새로운 지평

June 22, 2025

Moonshot AI의 개선된 Vision-Language 모델로 토큰 소비 20% 감소하면서 추론 능력 대폭 향상

Mistral-Small-3.2-24B: 완벽해진 명령 수행과 비전 기능을 갖춘 차세대 멀티모달 모델

June 21, 2025

Mistral AI의 최신 모델 Mistral-Small-3.2-24B-Instruct-2506의 주요 개선사항, 벤치마크 성능, 그리고 실제 활용 방법을 상세히 분석합니다.

NVIDIA AceReason-Nemotron-1.1-7B: SFT+RL 시너지로 진화한 수학·코딩 추론 모델

June 18, 2025

Qwen2.5-Math-7B 기반 NVIDIA의 최신 추론 모델 - SFT와 RL의 완벽한 결합으로 AIME 2024/2025, LiveCodeBench에서 기록적 성능 달성

MiniMax-M1: 세계 최초 오픈 웨이트 하이브리드 어텐션 추론 모델

June 17, 2025

MiniMax-M1의 혁신적인 하이브리드 어텐션 아키텍처와 뛰어난 추론 성능, 실무 배포 가이드

Nanonets-OCR-s 완벽 사용 가이드: 복합 문서를 구조화된 Markdown으로 변환하기

June 16, 2025

LaTeX 수식·표·서명·워터마크까지 변환하는 Nanonets-OCR-s 모델을 Transformers, vLLM, Docext 환경에서 사용하는 방법과 LLM 파이프라인 통합 전략을 소개합니다.

Ming-Lite-Omni: GPT-4o 수준의 멀티모달 AI 모델

June 14, 2025

이미지, 텍스트, 오디오, 비디오를 통합 처리하는 2.8B 파라미터 경량 멀티모달 모델

Qwen3-VL: 차세대 비전-언어 멀티모달 AI 모델 완전 가이드

June 13, 2025

알리바바 클라우드가 개발하는 Qwen3-VL의 주요 기능과 특징, 향상된 이미지·비디오 이해 능력과 다국어 지원에 대해 알아보세요.

DeepSeek-R1-0528-Qwen3-8B: 오픈소스 LLM의 새로운 지평

June 13, 2025

DeepSeek가 최근 출시한 DeepSeek-R1-0528-Qwen3-8B는 오픈소스 대규모 언어 모델(LLM)의 새로운 이정표를 세웠습니다. 이 모델은 단일 GPU에서도 실행 가능하면서도 뛰어난 성능을 보여주는 혁신적인 모델입니다.

Magistral-Small-2506: Mistral AI의 24B 추론 특화 언어 모델 완전 가이드

June 11, 2025

Mistral AI가 새롭게 선보인 Magistral-Small-2506은 기존 Mistral Small 3.1을 기반으로 강화된 추론 능력을 갖춘 혁신적인 24B 파라미터 언어 모델입니다. 단일 RTX 4090이나 32GB MacBook에서도 로컬 배포가 가능한 이 모델은 Apa...

Gemma 3n E2B - 모바일에서 돌아가는 멀티모달 AI 혁신

June 11, 2025

Google DeepMind가 2025년 새해를 맞아 공개한 Gemma 3n E2B는 AI 모델의 새로운 패러다임을 제시합니다. 스마트폰에서도 돌아가는 멀티모달 AI라는 혁신적인 컨셉으로, 텍스트, 이미지, 비디오, 오디오를 모두 처리할 수 있으면서도 극도로 경량화된 모델입니다.

Lingshu: 의료 분야를 위한 통합 멀티모달 파운데이션 모델

June 11, 2025

최근 멀티모달 대규모 언어 모델(MLLM)들이 일반적인 시각적 요소들을 이해하는 데 인상적인 성능을 보여주고 있지만, 의료 분야에서의 활용은 여전히 제한적입니다. 이러한 문제를 해결하기 위해 알리바바 DAMO Academy에서 의료 전문 MLLM인 Lingshu를 개발했습니다.

Qwen2.5-Omni: 알리바바 클라우드의 차세대 멀티모달 AI 모델

June 09, 2025

알리바바 클라우드의 Qwen 팀이 최근 발표한 Qwen2.5-Omni는 텍스트, 오디오, 비전, 비디오를 통합적으로 처리할 수 있는 엔드-투-엔드 멀티모달 AI 모델입니다. 이 모델은 실시간 음성 생성 기능까지 지원하여 더욱 자연스러운 인간-AI 상호작용을 가능하게 합니다.

NVIDIA DeepSeek-R1 FP4 - 차세대 양자화 언어모델 완전 활용 가이드

June 07, 2025

NVIDIA DeepSeek-R1 FP4 모델 소개

dots.llm1 - 오픈소스 MoE 모델의 새로운 지평

June 07, 2025

dots.llm1 소개

Qwen3-Embedding & Reranker 시리즈 완전 가이드

June 06, 2025

Alibaba에서 발표한 Qwen3-Embedding과 Qwen3-Reranker 시리즈가 다국어 텍스트 임베딩과 관련도 랭킹 분야에서 새로운 기준을 제시하고 있습니다. 119개 언어를 지원하며 MMTEB, MTEB, MTEB-Code에서 최고 성능을 달성한 이 모델들을 자세히 살...

OpenThoughts3: 추론 모델의 새로운 SOTA 데이터 레시피

June 06, 2025

수학, 코딩, 과학 분야의 추론 능력에서 새로운 기준을 제시하는 OpenThoughts3이 공개되었습니다. OpenThinker3-7B 모델은 해당 규모에서 SOTA 오픈 데이터 추론 모델로, 강화학습 없이 순수 지도학습만으로 놀라운 성능을 달성했습니다.

MiMo-VL-7B: 소형 고성능 비전-언어 모델의 새로운 기준

May 31, 2025

개요

SmolLM3 기반 오픈 워크플로우 관리 - 온디바이스 에이전틱 시스템 구축 가이드

2025년 01월 27일

Hugging Face SmolLM3 3B 모델을 활용한 효율적인 로컬 AI 워크플로우 관리 시스템 구축 방법과 향후 에이전트 생태계 전략을 살펴봅니다.