ThakiCloud์—์„œ์˜ ์„ฑ์žฅ, ๊ทธ๋ฆฌ๊ณ  ๋‹น์‹ ์˜ ์ปค๋ฆฌ์–ด ๐Ÿš€

โ€œVelocity ยท Validation ยท Versioningโ€(Three Vs) โ€” ์ด ์„ธ ๋‹จ์–ด์— ์‹ฌ์žฅ์ด ๋›ด๋‹ค๋ฉด, ThakiCloud๊ฐ€ ๋ฐ”๋กœ ๋‹น์‹ ์˜ ๋ฌด๋Œ€์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” GPU/NPU ์ธํ”„๋ผ๋ถ€ํ„ฐ SaaS๊นŒ์ง€ ์ˆ˜์ง ํ†ตํ•ฉ์„ ์ด๋ฃฌ, ์ง„์งœ ํ’€์Šคํƒ MLOps๋ฅผ ์‹ค์ „ ํŠธ๋ž˜ํ”ฝ๊ณผ ํ•จ๊ป˜ ๊ฒฝํ—˜ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณณ์ž…๋‹ˆ๋‹ค. ๊ธฐ์ˆ ๊ณผ ๋ฌธํ™”, ๊ทธ๋ฆฌ๊ณ  ๋™๋ฃŒ์˜ ํž˜์œผ๋กœ ๋” ๋น ๋ฅด๊ณ , ๋” ์•ˆ์ „ํ•˜๊ฒŒ, ๋” ๋ฉ€๋ฆฌ ๋‚˜์•„๊ฐ€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.


ThakiCloud์˜ MLOps, ์ด๋ ‡๊ฒŒ ๋‹ค๋ฆ…๋‹ˆ๋‹ค

1. Velocity โ€” ์•„์ด๋””์–ด๊ฐ€ ํ”„๋กœ๋•์…˜์ด ๋˜๊ธฐ๊นŒ์ง€, ์ปคํ”ผ๊ฐ€ ์‹๊ธฐ ์ „์—

  • IaaS-PaaS-SaaS ์ˆ˜์ง ํ†ตํ•ฉ: Kubernetes NodePool์— GPUยทNPU๋ฅผ ํ˜ผํ•ฉ ๋ฐฐ์น˜, ์‹คํ—˜์—์„œ ์„œ๋น™ ์ „ํ™˜ ์‹œ ์žฌ์Šค์ผ€์ค„๋ง ๋น„์šฉ์ด 0์ž…๋‹ˆ๋‹ค.
  • JupyterHub ์ด๋ฏธ์ง€ ์ž๋™ ๋นŒ๋“œ: ๋ธŒ๋žœ์น˜๋งŒ ํ‘ธ์‹œํ•˜๋ฉด Helm Chart๊ฐ€ staging ํด๋Ÿฌ์Šคํ„ฐ์— ์ฆ‰์‹œ ๋ฐฐํฌ๋ฉ๋‹ˆ๋‹ค.
  • Feature Store ๊ธฐ๋ฐ˜ ์‹คํ—˜ UI: ๋ฐ์ดํ„ฐยทํ”ผ์ฒ˜ ๋ฒ„์ „์„ ํด๋ฆญ ํ•œ ๋ฒˆ์— ์กฐํ•ฉ, 15๋ถ„ ์•ˆ์— ์ƒˆ ์‹คํ—˜์„ ๋Ÿฐ์นญํ•ฉ๋‹ˆ๋‹ค.

2. Validation โ€” ์‹คํŒจ๋Š” ๋น ๋ฅด๊ฒŒ, ์ง€ํ‘œ๋Š” ์ œํ’ˆ ์–ธ์–ด๋กœ

  • Shadow Traffic ํผ๋„: ์‹ค์‹œ๊ฐ„ ํŠธ๋ž˜ํ”ฝ์˜ 10%๋ฅผ ๋ณต์‚ฌํ•ด ์‚ฌ์šฉ์ž ๋น„๋…ธ์ถœ ์ƒํƒœ์—์„œ ์ƒˆ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ํด๋ฆญ๋ฅ ยทMAU โ†” ML ์ง€ํ‘œ ์ž๋™ ์—ฐ๋™: Prometheus + Grafana ๋Œ€์‹œ๋ณด๋“œ์—์„œ ๋น„์ฆˆ๋‹ˆ์Šค KPI์™€ ML ์ง€ํ‘œ๋ฅผ ํ•จ๊ป˜ ๋ชจ๋‹ˆํ„ฐ๋งํ•ฉ๋‹ˆ๋‹ค.
  • ํœด๋ฆฌ์Šคํ‹ฑ Safety Layer: confidence < ฯ„ ์˜ˆ์ธก์€ ์ž๋™ ํ•„ํ„ฐ๋งํ•ด ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์„ ๋ณดํ˜ธํ•ฉ๋‹ˆ๋‹ค.

3. Versioning โ€” ๋„์ปค ํƒœ๊ทธ ํ•œ ์ค„๋กœ ์‹œ๊ฐ„ ์—ฌํ–‰

  • OCI ๋ชจ๋ธ ๋ ˆ์ง€์ŠคํŠธ๋ฆฌ: ๋ชจ๋ธยทํ”ผ์ฒ˜ยท๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ์ด๋ฏธ์ง€ ํƒœ๊ทธ๋กœ ๊ด€๋ฆฌ, sha๋งŒ ์ง€์ •ํ•˜๋ฉด ์ฆ‰์‹œ ๋กค๋ฐฑ๋ฉ๋‹ˆ๋‹ค.
  • ์ผ์ผ ์ž๋™ ์žฌํ•™์Šต: ๋ฐ์ดํ„ฐ drift ๊ฐ์ง€ ์‹œ Airflow DAG๊ฐ€ ์žฌํ›ˆ๋ จยท๊ฒ€์ฆยทํ”„๋กœ๋ชจ์…˜์„ ์ž๋™ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค.
  • Fallback ๋ชจ๋ธ: SLO ์œ„๋ฐ˜ ์‹œ ๋ผ์ดํŠธ ๋ชจ๋ธ์ด 1์ดˆ ๋‚ด ํˆฌ์ž…๋ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ํ•ด๊ฒฐํ•œ Pain Point & ๋‹ค์Œ ์ฑ•ํ„ฐ

  • Dev โ†” Prod ๋ถˆ์ผ์น˜ โ†’ ๋‹จ์ผ Helm Release๋กœ ํ†ตํ•ฉ.
    ๋‹ค์Œ: ๋ฉ€ํ‹ฐ ๋ฆฌ์ „ ๋ฐฐํฌ ํ‘œ์ค€ํ™”.
  • ์•Œ๋žŒ ํญ์ฃผ โ†’ Alert ํŠœ๋„ˆ๋ด‡์œผ๋กœ ๋…ธ์ด์ฆˆ ๊ฐ์†Œ.
    ๋‹ค์Œ: ๋กœ๊ทธ ๋ ˆ๋ฒจ root-cause๋ฅผ GPT๋กœ ์ž๋™ ๋ถ„์„.
  • Long-tail ๋ฒ„๊ทธ โ†’ Feature Slicing ๋””๋ฒ„๊ฑฐ๋กœ ์žฌํ˜„.
    ๋‹ค์Œ: ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ ๊ธฐ๋ฐ˜ ์™„์ „ ์žฌํ˜„ ์ž๋™ํ™”.
  • ๋А๋ฆฐ ๋ฐฐํฌ โ†’ Canary + Progressive Delivery๋กœ 30 โ†’ 5์ผ.
    ๋‹ค์Œ: ๋ชจ๋ธยท์˜ต์Šคยท๋น„์ฆˆํŒ€ OKR ๋” ์ด˜์ด˜ํžˆ ์—ฐ๋™.

ThakiCloud์—์„œ ์ผํ•œ๋‹ค๋Š” ๊ฒƒ โ€” ์‹ค์ œ ์ด์•ผ๊ธฐ

โ€œ์ƒˆ๋ฒฝ 3์‹œ, ์‹คํ—˜ ๋ชจ๋ธ์ด ํ„ฐ์กŒ๋Š”๋ฐ 5๋ถ„ ๋งŒ์— ๋กค๋ฐฑ!โ€

MLOps Platform ํŒ€์˜ B๋‹˜์€ ์ด๋ ‡๊ฒŒ ๋งํ•ฉ๋‹ˆ๋‹ค. โ€œ์‹คํŒจ๋„ ์ž์‚ฐ์ด ๋˜๋Š” ๋ฌธํ™” ๋•๋ถ„์—, ์‹คํ—˜์ด ๋‘๋ ต์ง€ ์•Š์•„์š”. ํ๊ธฐ ๋กœ๊ทธ๋„ ํŒ€ ์ง€์‹์œผ๋กœ ๋‚จ๊ธฐ๊ณ , ์˜คํ”ˆ์†Œ์Šค PR์ด ๋ฐ”๋กœ ์‹ค์ „ ํŠธ๋ž˜ํ”ฝ์„ ๋งŒ๋‚˜๋Š” ๊ฒฝํ—˜์€ ThakiCloud๋งŒ์˜ ๋งค๋ ฅ์ž…๋‹ˆ๋‹ค.โ€

Cloud Infra ํŒ€์˜ C๋‹˜์€ ์‚ฌ์šฐ๋”” ์‚ฌ๋ง‰์—์„œ GPU๊ฐ€ ๋Œ์•„๊ฐ€๋Š” ์žฅ๋ฉด์„ ๋– ์˜ฌ๋ฆฝ๋‹ˆ๋‹ค. โ€œ๊ธ€๋กœ๋ฒŒ ์Šค์ผ€์ผ์˜ ์ธํ”„๋ผ๋ฅผ ์ง์ ‘ ์„ค๊ณ„ํ•˜๊ณ  ์šด์˜ํ•˜๋Š” ๊ฒฝํ—˜, ๊ทธ๋ฆฌ๊ณ  ๋™๋ฃŒ๋“ค๊ณผ์˜ ํ˜‘์—…์ด ๋งค์ผ ์„ฑ์žฅ์˜ ์›๋™๋ ฅ์ด ๋ฉ๋‹ˆ๋‹ค.โ€


๋ชจ์ง‘ ํฌ์ง€์…˜

Team ๋ฏธ์…˜ ํ•œ๋ˆˆ์—
MLOps Platform Feature Store ์žฌ์„ค๊ณ„, Pydantic ์Šคํ‚ค๋งˆ ๊ฒ€์ฆ ์ž๋™ํ™”
LLMOps R&D GPT ๊ธฐ๋ฐ˜ ๋กœ๊ทธ ๋ถ„์„, Self-Healing ์„œ๋น™
Cloud Infra GPU/NPU ํ˜ผํ•ฉ ์Šค์ผ€์ค„๋ง, ๋ฉ€ํ‹ฐ ๋ฆฌ์ „ HA
Data Engineering ์‹ค์‹œ๊ฐ„ CDC + Iceberg Lakehouse ๊ตฌ์ถ•

์ง€์› ๋ฐฉ๋ฒ•

  1. GitHub / ๊ธฐ์ˆ  ๋ธ”๋กœ๊ทธ ๋งํฌ โ€” ์ปค๋ฐ‹์ด ๊ณง ์ž๊ธฐ์†Œ๊ฐœ์„œ์ž…๋‹ˆ๋‹ค.
  2. Any-format ํ”„๋กœ์ ํŠธ โ€” Jupyter, Dockerfile, Helm ์ฐจํŠธ ๋ชจ๋‘ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค.
  3. Three Vs ๊ฒฝํ—˜ ํ•œ ์ค„ โ€” ์˜ˆ: โ€œ์ƒˆ๋ฒฝ 3์‹œ ๋ชจ๋ธ ํ„ฐ์กŒ๋Š”๋ฐ 5๋ถ„ ๋งŒ์— ๋กค๋ฐฑ๐Ÿƒโ€โ™‚๏ธโ€.

ํ•จ๊ป˜ ์„ฑ์žฅํ•  ๋‹น์‹ ์„ ๊ธฐ๋‹ค๋ฆฝ๋‹ˆ๋‹ค

Velocity ยท Validation ยท Versioning, ์ด ์„ธ ๋‹จ์–ด์— ์‹ฌ๋ฐ•์ˆ˜๊ฐ€ ์˜ฌ๋ผ๊ฐ„๋‹ค๋ฉด git push origin thakicloud์—์„œ ๋งŒ๋‚ฉ์‹œ๋‹ค.
ThakiCloud์™€ ํ•จ๊ป˜, ๋‹น์‹ ์˜ ์ปค๋ฆฌ์–ด์— ์ƒˆ๋กœ์šด ์ฑ•ํ„ฐ๋ฅผ ๋”ํ•ด๋ณด์„ธ์š”.