※ 동영상 전체(≈ 30 분)를 직접 재생하며 토크를 확인할 수 있어요.

Jeff Dean Tech Talk 요약: AI 인프라, 대규모 모델, 컴퓨팅의 미래

연사: Jeff Dean (Alphabet 최고 과학자, Chief Scientist)
진행: Bill Coughran (Sequoia 파트너, 전 Google 엔지니어링 총괄)
주제: AI 스케일링, 파운데이션 모델, 추론 하드웨어, 차세대 컴퓨팅 인프라


👤 Jeff Dean

직책: Chief Scientist, Google DeepMind & Google Research (Alphabet Inc.)

소개:
Jeff Dean은 Google 및 Alphabet 산하의 DeepMind, Google Research를 이끄는 최고 과학자(Chief Scientist)입니다.
그는 Google의 초기 엔지니어로 입사해 Google 검색 인프라, MapReduce, BigTable, TensorFlow, BERT
현대 컴퓨팅과 AI 기술 발전에 지대한 영향을 끼친 인물입니다.

주요 업적:

  • Google Brain 공동 설립
  • TensorFlow 오픈소스 프로젝트 총괄
  • Transformer, BERT 등 핵심 논문 리더십
  • TPU (Tensor Processing Unit) 하드웨어 프로그램 주도
  • 최근 Google의 Gemini 대형 모델 전략 주도

👤 Bill Coughran

직책: Partner, Sequoia Capital
이전 직책: SVP of Engineering, Google

소개:
Bill Coughran은 현재 글로벌 VC인 Sequoia Capital의 파트너이며,
Google에서 8년 이상 엔지니어링을 총괄한 전 Senior Vice President of Engineering 출신입니다.
그는 Google의 검색, 인프라, 광고 시스템, Chrome, Android 개발팀까지 포괄하는
수천 명의 엔지니어링 조직을 이끌었습니다.

주요 업적:

  • Google 엔지니어링 조직 수직 확장 기여
  • Chrome, Ads, Search 시스템 성능 개선 주도
  • Google 초기 리더십 팀 구성에 기여
  • Sequoia에서 Snowflake, Databricks 등 기술 스타트업 투자

🔧 AI의 진화와 스케일링 패러다임

  • 현대 딥러닝은 2012~2013년부터 본격 시작됨.
  • Google은 16,000개 CPU 코어를 사용해 당시 최대 규모의 뉴럴넷을 학습, 스케일의 가능성 입증.
  • 핵심 경험칙:

    모델을 키우고, 데이터를 늘리면, 성능은 좋아진다


🧠 멀티모달 모델과 AI 에이전트

멀티모달 시스템

  • 텍스트, 이미지, 오디오, 비디오, 코드 등 다양한 입력/출력을 처리하는 멀티모달 AI가 핵심으로 부상.
  • 다양한 분야(예: 교육, 로보틱스, 사용자 인터페이스)에서 활용 가속화.

AI 에이전트

  • 현재는 제한된 기능만 수행 가능하지만, 강화학습(RL)후처리(post-training)로 점점 고도화 가능.
  • 로봇 또한 1~2년 내에 실내에서 20가지 이상의 유용한 작업을 수행할 수 있을 것으로 예상.

🧱 파운데이션 모델 생태계

  • 최첨단 LLM 학습에는 막대한 자원과 인프라가 필요 → 상위 소수 기업만 주도 가능.
  • 그러나 지식 증류(Distillation)를 활용하면 경량화된 모델을 다양하게 파생 가능.
  • 미래는 다음과 같은 구도로 예상:
    • 소수의 범용 대형 모델
    • 다수의 경량/특화 모델

⚙️ AI 전용 하드웨어와 시스템 소프트웨어

ML 하드웨어 핵심 요소

  • 저정밀 선형대수 연산 가속기 (Reduced-Precision Accelerators)
  • 초고속 네트워크 인터커넥트

TPU 개발 히스토리

  • TPUv1: 추론용
  • TPUv2~현재: 학습 + 추론 통합
  • 최신 세대: Trillium → Ironwood

아날로그 vs 디지털 추론

  • 아날로그 추론은 전력 효율에서 유망하나, 디지털 시스템은 여전히 개발 유연성에서 우위.
  • 향후 10~50,000배 효율 향상 가능한 하드웨어 혁신이 목표.

🧪 AI의 과학 분야 영향

  • 기상 예측, 유체 역학, 양자 화학 등 고비용 시뮬레이터 기반 문제에 적용.
  • 시뮬레이터 데이터를 학습해 수십만 배 빠른 추론 모델 생성 가능.
  • 예: 하루 만에 수백만 개 분자 구조 시뮬레이션 가능 → 과학 발견 속도 가속.

🧵 개발자 경험: Pathways 추상화

  • Google 내부 시스템인 Pathways는 단일 Python 프로세스로 수천 개의 디바이스를 제어 가능.
  • JAX 및 PyTorch 호환.
  • 최근 GCP에도 공개 → 클라우드 사용자가 단일 프로세스로 대규모 TPU 활용 가능.

```python

Pathways 예시: 1개의 Python 코드로 10,000개 장비 제어

model = YourModel() output = model(input) # 단일 스크립트로 확장성 확보

🛠️ 차세대 컴퓨팅 인프라 방향

  • 전통적인 알고리즘 복잡도 분석은 연산 횟수(op count) 중심이었음.
  • 그러나 AI 시대에서는 메모리 대역폭데이터 이동량(data movement)이 성능의 핵심 병목 요소로 부각됨.
  • 특히, AI 시스템에서는:
    • 훈련(training)추론(inference)은 서로 다른 워크로드 특성을 가지므로,
    • 각각에 최적화된 하드웨어 및 시스템 설계가 필요함.
  • 결론적으로, 하드웨어-시스템 소프트웨어-알고리즘의 통합 설계(co-design)가 성능을 좌우함.

🤖 AI 주니어 엔지니어 실현 가능성

  • 1년 이내, 실질적으로 주니어 소프트웨어 엔지니어 수준의 AI 구현 가능성이 있음.
  • 단순 코드 생성(code generation)만으로는 부족하며, 다음과 같은 역량이 요구됨:
    • 테스트 실행 (e.g., unit/integration testing)
    • 성능 디버깅 (e.g., latency profiling, bottleneck analysis)
    • 문서 학습 및 실무 도구 활용 (e.g., git, CI/CD, 로그 해석)

🧩 미래 모델 아키텍처: Sparse & Modular

  • Jeff Dean은 Mixture of Experts (MoE) 기반 희소(sparse) 아키텍처에 주목함.
  • 핵심 개념:
    • 실행 시 필요한 경로만 활성화 → 연산 자원 효율적으로 사용
    • 경량 expert고비용 expert의 조합으로 유연한 설계 가능
  • 미래 지향적 특성:
    • 동적 경로 선택: 상황에 따라 수십~수천 배의 compute 차이를 허용
    • 모듈화된 파라미터 증설/압축:
      • 필요 시 확장, 불필요한 부분은 distillation 또는 garbage collection으로 정리
      • 지속학습(continual learning) 및 메모리 최적화 가능

📌 마무리 인사이트

알고리즘 혁신과 인프라 혁신은 모두 중요하다. 어느 하나만으로는 경쟁력을 유지할 수 없다.

  • 단순히 큰 클러스터 보유 = 우위라는 등식은 더 이상 유효하지 않음.
  • 진정한 경쟁력은 다음 요소들의 총합에서 비롯됨:
    • 효율적인 알고리즘 설계
    • 고성능 하드웨어 아키텍처
    • 개발자 친화적 도구 및 프레임워크
    • 직관적이고 신뢰 가능한 에이전트 기반 사용자 경험 (UX)