Jeff Dean과 함께 본 AI 인프라와 컴퓨팅의 미래
Jeff Dean Tech Talk 요약: AI 인프라, 대규모 모델, 컴퓨팅의 미래
연사: Jeff Dean (Alphabet 최고 과학자, Chief Scientist)
진행: Bill Coughran (Sequoia 파트너, 전 Google 엔지니어링 총괄)
주제: AI 스케일링, 파운데이션 모델, 추론 하드웨어, 차세대 컴퓨팅 인프라
👤 Jeff Dean
직책: Chief Scientist, Google DeepMind & Google Research (Alphabet Inc.)
소개:
Jeff Dean은 Google 및 Alphabet 산하의 DeepMind, Google Research를 이끄는 최고 과학자(Chief Scientist)입니다.
그는 Google의 초기 엔지니어로 입사해 Google 검색 인프라, MapReduce, BigTable, TensorFlow, BERT 등
현대 컴퓨팅과 AI 기술 발전에 지대한 영향을 끼친 인물입니다.
주요 업적:
- Google Brain 공동 설립
- TensorFlow 오픈소스 프로젝트 총괄
- Transformer, BERT 등 핵심 논문 리더십
- TPU (Tensor Processing Unit) 하드웨어 프로그램 주도
- 최근 Google의 Gemini 대형 모델 전략 주도
👤 Bill Coughran
직책: Partner, Sequoia Capital
이전 직책: SVP of Engineering, Google
소개:
Bill Coughran은 현재 글로벌 VC인 Sequoia Capital의 파트너이며,
Google에서 8년 이상 엔지니어링을 총괄한 전 Senior Vice President of Engineering 출신입니다.
그는 Google의 검색, 인프라, 광고 시스템, Chrome, Android 개발팀까지 포괄하는
수천 명의 엔지니어링 조직을 이끌었습니다.
주요 업적:
- Google 엔지니어링 조직 수직 확장 기여
- Chrome, Ads, Search 시스템 성능 개선 주도
- Google 초기 리더십 팀 구성에 기여
- Sequoia에서 Snowflake, Databricks 등 기술 스타트업 투자
🔧 AI의 진화와 스케일링 패러다임
- 현대 딥러닝은 2012~2013년부터 본격 시작됨.
- Google은 16,000개 CPU 코어를 사용해 당시 최대 규모의 뉴럴넷을 학습, 스케일의 가능성 입증.
- 핵심 경험칙:
모델을 키우고, 데이터를 늘리면, 성능은 좋아진다
🧠 멀티모달 모델과 AI 에이전트
멀티모달 시스템
- 텍스트, 이미지, 오디오, 비디오, 코드 등 다양한 입력/출력을 처리하는 멀티모달 AI가 핵심으로 부상.
- 다양한 분야(예: 교육, 로보틱스, 사용자 인터페이스)에서 활용 가속화.
AI 에이전트
- 현재는 제한된 기능만 수행 가능하지만, 강화학습(RL)과 후처리(post-training)로 점점 고도화 가능.
- 로봇 또한 1~2년 내에 실내에서 20가지 이상의 유용한 작업을 수행할 수 있을 것으로 예상.
🧱 파운데이션 모델 생태계
- 최첨단 LLM 학습에는 막대한 자원과 인프라가 필요 → 상위 소수 기업만 주도 가능.
- 그러나 지식 증류(Distillation)를 활용하면 경량화된 모델을 다양하게 파생 가능.
- 미래는 다음과 같은 구도로 예상:
- 소수의 범용 대형 모델
- 다수의 경량/특화 모델
⚙️ AI 전용 하드웨어와 시스템 소프트웨어
ML 하드웨어 핵심 요소
- 저정밀 선형대수 연산 가속기 (Reduced-Precision Accelerators)
- 초고속 네트워크 인터커넥트
TPU 개발 히스토리
- TPUv1: 추론용
- TPUv2~현재: 학습 + 추론 통합
- 최신 세대: Trillium → Ironwood
아날로그 vs 디지털 추론
- 아날로그 추론은 전력 효율에서 유망하나, 디지털 시스템은 여전히 개발 유연성에서 우위.
- 향후 10~50,000배 효율 향상 가능한 하드웨어 혁신이 목표.
🧪 AI의 과학 분야 영향
- 기상 예측, 유체 역학, 양자 화학 등 고비용 시뮬레이터 기반 문제에 적용.
- 시뮬레이터 데이터를 학습해 수십만 배 빠른 추론 모델 생성 가능.
- 예: 하루 만에 수백만 개 분자 구조 시뮬레이션 가능 → 과학 발견 속도 가속.
🧵 개발자 경험: Pathways 추상화
- Google 내부 시스템인 Pathways는 단일 Python 프로세스로 수천 개의 디바이스를 제어 가능.
- JAX 및 PyTorch 호환.
- 최근 GCP에도 공개 → 클라우드 사용자가 단일 프로세스로 대규모 TPU 활용 가능.
```python
Pathways 예시: 1개의 Python 코드로 10,000개 장비 제어
model = YourModel() output = model(input) # 단일 스크립트로 확장성 확보
🛠️ 차세대 컴퓨팅 인프라 방향
- 전통적인 알고리즘 복잡도 분석은 연산 횟수(op count) 중심이었음.
- 그러나 AI 시대에서는 메모리 대역폭과 데이터 이동량(data movement)이 성능의 핵심 병목 요소로 부각됨.
- 특히, AI 시스템에서는:
- 훈련(training)과 추론(inference)은 서로 다른 워크로드 특성을 가지므로,
- 각각에 최적화된 하드웨어 및 시스템 설계가 필요함.
- 결론적으로, 하드웨어-시스템 소프트웨어-알고리즘의 통합 설계(co-design)가 성능을 좌우함.
🤖 AI 주니어 엔지니어 실현 가능성
- 1년 이내, 실질적으로 주니어 소프트웨어 엔지니어 수준의 AI 구현 가능성이 있음.
- 단순 코드 생성(code generation)만으로는 부족하며, 다음과 같은 역량이 요구됨:
- 테스트 실행 (e.g., unit/integration testing)
- 성능 디버깅 (e.g., latency profiling, bottleneck analysis)
- 문서 학습 및 실무 도구 활용 (e.g., git, CI/CD, 로그 해석)
🧩 미래 모델 아키텍처: Sparse & Modular
- Jeff Dean은 Mixture of Experts (MoE) 기반 희소(sparse) 아키텍처에 주목함.
- 핵심 개념:
- 실행 시 필요한 경로만 활성화 → 연산 자원 효율적으로 사용
- 경량 expert와 고비용 expert의 조합으로 유연한 설계 가능
- 미래 지향적 특성:
- 동적 경로 선택: 상황에 따라 수십~수천 배의 compute 차이를 허용
- 모듈화된 파라미터 증설/압축:
- 필요 시 확장, 불필요한 부분은 distillation 또는 garbage collection으로 정리
- 지속학습(continual learning) 및 메모리 최적화 가능
📌 마무리 인사이트
“알고리즘 혁신과 인프라 혁신은 모두 중요하다. 어느 하나만으로는 경쟁력을 유지할 수 없다.”
- 단순히 큰 클러스터 보유 = 우위라는 등식은 더 이상 유효하지 않음.
- 진정한 경쟁력은 다음 요소들의 총합에서 비롯됨:
- ✅ 효율적인 알고리즘 설계
- ✅ 고성능 하드웨어 아키텍처
- ✅ 개발자 친화적 도구 및 프레임워크
- ✅ 직관적이고 신뢰 가능한 에이전트 기반 사용자 경험 (UX)