증기와 파동, 에너지의 흐름이 교차하는 추상 비주얼

20와트의 질문

저는 오래된 버릇이 하나 있습니다. 어떤 현상을 만나든 먼저 에너지의 관점에서 다시 써 보는 것입니다. 빛도 소리도 결국 파동이고, 파동은 에너지가 공간을 건너가는 방식입니다. 통신은 그 에너지에 정보를 실어 보내는 기술이고, 소프트웨어는 그 정보를 다루는 형식 체계입니다. 20년 넘게 코드를 짜면서도 이 버릇은 사라지지 않았습니다. 오히려 깊어졌습니다.

그 버릇으로 지금의 인공지능을 바라보면 하나의 숫자가 목에 걸립니다. 사람의 뇌는 대략 20와트로 동작합니다. 백열전구 하나에도 못 미치는 전력으로 우리는 언어를 배우고 얼굴을 알아봅니다. 가끔은 새로운 물리 이론도 상상해 냅니다. 반면 오늘의 대규모 모델은 도시 하나가 쓸 법한 전력을 삼키는 데이터센터에서 학습됩니다. 두 시스템이 비슷한 과제를 푸는데, 쓰는 에너지의 자릿수가 다릅니다. 그것도 한두 자리가 아닙니다.

이 격차를 저는 성능의 문제로 읽지 않습니다. 이해의 문제로 읽습니다. 어떤 일을 원리로 이해한 문명은 그 일을 점점 적은 에너지로 해냅니다. 원리를 모른 채 결과만 흉내 내는 문명은 에너지를 쏟아부어 간극을 메웁니다. 지금 우리가 기가와트로 20와트를 흉내 내고 있다는 사실 자체가, 우리가 지능의 원리를 아직 모른다는 가장 정직한 정량적 증거라고 생각합니다.

카르노 이전의 반세기

이런 상황이 처음은 아닙니다. 과학사는 비슷한 장면을 여러 번 보여 줬습니다.

18세기 말, 증기기관은 이미 유럽의 광산과 공장을 돌리고 있었습니다. 와트의 기관은 상업적으로 성공했고, 기관을 더 크게 더 정교하게 만드는 기술자들의 경쟁도 치열했습니다. 그런데 정작 그 기관이 왜 작동하는지, 열에서 일을 뽑아내는 데 근본적인 한계가 있는지 없는지는 아무도 몰랐습니다. 기관은 굴러갔고, 이론은 없었습니다.

사디 카르노가 열기관의 효율에는 온도만으로 정해지는 넘을 수 없는 상한이 있다는 것을 보인 논문을 낸 때가 1824년입니다. 증기기관이 산업을 바꾸기 시작한 지 반세기가 지난 뒤였습니다. 그리고 그 짧은 논문에서 열역학이라는 학문이 자라났습니다. 엔트로피 개념이 나왔고, 에너지 보존 법칙이 정식화됐고, 훗날 통계역학과 정보 이론까지 이어지는 긴 사슬이 시작됐습니다.

여기서 제가 주목하는 것은 순서입니다. 작동하는 기계가 먼저 왔고, 이해는 나중에 왔습니다. 그리고 진짜 도약은 기계를 더 크게 만든 사람이 아니라 기계가 왜 작동하는지 물은 사람에게서 나왔습니다. 카르노 이후의 문명은 보일러를 무한정 키우는 대신 효율의 이론적 한계를 계산하고, 그 한계에 다가가는 길을 설계할 수 있게 됐습니다.

지금의 딥러닝은 정확히 카르노 이전의 증기기관 단계에 있다고 저는 봅니다. 기관은 훌륭하게 작동합니다. 산업도 이미 바뀌고 있습니다. 그러나 지능의 열역학은 아직 없습니다. 왜 이만큼의 데이터와 이만큼의 파라미터에서 일반화가 일어나는지, 학습이라는 과정의 근본적인 한계와 최소 비용이 무엇인지, 우리는 카르노 이전의 기술자들처럼 경험 법칙으로만 알고 있습니다.

켈빈의 두 조각 구름

1900년 4월, 켈빈 경은 왕립연구소 강연에서 당시 물리학의 하늘에 떠 있는 두 조각 구름을 이야기했습니다. 하나는 빛을 전달한다고 믿었던 에테르 속에서 지구의 운동을 검출하지 못한 문제였고, 다른 하나는 흑체 복사의 에너지 분포를 고전 이론이 설명하지 못하는 문제였습니다. 당시 분위기에서 이 둘은 거의 완성된 건물에 남은 사소한 마무리 작업처럼 보였습니다.

그 두 조각 구름에서 상대성이론과 양자역학이 나왔습니다. 사소해 보였던 예외가 건물 전체를 다시 짓게 만든 것입니다.

이 일화에서 자주 인용되는 교훈은 예측의 겸손함입니다만, 저는 조금 다른 데에 방점을 찍고 싶습니다. 구름을 구름으로 알아본 눈이 있었다는 사실입니다. 다 풀린 것처럼 보이는 시대에도 설명되지 않는 잔여물을 사소한 오차로 치우지 않고 정면으로 바라본 사람들이 있었고, 다음 물리학은 정확히 그 잔여물에서 태어났습니다.

오늘의 인공지능에도 구름은 떠 있습니다. 스케일을 키우면 성능이 좋아진다는 경험 법칙은 잘 작동하지만, 왜 그런지는 설명하지 못합니다. 모델은 훈련 데이터 밖에서도 종종 놀랍게 일반화하지만, 언제 일반화가 무너지는지 예측하는 이론은 없습니다. 그럴듯한 문장을 만드는 능력과 세계를 이해하는 능력 사이의 관계도 여전히 안개 속입니다. 벤치마크 점수가 올라가는 속도에 취해 있으면 이것들이 마무리 작업처럼 보입니다. 저에게는 이것들이 두 조각 구름으로 보입니다.

스케일링이라는 성취

오해를 피하고 싶습니다. 저는 스케일링을 폄하할 생각이 없습니다.

컴퓨팅 파워를 집적해서 여기까지 온 것은, 제 기준에서는 공학의 역사에 남을 성취입니다. 수만 개의 가속기를 하나의 학습으로 묶어내는 분산 시스템, 그 위에서 안정적으로 수렴하는 최적화 기법. 이것들은 정교한 공학입니다. 힘자랑이라고 부르면 그쪽 엔지니어들에게 실례가 됩니다. 딥러닝이 이만큼 중요해질 것이라고 오래전부터 떠들고 다녔던 저로서는, 그 예감이 이런 규모로 실현되는 것을 지켜보는 일이 감격스럽기도 합니다.

문제는 성취 그 자체보다 성취가 만들어 낸 착시입니다. 스케일링 곡선이 잘 올라가는 동안에는 그 곡선이 곧 과학의 진보처럼 보입니다. 그러나 보일러를 키워서 더 센 기관을 만드는 일과 열역학을 세우는 일은 다른 종류의 활동입니다. 전자는 이미 아는 방법을 더 크게 실행하는 것이고, 후자는 방법이 왜 통하는지를 묻고 그 한계를 계산하는 것입니다. 둘 다 필요합니다. 다만 전자만 남고 후자가 사라질 때, 그 분야는 공학으로서는 번창하되 과학으로서는 정체합니다.

한 가지 대조가 저에게는 인상적입니다. 같은 시기에 양자 계산과 양자 정보 분야는 다른 길을 걸어 왔습니다. 그쪽은 하드웨어가 아직 초라하던 시절부터 오류 정정의 이론적 한계, 얽힘이라는 자원의 정량화, 어떤 문제가 양자적으로 쉬워지는지에 대한 복잡도 이론을 먼저 쌓았습니다. 이해가 기계를 앞서 걸어간 드문 사례입니다. 최근 그 분야에서 나오는 성과들이 단단해 보이는 이유가 저는 그 순서에 있다고 생각합니다.

박스를 소비하는 문화

더 걱정되는 것은 기술이 아니라 문화입니다.

지금 이 분야에 들어오는 많은 연구자와 엔지니어에게 모델은 박스입니다. 입력을 넣으면 출력이 나오는, 열어 볼 필요도 없고 열어 볼 엄두도 나지 않는 박스. API 호출 몇 줄이면 어제까지 불가능했던 제품이 만들어지니, 박스를 여는 일은 비효율적인 취미처럼 보입니다. 프롬프트를 다듬고 순위표를 갱신하는 일이 연구의 기본 동작이 됐습니다.

추상화 자체는 죄가 없습니다. 저도 어셈블리에서 시작해 고수준 언어와 프레임워크의 사다리를 타고 올라온 사람입니다. 추상화는 생산성의 원천이고, 모두가 트랜지스터를 이해할 필요는 없습니다. 그러나 과학의 역사에서 다음 층의 도약은 언제나 추상화 경계 아래로 내려가 본 사람에게서 나왔습니다. 증기기관을 박스로 쓰는 사람은 많았지만 카르노는 박스 안의 열의 흐름을 그렸습니다. 무선 통신을 신기한 박스로 소비하는 사람은 많았지만 맥스웰과 헤르츠는 그 박스 안에서 파동 방정식을 읽어 냈습니다.

박스를 잘 쓰는 능력과 박스를 열어 보는 용기는 다른 근육입니다. 지금의 문화는 앞의 근육만 단련시키고 있습니다. 이대로 한 세대가 지나면, 기관을 굴릴 줄 아는 사람은 넘치는데 열역학을 세울 사람은 없는 분야가 될지도 모릅니다.

좌표를 바꾼 사람들

그러면 박스를 열고 무엇을 해야 할까요. 과학사에서 힌트를 하나 꺼내고 싶습니다. 큰 도약은 계산량의 증가가 아니라 표현의 전환에서 왔다는 것입니다.

푸리에는 아무리 복잡한 신호도 단순한 파동들의 합으로 다시 쓸 수 있음을 보였습니다. 신호 자체는 그대로인데 그것을 바라보는 좌표가 바뀌자, 시간 영역에서는 보이지 않던 구조가 주파수 영역에서 선명하게 드러났습니다. 오늘의 통신과 신호 처리 전체가 이 관점 전환 위에 서 있습니다. 섀넌은 통신을 전압과 회로의 문제에서 확률과 엔트로피의 문제로 다시 썼습니다. 그러자 어떤 채널로 얼마나 많은 정보를 보낼 수 있는지, 그 이론적 상한이 계산 가능해졌습니다. 표현이 바뀌면 한계가 보입니다. 한계가 보이면 그 한계에 다가가는 설계가 가능해집니다.

빛과 소리를 파동으로 풀어 온 사람으로서 고백하자면, 저는 신경망을 들여다볼 때에도 자꾸 파동의 언어가 어른거립니다. 고차원 공간에서 겹치고 간섭하는 표현들, 층을 지나며 걸러지고 증폭되는 성분들. 이것이 올바른 언어인지는 아직 모릅니다. 어쩌면 전혀 다른 수학이 필요할 수도 있습니다. 파동이 정답이라고 주장할 생각은 없습니다. 다만 지금 우리에게 필요한 것이 더 큰 클러스터보다는 새로운 좌표계 쪽일 수 있다는 의심은 버리기 어렵습니다. 손실 곡선과 벤치마크 점수라는 좌표에서는 영원히 보이지 않는 구조가, 어떤 다른 표현에서는 한 줄의 부등식으로 떨어질지도 모릅니다.

지능의 열역학 이전 시대를 사는 법

이제 처음의 질문으로 돌아옵니다. 이런 시대에 과학자는 어떤 마음가짐을 가져야 할까요.

가장 먼저 꼽고 싶은 것은 겸손입니다. 자세를 낮추는 예절 이야기가 아닙니다. 인식의 정확성 이야기입니다. 우리는 작동하는 기관을 가졌지만 이론은 갖지 못했다는 사실을 있는 그대로 인정하는 것. 벤치마크 점수의 상승을 이해의 증가로 착각하지 않는 것. 20와트와 기가와트 사이의 간극을 숙제 목록 맨 위에 올려 두는 것. 이 정도면 충분합니다.

다음은 구름을 응시하는 태도입니다. 잘 되는 것을 더 잘 되게 하는 일은 산업이 알아서 합니다. 과학자의 일은 설명되지 않는 잔여물을 사소한 오차로 치우지 않고 정면으로 바라보는 것입니다. 왜 일반화되는가. 언제 무너지는가. 이런 질문은 다음 분기 실적에 도움이 되지 않지만, 다음 반세기의 과학은 정확히 여기서 태어날 것입니다.

표현을 의심하는 습관도 필요합니다. 지금 쓰는 좌표계가 유일한 좌표계는 아닙니다. 푸리에 이전에도 신호는 있었고 섀넌 이전에도 통신은 있었습니다. 다만 그것을 다시 쓸 언어가 없었을 뿐입니다. 자신의 분야를 전혀 다른 언어로 다시 써 보는 훈련, 이웃 분야의 수학을 빌려와 보는 시도. 이런 일은 대부분 실패하지만, 성공하는 하나가 분야 전체의 하늘을 바꿉니다.

끝으로 하나만 덧붙이면, 지금은 좌절할 때가 아닙니다. 1900년의 물리학도들은 운이 좋았습니다. 건물이 완성된 줄 알았던 시대에 태어나, 건물을 다시 짓는 세대가 됐으니까요. 지능의 열역학이 없다는 것은 그것을 세울 자리가 비어 있다는 뜻입니다. 과학의 역사에서 이보다 설레는 초대장은 흔치 않습니다.

다음 카르노에게

ThakiCloud는 GPU 클러스터와 AI 플랫폼을 만드는 회사입니다. 말하자면 이 시대의 보일러를 짓는 일을 업으로 삼고 있습니다. 그래서 더욱, 보일러가 전부가 아니라는 이야기를 우리 스스로에게 자주 합니다. 인프라는 질문을 대신해 주지 않습니다. 좋은 인프라는 좋은 질문을 가진 사람이 더 빨리, 더 적은 비용으로 실험하게 해 줄 뿐입니다. 우리가 플랫폼의 효율과 에너지 비용에 집착하는 이유도 결국 같은 자리로 돌아옵니다. 20와트의 뇌가 세운 기준 앞에서 지금의 컴퓨팅은 아직 한참 겸손해야 하기 때문입니다.

증기기관의 시대는 카르노를 기다렸고, 기다림은 헛되지 않았습니다. 지금 어딘가에서 박스를 열어 보고 있을, 벤치마크 대신 원리를 묻고 있을, 어쩌면 아직 학생일 다음 카르노에게 이 글이 작은 응원이 되면 좋겠습니다. 기관은 이미 굴러가고 있습니다. 이제 필요한 것은 그 기관이 왜 작동하는지 묻는 용기입니다.