얀 르쿤의 JEPA

얀 르쿤이 제안한 아키텍처, JEPA가 무엇인지 알아봅니다.

2024. 5. 28.

얀 르쿤의 JEPA

이 메일이 잘 안보이시나요?

# 41 위클리 딥 다이브 | 2024년 5월 29일
에디터 민재

💡 이번주 뉴스레터에는 이런 내용을 담았어요!

얀 르쿤이 제안한 세계 모델에 대해 정리합니다.
인간과 같은 추론을 하는 JEPA 모델에 대해 설명합니다.
기계와 인간이 세상을 이해하는 방법에 대해 재고합니다.

🌍 얀 르쿤의 JEPA

안녕하세요, 에디터 민재입니다.

이제 인공지능은 굳이 언급하지 않아도 될 정도로 영향력을 미치지 않는 곳을 찾기가 어렵습니다. 그런데 인공지능은 언제를 기점으로 폭발적인 관심을 받고, 본격적인 연구가 이루어졌을까요? 아마 대부분의 사람들은 2016년 등장한 알파고, 2022년 이후 우리의 삶을 극적으로 바꿔놓은 ChatGPT를 떠올릴 것입니다. 그렇다면 인공지능에 대한 연구는 그것보다 조금 이른 2000년대 무렵에 시작되었을까요? 그렇지 않습니다. 인공지능의 역사는 우리가 생각한 것보다는 조금 더 오래전으로 거슬러 올라갑니다.

인공지능을 어떻게 정의하느냐에 따라 연표 중 어디를 가리킬지는 달라집니다. 이 분야의 핵심 기술인 딥러닝을 기준으로 생각하면 조금 더 명확해지죠. 1940년대 사이버네틱스(Cybernetics)라는 이름으로 시작된 분야의 학자들은 생물학적 학습을 위한 계산 모형, 즉 뇌를 본뜬 형태의 알고리즘을 연구했습니다. 널리 알려졌듯이 최초의 인공 신경망은 시냅스를 통해 신호를 전달하는 뉴런의 모습을 본뜬 것입니다.

이런 신경과학적인 접근은 뇌의 원리를 역공학으로 파악해서 그 기능을 복제하자는 목적이 있습니다. 또한 그 원리를 이해하는 일은 인간 지능의 본질을 탐구하는 것이므로, 그 자체로 유용하다는 지지를 받았습니다. 이런 정신이 이후 모든 연구에 계승되지는 않았지만, 여전히 많은 인공지능 연구는 인간의 지능을 복제하는 데 관심을 두고 있습니다. 그리고 그런 연구가 반대로 신경 과학에 영향을 미치기도 합니다. 그렇기 때문에 인공지능은 단순히 인간의 일을 대신하는 기계를 넘어, 인간과 같은 방식으로 세상을 이해하도록 발전해야 한다는 주장은 나름 타당한 의견입니다.

메타의 수석 AI 과학자인 얀 르쿤(Yann Lecun)이 꿈꾸는 AI의 미래도 마찬가지입니다. 그는 현재 대부분의 언어 모델에서 사용되는 자기회귀적(Auto-Regressive), 또는 생성적(Generative) 방법론에 오래전부터 의문을 제기했습니다. 대표적인 생성형 모델인 GPT는 그럴듯한 문장을 만들긴 하지만, 세상을 이해하는 방식은 고양이나 개에도 미치지 못한다고 강하게 비판했죠. 얀 르쿤은 애초에 세상을 정확하게 예측한다는 것 자체가 불가능하다고 말합니다. 그러면서 대안으로 세계 모델(World Model)이라는 개념을 바탕으로 한 새로운 아키텍처인 JEPA를 제안했습니다. 그렇다면 이들은 어떻게 세상을 이해할까요?

세계 모델을 구성하는 모듈의 역할

지난 뉴스레터에서 이미 얀 르쿤이 제안한 세계 모델의 개념과 이를 구현하는 데 사용할 시스템 아키텍처의 각 모듈에 대해 설명했습니다. 그러면 아래 그림과 같이 나타나는 시스템 아키텍처의 각 모듈은 무엇을 의미하고, 어떻게 작동해야 할 지를 구체적으로 알아보겠습니다.

얀 르쿤이 제안한 자율 지능을 위한 시스템 아키텍처

출처: A Path Towards Autonomous Machine Intellingence (Yann Lecun, 2022)

지능을 가진 에이전트가 과제를 수행하는 과정은 인지-행동 루프(Perception-Action Loop)로 이해할 수 있습니다. 이 과정은 두 가지 형태(Mode)로 나타나는데, Mode-1에서는 복잡한 추론이 필요하지 않고 지각의 결과 즉각적인 행동이 취해집니다. 반면 Mode-2에서는 추론과 계획을 통해 가능한 여러 행동에 대한 비용을 신중하게 계산합니다. 이런 두 가지 양상은 심리학자 대니얼 카너먼이 제안한 시스템 1, 2와 매우 유사합니다.

Mode-1에서는 지각 모듈(Perception Module)이 추정한 외부 상태(Estimated state of the world)를 바탕으로 행동 모듈(Actor Module)이 즉시 다음 행동을 결정합니다. 행동 모듈은 정책 모듈(Policy Module)과 행동 최적화기(Action Optimizer)로 구성되는데, Mode-1에서는 Policy Module이 사용됩니다. 반면 Mode-2에서 Actor는 일련의 행동을 제안하고, World Model은 행동의 결과로 나타날 수 있는 외부의 상태를 예측합니다. 그리고 각각의 상태에 대한 에너지를 비용 모듈(Cost Module)이 계산합니다.

Mode-2를 사용하는 것은 번거로운 일입니다. 에이전트는 하나의 세계 모델을 가지고 있기 때문에, 복잡한 일이 주어진다면 인간과 마찬가지로 한 번에 하나의 일에 집중할 수밖에 없습니다. 그런데 사람은 처음에는 복잡한 것처럼 보이는 일도 점차 익숙해지면 많은 에너지를 들이지 않고도 쉽게 해냅니다. 그렇다면 이를 모방하는 기계 또한 Mode-2에서 Mode-1으로 전환할 수 있어야 합니다. 그래서 에이전트는 Policy Module을 사용한 예측의 결과가 Mode-2의 결과와 비슷해지도록(Approximate) 학습을 통해 정책을 수정합니다. 마치 새로운 기술을 학습하는 것처럼 말이죠.

Cost Module은 에이전트가 현재 상태에서 갖는 불편함(Discomfort) 또는 에너지(Energy)를 측정하고, 이를 최소화하는 방향으로 행동을 결정합니다. 이때 Cost는 두 가지 요소로 구성되는데 각각 Intrinsic Cost(IC)와 Trainable Critic(TC)입니다. IC는 변하지 않는 고정된 비용으로, 본능적인 반응을 기반으로 에너지를 측정하며, 에이전트가 생존과 같은 근본적인 욕구를 갖도록 합니다. TC는 학습과 적응을 통해 변화하는 값으로, 장기적인 결과를 예측하는 데 사용되는 비용입니다.

세상을 이해하는 새로운 방법, JEPA

얀 르쿤의 World Model이 어떻게 구성되는지는 알았습니다. 그렇다면, 실제로 이 모델을 구현하고 훈련하기 위해서는 어떤 방법이 필요할까요? 그는 World Model 학습이 자기 지도 학습(Self-Supervised Learning, SSL)을 통해 이뤄질 수 있다고 했습니다. SSL은 패턴 완성하기(Pattern Completion)로 이해할 수 있는데, 얀 르쿤은 World Model의 목표가 세상의 상태에 대한 표현을 예측하는 것이라고 했습니다.

📖 표현(Representation)이란?

얀 르쿤은 World Model이 세상을 예측하는 방식을 ‘Predicting future representations of the state of the world’라고 설명합니다. 직역하면 ‘세계의 상태에 대한 미래의 표현을 예측’한다는 것인데, 여기서 표현(Representation)은 어떤 의미일까요?

일반적으로 딥러닝 분야에서 표현은 원본 입력 데이터가 어떤 처리 과정에 의해 추상화된 결과를 의미합니다. 개념은 그 자체로는 기계에 입력될 수 없기 때문에 적절한 형태로 변환해 줘야 합니다. 이 변환 과정을 임베딩(Embedding)이라고 하며, 임베딩의 결과로 어떤 개념에 대한 표현이 생성됩니다.

이 표현은 n차원의 벡터이며, 벡터의 각 열은 특성(Feature)이라고 합니다. 각각의 Feature가 의미하는 바를 정확히 알기는 어렵지만, 모두 특정한 의미를 지니며, 그 값이 유사할수록 의미론적 유사성(Semantic Similarity)을 띠게 됩니다. 예를 들어, 강아지와 고양이의 표현 사이의 거리는 강아지와 자동차의 표현보다는 가깝게 나타납니다.

미래의 표현을 예측한다는 것은 단순히 입력 x의 결과가 하나의 정해진 출력 y에 대응하는 것과는 조금 다릅니다. 얀 르쿤의 세계 모델은 그럴듯하게 이어지는 미래(Plausible Continuation)를 예측하며, 그 미래는 무수히 많을 수도 있습니다. 각각의 미래가 그럴듯한지는 Energy-Based Model(EBM)로 설명할 수 있습니다. EBM은 y가 x에 대한 합리적인 예측이라면 낮은 에너지를 출력하고, 그렇지 않다면 높은 에너지를 출력합니다.

그런데 모델이 다양한 그럴듯한 미래를 예측하게 하려면 어떤 방법이 필요할까요? 여기서 잠재 변수(Latent Variable)라는 개념이 등장합니다. 잠재 변수에는 직접 관찰되지는 않았지만, 추론을 통해 알 수 있는 정보가 담깁니다. 즉, 여기에는 입력 x에서 직접적으로 알 수는 없는, x와 y의 관계가 포함됩니다. 예를 들어 x가 갈림길에 들어서는 자동차의 사진이고, y는 몇 초 후 갈림길 중 한 쪽으로 진입한 자동차의 사진이라고 하겠습니다. 그러면 잠재 변수 z에는 자동차가 나아갈 수 있는 방향에 대한 정보가 담길 것입니다. 만약 y가 왼쪽 갈림길에 들어선 자동차의 사진이고, z에 그런 선택을 한 상황이 표현되었다면, EBM은 낮은 에너지를 출력할 것입니다. 이처럼 잠재 변수는 모델이 불확실한 미래를 예측할 수 있게 해줍니다.

JEPA는 입력 x에서 출력 y를 명시적으로 예측하는 대신, 출력의 추상화된 표현인 s_y를 예측합니다.

출처: A Path Towards Autonomous Machine Intellingence (Yann Lecun, 2022)

얀 르쿤의 World Model은 또 다른 중요한 특징을 갖습니다. 바로 인코더를 통과한 입력과 출력의 표현이 예측 과정에 사용된다는 것이며, 이는 생성적 방법과는 분명한 차이가 있습니다. 이 모델은 x에서 y를 명시적으로 예측하는 게 아닌, 인코딩된 입력인 s_x와 잠재변수 z를 사용해서 인코딩된 입력인 s_y를 예측합니다. 핵심은 인코딩 과정에서 중요한 정보를 제외한 사소한 세부 사항은 생략된다는 것입니다.

얀 르쿤은 생성형 모델이 불필요한 정보를 구분하는 데 어려움을 겪고, 비효율적인 예측을 한다고 지적합니다. 반면 그가 제안한 모델은 인코딩 과정에서 이런 정보는 제거하고 핵심적인 정보만을 사용합니다. 앞의 예시를 다시 생각해 보면, sx에 담긴 정보는 자동차와 갈림길에 집중되어 있고, 주변 풍경과 같은 사소한 부분은 생략되어 있을 것입니다. 우리가 예측하고자 하는 건 자동차가 나아갈 방향이기 때문입니다.

우리의 목표는 미래를 완벽하게 재구성하는 게 아니라 무엇이 그럴듯한 미래인지, 그리고 예측에 필요한 정보가 무엇인지를 생각하는 것입니다. 정리하자면 주어진 상황에서 필요한 정보만을 추출하고, 추상적인 예측을 하자는 것이죠. 그래서 얀 르쿤은 이런 모델을 JEPA(Joint Embedding Predictive Architecture)라고 명명했습니다. 단순히 미래를 재현하는 방식으로 예측하는 게 아닌, 임베딩을 예측하기 때문이죠.

그런데 인간은 계층적인 추론(Hierarchical Planning) 능력을 갖추고 있습니다. 쉽게 생각해서, 가까운 미래에 대한 추론과 먼 미래에 대한 추론이 모두 가능하죠. 우리는 먼 미래에 대한 계획을 수립할 때는 더 많이 추상화된 정보를 사용하여, 조금 더 불확실한 미래를 생각합니다. 마침 JEPA는 예측에 불필요한 정보를 제거하고 꼭 필요한 정보만 추출하는 능력이 있습니다. 이런 성질은 필요한 정보의 수준을 다르게 하는 방법으로 다양한 수준의 추상화를 가능하게 해줍니다. 결국 여러 개의 JEPA 모델을 계층적으로 연결한 H-JEPA는 인간과 같이 다양한 수준의 추론이 가능합니다.

기계와 인간의 동상이몽

얀 르쿤이 제안한 JEPA는 GPT와 같은 기존의 모델보다 한층 더 인간에 가까운 방식으로 추론합니다. 그가 말한대로 미래를 완벽하게 예측하는 것은 불가능에 가깝고, 동일한 조건에서도 다양한 그럴듯한 미래를 예상할 수 있죠. 또한, 실제로 우리는 추론 과정에서 주변 정보는 지우고 중심 정보에만 집중합니다. 그렇다면 JEPA는 드디어 인간의 뇌를 완벽하게 본뜬 것일까요?

질문에 자신있게 답변하기는 어렵지만, 적어도 아직은 그렇지 않다에 가깝습니다. JEPA가 기존의 생성형 모델보다 인간과 같은 추론을 한다는 사실은 분명하지만, 실제로 의도한 대로 학습하고 인간에 필적하는 추론 능력을 보일지는 알 수 없습니다. 오직 성능만의 문제만은 아닙니다. 우리는 여전히 인간의 뇌가 어떻게 작동하는지 완벽하게 이해하지 못합니다. 따라서 JEPA가 정말 인간처럼 추론을 하는지를 속단하기 어렵죠. 합리적인 가설을 통해 그럴 것이라고 기대할 뿐입니다.

그런데 기계와 인간이 완벽하게 똑같은 방식으로 세상을 이해하고 미래를 예측할 필요가 있을까요? 애초에 우리는 주위를 둘러싼 세계를 바라보는 방식을, 그리고 오감으로 느낀 세상을 어떻게 받아들이는지는 이해하고 있을까요? 그렇지는 않습니다. 우리 스스로도 의식의 면면을 모두 파악하지 못한 채, 우리의 말과 행동에 일일이 의미를 부여하진 못합니다. 그런데 기계가 작동하는 방식을 설명할 수 없다는 이유로, 인간과 다르게 생각한다는 이유로 부정적으로 평가하는 건 공정하지 않아 보입니다.

JEPA는 분명 우리가 세상을 이해하는 방식을 기계에게 학습시킴으로써, 인공지능의 성능을 개선할지도 모릅니다. 이런 연구는 인간 지능의 본질에 대해 재고해본다는 점에서도 크게 의미가 있죠. 그런데 어쩌면 기계가 인간에게 생각하는 방법을 알려줄 수 있을지도 모릅니다. 우리는 우리가 상상할 수 있는 한계에 갇혀있기 때문에 여전히 인공지능의 성능에 실망할 수밖에 없을지도 모릅니다. 얀 르쿤도 그저 생성적인 방법을 비판하고, JEPA가 무조건 옳다는 말을 하려는 건 아닐 것이라고 생각합니다. 그는 어쩌면 좁은 개념에 갇혀 있는 대부분의 연구자들에게 새로운 길을 제시해주고 싶었을지도 모릅니다.

SNS를 팔로우하면
최신 소식을 가장 빠르게 확인하실 수 있습니다 😆

deep daiv.

manager@deepdaiv.com

수신거부 Unsubscribe

Weekly deep daiv.를구독하고 이메일로 받아보세요

deep daiv.에서 AI 트렌드를 전달합니다.

Weekly deep daiv.

deep daiv.에서 AI 트렌드를 전달합니다.