대형 추론 모델(Large Reasoning Model)에 대해서 알아봅니다. # 78 위클리 딥 다이브 | 2025년 2월 12일 에디터 민재 |
|
|
💡 이번주 뉴스레터에는 이런 내용을 담았어요!
- 대규모 추론 모델(LRM)의 개념을 설명합니다.
- LLM 연구의 새로운 트렌드인 Test Time Compute Scaling을 소개합니다.
- LRM이 추론을 통해 문제를 해결하는 과정을 살펴합니다.
|
|
|
안녕하세요, 에디터 민재입니다.
지난 몇 년간 인공지능 분야의 최대 화두는 LLM이었습니다. 최근 화제가 된 DeepSeek-R1의 기반 기술 역시 LLM인데요. 이처럼 LLM의 영향력은 여전히 건재하며, 올 한해도 새로운 트렌드를 이끌어 갈 것으로 예측되고 있습니다.
그러던 중 작년 말부터 새롭게 등장한 표현이 있습니다. 바로 대형 추론 모델(Large Reasoning Model, LRM)입니다. LLM의 추론 능력을 개선하려는 시도는 꾸준히 이뤄졌지만, OpenAI가 o1 모델을 처음 발표한 이후, 추론에 특화된 모델이 점점 주목을 받기 시작했습니다. 앞서 언급한 DeepSeek-R1도 마찬가지로 LLM임과 동시에 LRM이라고 볼 수 있습니다.
그렇다면 LLM과 LRM은 어떻게 다를까요? 쉽게 설명하면 LRM은 기존의 LLM이 잘 처리하지 못하던 복잡한 추론 능력을 요구하는 과제를 전문적으로 수행할 수 있는 모델입니다. LRM도 결국은 LLM을 기반으로 하지만, 둘을 구분하는 주된 이유는 분명히 존재합니다. 바로 성능을 개선하는 방식이 기존의 LLM과 다르다는 점입니다.
어떤 요인에 의해 LLM의 성능이 변하는 추세를 보통 규모의 법칙(Scaling Law)이라고 합니다. LLM이 갖는 파라미터의 수가 성능과 비례한다는 사실이 대표적인 예시입니다. 기존의 LLM은 얼마나 많은 데이터를 학습하는지, 또는 얼마나 많은 연산 자원을 소모하는지 등 주로 학습 단계에서의 Scaling Law에 집중하여 성능 개선이 이뤄졌습니다. 반면 LRM 추론 단계에서 얼마나 많은 연산 자원을 소모해서 응답을 생성하는지에 집중합니다.
결국 기존 LLM의 성능 향상을 위한 연구가 Train Time Compute Scaling이라고 했다면, 이제 LRM의 성능 향상을 위한 연구는 Test(또는 Inference) Time Compute Scaling이라고 할 수 있습니다. |
|
|
그렇다면 Test Time Compute Scaling에서 연산 자원을 더 많이 사용한다는 건 어떤 의미일까요? 추상적으로는 모델이 “더 오래” 생각하도록 하는 것이라고 설명하는데, 결국 어떤 질문이 들어왔을 때 정답에 이르는 추론 단계를 더 길게 생성한다는 것입니다.
LLM의 특별한 능력 중 하나는 학습하지 않은 새로운 과제가 주어지더라도, 이를 해결하는 방법이나 문제와 정답의 쌍으로 이뤄진 예시가 몇 개 주어지면 잘 풀어낼 수 있다는 것이었습니다. 그리고 이런 능력을 바로 ICL이라고 합니다. CoT는 LLM의 이런 능력을 극대화하기 위해서 과제의 예시에 문제와 정답뿐만 아니라 문제를 해결하는 과정을 포함하여 보여주는 방식입니다. |
|
|
CoT 프롬프팅 덕분에 LLM은 새로운 과제를 더 잘 수행할 수 있었고, 블랙박스에 가까운 LLM이 문제를 해결하는 과정을 단계별로 살펴볼 수도 있게 되었습니다. CoT는 곧 여러 개의 추론 경로(Reasoning Path)를 생성하고 그 중에서 가장 확률이 높은 것을 선택하는 Tree-of-Thought(ToT), Graph-of-Thought(GoT)를 비롯해 다양한 변형으로 이어졌습니다.
이런 모든 방법은 LLM의 추론 성능을 높여주었는데, 이때 공통적으로 나타나는 특징이 바로 추론 단계에서 많은 연산이 이뤄진다는 것입니다. 기존에는 문제에 대한 정답만을 생성하면 되었지만, 이제는 풀이 과정까지 모두 생성해야하기 때문입니다. 결과적으로 추론 단계에서 더 많은 연산량을 요구하게 되었고, 이를 Test Time Compute Scaling이라고 부르게 된 것입니다. |
|
|
Test Time Compute Scaling의 핵심은 LLM이 오래 생각하도록 하는 것이라고 했습니다. 기존에는 여러 가지 프롬프팅 기법을 사용하여 자체적으로 추론 능력을 개선하곤 했는데, LRM에서는 또 다른 방법을 사용하기도 합니다. 바로 별도의 보상 모델(Reward Model)을 사용하는 것인데요. 결론부터 이야기하자면 보상 모델과 Test Time Compute Scaling을 잘 활용하면, 아래와 같이 작은 모델로도 매우 큰 모델과 같은 성능을 낼 수 있습니다. |
|
|
보상 모델을 활용해 LRM의 추론 능력을 개선할 때는, CoT와 같은 방법에서 사용한 것처럼 여러 개의 정답 후보(Candidate Answers)를 생성하고, 그 중 보상 모델이 높은 점수를 부여한 정답을 선택합니다. 이 때 보상 모델이 점수를 부여하고, 최종적으로 정답을 선택하는 방법은 여러 가지가 있는데, 그 중 몇 가지를 나열하면 Best-of-N 샘플링, 빔 서치(Beam Search), 트리 서치(Tree Search) 등이 있습니다. |
|
|
Best-of-N 샘플링은 가장 단순한 방법으로 여러 응답을 생성하고, 보상 모델이 부여한 점수가 가장 높은 응답을 선택합니다. 이 방식은 어떤 정답이 등장한 빈도(Frequency)보다 품질(Quality)만을 중요하게 생각한다는 특징이 있습니다.
빔 서치는 정답 공간(Solution Space)를 탐색하는 방식을 사용하는데, 이 때 사용하는 보상 모델을 특별히 Process Reward Model(PRM)이라고 합니다. LRM이 복잡한 문제를 풀 때 생성하는 추론 과정은 여러 추론 단계(Reasoning Step)로 구분할 수 있는데, 이때 PRM은 최종 정답 뿐만 아니라 각 추론 단계에도 점수를 부여합니다. 따라서 매번 점수가 높은 추론 단계를 따라가며 최종적으로 정답에 이르게 됩니다.
마지막으로 트리 서치는 빔 서치를 확장한 것으로, 최초의 추론 단계에 한해서는 보상 모델이 부여한 점수가 낮아도 버리지 않고 유지하는 방법을 사용합니다. 결과적으로 여러 개의 하위 트리(Subtree)가 생성되며 다양한 추론 경로를 생성할 수 있습니다. 이 방법은 보통 자원이 충분할 때 사용됩니다.
LRM과 PRM을 사용해서 복잡한 추론 문제를 푸는 과정을 하나의 그림으로 정리하면 아래와 같습니다. 어떤 문제가 주어지면 LLM이 여러 개의 중간 추론 단계를 생성하고, PRM이 각각의 단계에 대한 점수를 매깁니다. 그리고 그 점수에 따라 매번 적절한 추론 단계를 선택하면서 추론 경로를 확장합니다. 그리고 최종적으로 정답을 생성하면 추론 과정을 마칩니다.
|
|
|
Test Time Compute Scaling이라는 혁신적 트렌드와 함께, 본질적으로 LLM의 연장선상에 있던 기술이 LRM이라는 새로운 이름으로 주목받고 있습니다. 기존 LLM보다 획기적으로 향상된 추론 능력을 갖춘 LRM은 마침내 AGI(Artificial General Intelligence)로 가는 문을 열었다는 평가를 받고 있습니다.
미래학자 레이 커즈와일은 그의 저서 ‘특이점이 온다’에서 기술적 특이점에 도달하면 인공지능이 인간의 지능을 초월하고, 그 순간이 인류의 마지막 발명품이 탄생하는 시점이 될 것이라고 예언했습니다. 그리고 LRM은 인간이 해결해야 할 복잡한 문제들 앞에서 인간과 어깨를 나란히 할 정도의 성능을 자랑합니다. 과연 LRM은 인류가 만들어 낼 마지막 발명품이 될까요? 아니면, 우리가 마지막에 다다랐음을 알리는 카운트다운의 시작일까요? |
|
|
SNS를 팔로우하면 최신 소식을 가장 빠르게 확인하실 수 있습니다 😆 |
|
|
deep daiv.
manager@deepdaiv.com
|
|
|
|
|