데이터에 길이 있다

모델 연구의 한계에 지쳤을 땐 Data-Centric AI

2024. 6. 4.

데이터에 길이 있다

이 메일이 잘 안보이시나요?

# 42 위클리 딥 다이브 | 2024년 6월 5일
에디터 뱅뱅

💡 이번주 뉴스레터에는 이런 내용을 담았어요!

Data-Centric AI의 개념을 설명합니다.
좋은 데이터를 정의하고, 좋은 데이터를 활용하기 위한 방법론을 소개합니다.
Data-Centric AI의 현재 동향과 기대되는 미래를 전망합니다.

🎉 데이터에 길이 있다

안녕하세요, 에디터 뱅뱅입니다.

누구도 부정하지 못할 만큼 빠른 속도로 흘러가는 최근 딥러닝 연구 동향을 보고 있자니 떠오르는 말이 있습니다. ‘번갯불에 콩 볶아 먹는다’는 속담인데요. 행동이 민첩해서 어떤 일을 눈 깜짝할 새 해치우는 모습에 사용하는 표현입니다.

지난 뉴스레터에서 소개한 Llama 3가 나오고 2주 정도 지나니 금세 또 혁신적인 모델이 연달아 등장했습니다. 모두가 이미 알고 있을 그 이름, OpenAI의 GPT-4o, Google Deepmind의 Gemini 1.5를 예로 들 수 있겠습니다. 마치 작정이라도 한 듯 내로라하는 성능의 모델들이 단기간에 대거 공개되고 있죠. 그야말로 ‘번갯불에 콩 볶듯’ 성과가 나오고 있습니다. 하지만 그 ‘콩’들은 잘 볶아지고 있는 걸까요?

최근 한 기사에서는 많은 연구자들이 심화된 경쟁에 피로감을 호소하고 있다는 내용을 다루기도 했습니다. 그와 함께 나타나는 AI의 품질, 안전, 윤리 문제에 대해서도 지적했는데요. 지금이 리즈 시절이라고 할 만큼 놀라운 속도로 발전하고 있는 AI이지만, 그 연구 방식도 전성기인지는 확실히 답하기 어렵습니다. 정말 인간에게 이로운 AI를 위해서는 잠시 연구와 개발 방식을 점검해 볼 필요가 있겠습니다.

이렇게 모델을 누구보다 빠르게 개발하려는 경쟁이 나타난 배경에는 경쟁 기업의 모델이 달성한 벤치마크 점수를 뛰어넘는 성능을 보여주기 위해 아키텍처를 연구해 나가려는 패러다임이 있습니다. 그러나 혹자는 모델을 보완하는 것 외에도 집중해야 할 것이 있다고 이야기하는데요. 이번 뉴스레터에서는 모델 중심 개발의 보완책으로 제시되는 움직임 중 하나인 Data-Centric AI에 대해 소개하고, 그 방법론을 이야기해 보려고 합니다.

데이터 중심(Data-Centric) AI의 등장

AI 성능 향상을 떠올리면 우리는 너무 당연하게도 좋은 성능과 좋은 모델 개발을 연결 지어 생각합니다. 그렇다면 모델 아키텍처를 연구하는 것만이 AI 발전을 위한 최선의 방법일까요?

출처: A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, Youtube @DeepLearning AI

2021년 앤드류 응(Andrew Ng)이 진행한 온라인 세미나에서 언급했듯, AI는 코드와 데이터의 집합체입니다. 여기서 코드는 모델 아키텍처를 구현하는 도구이자 알고리즘을 나타냅니다. 그러나 코드만으로는 AI가 될 수 없습니다. AI가 완전해지기 위해 꼭 필요한 것이 바로 데이터죠. 세간에 발표되는 모든 AI는 코드에 데이터가 입력되어 학습을 거친 후 공개되는 것입니다.

그 말은, AI 성능 개선을 위해서는 모델에 대한 연구만이 아니라 데이터에 대한 연구도 이루어질 수 있다는 이야기이기도 합니다. 약 3년 전부터 데이터의 양과 질 개선 자체에 관심을 가지려는 연구 패러다임이 나타났는데요. 이름하여 Data-Centric AI입니다. 모델 구조를 개선하는 데 초점을 맞추는 Model-Centric AI와 대조되는 개념입니다.

앤드류 응은 Data-Centric AI의 예시로 철강 제조업의 불량품 탐지 AI 시스템 개발 프로젝트를 언급했습니다.

출처: A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, Youtube @DeepLearning AI

해당 예시에서, 모델을 선택하고 파라미터를 튜닝하는 Model-Centric AI 접근법으로는 정확도를 거의 변화시킬 수 없었습니다. 대신 훈련, 검증 데이터셋을 전처리하고 오염 레이블 제거하는 데 더욱 초점을 맞춘 Data-Centric AI 접근법을 통해서는 예측 정확도를 17%p가량 개선했습니다. 모델의 구조에 손을 대기보다는 데이터를 훈련에 용이하게 처리한 후 학습시킨 모델이 더 우수했음을 볼 수 있습니다. Model-Centric AI와 비교해 Data-Centric AI가 보여주는 놀라운 성능 차이입니다.

빅데이터보다 ‘굿데이터’

결국 Data-Centric AI 분야의 목표를 간단히 표현하자면 학습과 평가에 사용되는 데이터를 더 좋은 데이터로 만드는 일입니다. 데이터가 좋다는 게 무슨 말인지 사실은 막연하기만 한데요. 데이터 분석을 경험해 본 사람에게는 쉽게 와 닿을 수 있는 예시가 있습니다. 바로 전처리한 데이터입니다. 단순한 분석이든 머신러닝 모델을 활용한 분석이든, 데이터의 결측치나 이상치를 제거함에 따라 분석 결과가 명확해지고 성능이 개선되는 것을 목격한 경험이 있을 것입니다.

더 나아가 전통적인 머신러닝 모델에서의 특성 공학도 빼놓을 수 없는 방법입니다. 예를 들어, 축구 선수의 능력치를 기반으로 포지션 분류를 진행하는 문제 상황을 생각해 봅시다. 주어진 선수들의 능력치(슛, 패스, 드리블, 수비 등과 관련된 능력치)를 바탕으로 분류했을 때는 정확도 67%의 모델이 학습되었습니다. 이때 잘못 분류된 경우 중에는 왼쪽, 오른쪽, 센터 포지션이 구분되지 않은 경우가 다수 포함되어 있습니다. 이에 따라 선수들이 주로 사용하는 발 정보도 함께 학습 데이터에 포함하니 약 6%의 정확도가 상승하여 73%의 성능을 이룬 모델을 구축할 수 있었습니다.

전처리 이전 예측에 실패했으나 전처리 이후 예측을 잘 수행한 경우. 왼쪽 오른쪽 포지션을 더 정확하게 분류하여 예측할 수 있음을 확인할 수 있습니다.

그 결과 위 표의 결과처럼 왼발, 오른발을 잘못 예측한 경우에 대해 보완할 수 있었습니다. 즉, 필요한 특성을 추가한 새로운 학습 데이터를 이용함으로써 실제 데이터에 더 가깝게 예측할 수 있는 성능을 얻게 된 것입니다.

결국 좋은 데이터의 핵심은 현실 세계의 원리와 최대한 유사한 정보를 나타낼 수 있는가입니다. 이를 통해 벤치마크에서뿐만 아니라 실생활에 적용되었을 때도 일관성 있게 좋은 성능을 낼 수 있도록 하는 것이 Data-Centric AI의 지향점이라고 할 수 있습니다.

그렇다면 좋은 데이터는 어떻게 얻을 수 있을까요? 논문 <Data-centric Artificial Intelligence: A Survey>에서는 작년 6월 발표 시점까지 논의되어 온 Data-Centric AI 구현 방법을 정리하였습니다.

출처: Data-centric Artificial Intelligence: A Survey (Zha et al., 2023)

굉장히 다양한 방법론이 제시되었는데요. 크게는 훈련 데이터 개발, 추론(평가) 데이터 개발, 데이터 유지 및 보수의 세 가지 목표로 구분되었습니다. 이 세 가지 목표의 대표적인 방법론들을 각각 살펴보겠습니다.

훈련 데이터 개발에서는 말 그대로 훈련에 사용할 데이터를 처리하는 것에 집중합니다. 문제 상황에 대표성을 띠는 데이터를 찾고 여러 데이터를 병합하는 일을 포함하여 다양한 방법을 적용할 수 있는데요. 심지어는 데이터를 생성하는 것도 포함됩니다. Meta의 마크 주커버그도 부족한 데이터 문제 해결을 위한 방법으로 정교한 데이터와 데이터 합성을 언급했습니다.

이외에도 앞서 위에서 축구 선수 분류 예시로 언급한 특성 선택, 인간의 피드백이나 지식을 반영하는 데이터 라벨링, 차원의 저주를 해결하기 위해 차원을 축소하는 특성 추출 및 변형과 같은 방법이 있습니다. 최근에는 데이터를 처리하는 최적의 파이프라인을 라이브러리에서 제공하기도 합니다.

📖 차원의 저주(Curse of Dimensionality)란?

우리는 어떤 선택을 할 때 여러 정보를 종합적으로 고려해 판단합니다. 예를 들어 집을 구하는 과정에서는 집의 위치, 교통편, 주거 면적을 고려할 수 있습니다. 이외에도, 가격, 지원받을 수 있는 정책, 대출 가능 여부, 부대 시설과 같이 여러 조건을 떠올릴 수 있는데요. 이런 조건이 많으면 좋을 것 같지만 많아질수록 결정을 내리기는 어려워집니다.

이처럼 AI 모델에서도 변수의 개수, 즉 차원이 커질수록 모델의 성능이 저하되는 현상이 나타나는데, 이를 차원의 저주라고 합니다. 그 이유는 차원이 증가함에 따라 커지는 공간의 부피와 관련이 있는데요. 공간의 부피가 커지면 데이터 간 거리가 멀어지기 때문입니다. 그 결과 데이터들 사이의 관계를 연결 짓고 추론하는 것이 힘들어지게 됩니다.

추론 데이터 개발에서는 훈련된 모델을 평가하거나 특정 기능에 특화되도록 만드는 데이터를 다루는 방법을 제시합니다.

데이터 슬라이싱은 평가 데이터를 기준에 따라 나누어 각각의 그룹에 대해 평가를 진행하는 방법입니다. 이를 통해 어떤 그룹에서 편향과 오류가 발생하는지 더 쉽게 파악할 수 있습니다. 또, 주어진 훈련 데이터와 다른 분포의 평가 데이터를 준비하는 방법이 있습니다. 훈련 데이터로 학습된 모델에 일종의 공격을 가하는 것인데요. 일부 데이터에 노이즈를 합성하거나 아예 다른 데이터를 제시하여 모델이 더욱 강건해지도록 합니다. 예측할 수 없는 노이즈가 가득한 현실 세계의 데이터와 유사한 환경에서도 예측을 잘 수행하도록 하는 것입니다.

데이터 유지 및 보수는 위 두 가지 방법과 다르게 훈련 과정 전후로 데이터를 관리하는 방법을 포함하고 있습니다. 데이터가 훈련 또는 평가에 쓰이기 이전과 이후로 품질을 검증하는 것인데요. 현실 세계의 데이터는 시간이 흐름에 따라 조금씩 바뀌어 가는 특성을 가지고 있기 때문에 데이터 이용 시 적절한 데이터셋인지 꼼꼼히 확인하는 것이 중요합니다.

이를 위해서는 데이터 시각화 및 평가를 통해 데이터의 변화를 감지하고 품질을 유지합니다. 데이터 평가에서는 각 요소가 결과에 미치는 영향을 수치로 나타낸 Shapley 값으로 어떤 데이터 포인트가 성능에 영향을 미쳤는지를 분석합니다. 이 정보를 데이터를 사고파는 의사결정에도 반영하여 최적의 데이터셋을 마련하는 데 도움이 됩니다.

데이터를 이용하기 전에 데이터 자체의 정확도, 시간성, 완전성 및 신뢰도, 이해도, 접근성 등을 파악하는 것도 매우 중요합니다. 그러나 이는 특정한 기준이 정해져 있지 않아 직관적이지는 않으며 도메인 지식을 바탕으로 이루어져야 한다는 어려움이 있습니다. 이외에도 하드웨어에 데이터를 저장하고 복구하는 시스템 방식도 데이터 처리 속도와 관련되어 논의되고 있습니다.

미처 소개하지 못한 세부적인 방법론이 다양하게 존재하고 있는데요. 이처럼 Data-Centric AI 접근법에서는 전처리 이상으로 데이터를 다루고 있습니다. 여기서 중요하게 기억할 사실은 이 과정 중 일부에서 인간의 손길이 꼭 필요하다는 것입니다. 예를 들어, 데이터 라벨링, 특성 추출과 데이터 시각화를 통한 의사결정에서는 어떤 것이 필요한 정보인지에 대한 사람의 통찰력과 판단이 개입될 필요가 있습니다. 더 정확히는 전문가의 손길이 필요한 것입니다. 좋은 데이터를 위해서는 전문 지식을 갖추고 데이터를 이해할 수 있는 능력이 필수적입니다. 그 능력을 바탕으로 데이터에 숨어 있는 가치를 찾아내고 이를 효율적으로 활용할 수 있도록 만드는 것이 Data-Centric AI의 정수가 될 것입니다.

Data-Centric AI의 현재와 미래

Data-Centric AI는 하나의 연구 분야로 자리 잡을 만큼 국제적으로도 많은 논의가 이루어지고 있는 분야입니다. 2023년 국제머신러닝학회(International Conference on Machine Learning, ICML 2023)에서는 데이터 중심 기계학습 연구 워크숍(Data-Centric Machine Learning Research (DMLR) Workshop)이 하나의 부문을 차지하기도 했습니다. 글로벌 데이터 중심 연구 커뮤니티가 확장되고 있는 것을 여실히 알 수 있습니다.

또한, Microsoft가 지난 4월 발표한 SLM Phi-3의 모태격인 Phi-1은 성공적인 Data-Centric AI의 가능성을 보여줍니다. Phi-1의 논문 <Textbooks Are All You Need>(Microsoft Research, 2023)에 따르면, 해당 모델은 교과서 수준으로 정교한 웹 데이터와 LLM이 합성한 데이터로 학습되었습니다. 이후 Phi-3까지 발전하는 동안 학습 데이터를 더욱 최적화하며 모델을 경량화하였는데요. 그렇기 때문에 온디바이스 AI라는 또 다른 연구 주제에 청신호를 던지기도 하였습니다.

당시 출시된 코딩 LLM들과 phi-1 모델의 벤치마크 성능을 비교하여 나타낸 표입니다. 경량화된 모델인 phi-1-small 모델의 경우에도 타 모델보다 높은 HumanEval 정확도를 기록하였습니다.

출처: Textbooks Are All You Need (Microsoft Research, 2023)

AI를 어떻게 연구해 나갈 것인가에 대한 고민이 이처럼 기술적인 문제와도 직결되는 것인데요. 그뿐만 아니라 AI 시장의 경쟁, 연구자의 노동 윤리에 이르러 생각지도 못한 다양한 분야에 광범위한 영향을 미칠 것이라고 예상됩니다. 그야말로 꾸준히 토론과 논의가 필요한 주제입니다.

앞으로 공개되는 AI 모델의 구조가 비슷하게 정교해질수록 혁신적인 모델이라는 선전보다는 실제 사용 시에 얼마나 실용성이 있는가가 AI 산업의 성과를 좌우할 것입니다. 여기서 실용성을 논하려면 인간처럼 세계를 이해하도록 하는 학습 가중치를 얼마나 성공적으로 끌어낼 수 있었는지를 파악해야 합니다. 다시 말해, 그것이 가능하도록 굿데이터로 학습했는가 하는 질문으로부터 출발해야 할 것입니다.

고민 끝에 정제된 양질의 데이터는 AI가 인간과 더욱 유사하게 세계를 바라볼 수 있는 존재로 만들 수 있는 중요한 초석이 될 텐데요. Data-Centric AI의 관점에서도 인간과 인간의 도메인 지식은 인간처럼 사고할 수 있는 AGI 발전에 막중한 임무를 지고 있다고 할 수 있습니다.

한편, Data-Centric AI와 Model-Centric AI가 양립 불가능한 개념은 아닙니다. 두 연구 패러다임이 적절히 융화된 분위기 속에서 인간 전문가와 AI의 공존, AI의 질적인 발전, 두 마리 토끼를 동시에 잡을 수 있는 AI 생태계가 만들어지길 기대해 보고 싶습니다. 이런 논의와 흐름도 ‘번갯불에 콩 볶듯이’ 이루어질 수 있기를 바라는데요. 그때 나타날 AI의 모습은 과연 인간에게 얼마나 유의미할까요?

SNS를 팔로우하면
최신 소식을 가장 빠르게 확인하실 수 있습니다 😆

deep daiv.

manager@deepdaiv.com

수신거부 Unsubscribe

Weekly deep daiv.를구독하고 이메일로 받아보세요

deep daiv.에서 AI 트렌드를 전달합니다.

집중력 잃은 AI, 정신 차리게 만드는 법

2024. 6. 11.

Weekly deep daiv.

deep daiv.에서 AI 트렌드를 전달합니다.