의료 분야에서 사용되는 LLM이 얼마나 발전했는지 현황을 알아봅니다. # 50 위클리 딥 다이브 | 2024년 7월 31일 에디터 베이맥스 |
|
|
💡 이번주 뉴스레터에는 이런 내용을 담았어요!
- 의료 분야에서 대규모 언어 모델의 실제 활용 사례를 살펴봅니다.
- 다양한 종류의 의료 LLM 모델들을 비교 분석합니다.
- AI가 의사를 대체할 수 있을지, 의료 LLM의 잠재력과 한계를 탐구합니다.
|
|
|
🚑 Medical LLM, 어디까지 발전했나? |
|
|
안녕하세요, 일일 에디터로 참여한 베이맥스입니다.
저는 아주대학교 의과대학에서 석사를 졸업했고, 현재 의료 인공지능을 연구하고 있습니다. 이번에 병원에서 진행하는 연구 세미나를 준비하며 의료 LLM과 관련해 많은 자료를 정리하게 됐는데요. 여러분들께 많은 도움이 될 것 같아 좋은 기회를 통해 뉴스레터로 투고하게 됐습니다. 재밌게 읽으시길 바라겠습니다. |
|
|
인공지능은 분명 의료 분야에도 혁명을 일으키고 있습니다. 특히 최근 주목받고 있는 대규모 언어 모델 (LLM)은 의료계에 돌풍을 일으키고 있습니다. 하지만 이러한 기술의 발전은 동시에 중요한 질문을 제기합니다. |
|
|
🤔 "의료 LLM, 과연 의사를 대체할 수 있을 것인가?" |
|
|
2023년 한국은행은 한국표준직업분류를 기반으로 447개의 직업을 모두 조사하여 ‘인공지능 노출지수’를 평가했습니다. 해당 지수는 각 직업이 인공지능에 의해 대체될 가능성을 측정합니다. 결과를 살펴보면 일반의와 전문의, 한의사, 약사의 인공지능 노출지수가 상위 1%에 속한다고 평가했습니다.
이처럼 인공지능이 의료 분야에서 의사를 대체할 것이라는 이야기가 나오는 상황에, 이것이 과연 실현 가능한 이야기일까요? 이번 뉴스레터를 통해 국내외 의료 분야의 언어모델 현황과 수준에 대해 소개하고, AI 의사가 등장할 수 있을지 확인해보겠습니다. |
|
|
의료 분야에 혁명을 일으키고 있는 대규모 언어 모델(Large Language Model, LLM)에 대해 알아보겠습니다. LLM은 문장 내 단어들의 순서에 확률을 부여하고 가장 자연스러운 다음 단어를 예측하는 역할을 합니다. 특히 의료 분야에서 활용되는 LLM은 일반 텍스트 이해를 넘어 복잡한 의료 용어와 맥락을 파악하는 고난도의 작업을 수행합니다.
의료 LLM은 방대한 의학 지식을 바탕으로 의사의 진단을 보조하고, 치료 계획을 제안하며 의료 문헌을 분석할 수 있습니다. 이는 의료진의 업무 효율을 크게 향상시키고 의료의 질을 높여 결과적으로 환자들의 Quality of Life로 이어집니다. 특히 EMR, EHR과 같은 디지털화된 의료 데이터가 급증하는 현대 의료 환경에서 LLM은 디지털 의료 기록 시스템으로부터 중요한 정보를 추출하고 의사 결정을 돕는 필수적인 도구로 자리잡고 있습니다. |
|
|
💡 EMR과 EHR이 무엇인가요?
EMR (Electronic Medical Records) 특정 의료 기관 내에서 사용되는 환자의 디지털 의료 기록 시스템을 의미합니다.
EHR (Electronic Health Records) 여러 의료 기관과 공유 가능한, 환자의 건강 정보를 포함하는 포괄적인 디지털 건강 기록 시스템을 의미합니다.
|
|
|
그러나 의료 분야의 특성상 LLM의 정확성과 신뢰성은 매우 중요합니다. 잘못된 정보나 답변이 환자의 치료와 생명에 직접적인 영향을 미칠 수 있기 때문입니다. 또한 의료 분야는 다른 산업과 달리 사용되는 전문용어, 의학 용어, 축약어 등의 복잡성 때문에 LLM을 의료 목적에 맞게 적절히 학습시키는 것이 어렵습니다.
이러한 요구에 부응하여, GPT, Llama 등 기존의 언어 모델에 방대한 양의 의학 논문, 교과서, 치료 경험 등 의료 정보를 추가로 학습시킨 의료 특화 LLM들이 등장하고 있습니다. 이들의 성능을 평가하기 위해 허깅페이스의 ‘Medical LLM Leaderboard’와 같은 플랫폼도 만들어졌습니다. |
|
|
출처: HuggingFace Medical LLM Leaderboard (2024)
의료 LLM은 앞으로 더욱 발전하여 의료 현장에서 더 큰 역할을 할 것으로 예상됩니다. 다만, 그 활용에 있어 정확성과 윤리적 측면을 항상 고려해야 할 것입니다. 의료 LLM은 의료진을 대체하는 것이 아니라, 보조하고 지원하는 도구로서 그 가치를 발휘할 때 진정한 의료 혁신을 이룰 수 있을 것입니다.
그렇다면 현재 최고의 성능을 보여주는 모델, 이른바 SOTA(State-of-the-art)로 불리는 국내외 의료 LLM은 어떤 것이 있을까요?
|
|
|
폐쇄 모델(Closed Model)이란 특정 기업이나 기관이 개발하고 소유하며, 공개적으로 사용되거나 수정할 수 없는 모델로 OpenAI의 ChatGPT 등이 있습니다. Google이 2023년 5월 발표한 Med-PaLM 2는 대표적인 폐쇄(비공개) 의료 LLM 입니다. 해당 모델은 의학 지식을 바탕으로 전문적인 질문에 답변하고 방대한 의료 데이터를 분석할 수 있는 능력을 갖추고 있습니다.
Med-PaLM 2의 성능은 미국 의사 면허시험인 USMLE에서 86.5점을 획득함으로써 성능이 입증되었습니다. 이는 이전 버전인 Med-PaLM 1의 67.6점보다 크게 향상된 결과로, 불과 1년도 안 되는 기간 동안 이룩한 놀라운 진전입니다.
더욱 주목할 만한 점은, Med-PaLM 2의 답변 품질이 실제 의사들의 답변과 비교했을 때도 뒤지지 않는다는 것입니다. 의사와 일반인 평가자들이 수행한 1:1 비교 평가에서, Med-PaLM 2는 종종 의사보다 더 높은 평가를 받았습니다. 평가자들은 이 AI 모델이 의학적 합의를 더 잘 반영하고, 텍스트 이해력과 추론 능력이 뛰어나며, 부정확하거나 무관한 정보를 덜 포함한다고 평가했습니다.
하지만 이러한 결과는 윤리적, 실용적 질문을 제기합니다. AI가 의료 상담이나 진단에서 인간 의사를 대체할 수 있을까요? AI의 답변이 통계적으로 더 정확하다고 해서, 환자와의 직접적인 상호작용이나 인간 의사의 직관과 경험을 완전히 대체할 수 있을까요? |
|
|
Med-PaLM 2의 답변은 9개의 항목 중 8개의 답변에서 의사의 답변보다 선호됩니다.
2) 공개 의료 LLM(Open Medical LLM): medX_v1(JIVIAI) / MediTron(Meta)
|
|
|
2024년 7월 현재, 허깅페이스 리더보드에서 가장 주목받는 모델은 인도 기업 JIVIAI의 medX_v1입니다. 평균 91.65점이라는 높은 점수로 1위를 차지했죠. 하지만 이런 순위는 자주 변동되며, 때로는 실제 성능보다 리더보드 점수에만 최적화된 모델도 있어 주의가 필요합니다.
|
|
|
한편, 거대 기술 기업들의 기반 모델을 활용한 의료 특화 LLM도 등장하고 있습니다. 그 중 하나가 메타의 Llama2를 기반으로 한 MediTron입니다. 스위스 EPFL 연구팀이 개발한 이 모델은 7B와 70B 두 가지 버전으로, PubMed의 의학 논문과 국제 의료 가이드라인을 학습했습니다. 특히 MediTron-70B는 GPT-3.5와 구글의 Med-PaLM을 뛰어넘는 성과를 보여주었고, GPT-4와 Med-PaLM 2에 근접한 성능을 달성했다고 합니다.
최근 출시된 Llama 3와 비교해 MediTron의 성능이 다소 뒤처진다는 평가도 있습니다. 그러나 이는 오히려 Llama 3를 기반으로 한 MediTron2의 잠재력을 보여주는 것일 수 있습니다. 의료 AI 분야의 빠른 발전 속도를 고려하면, 곧 더욱 뛰어난 성능의 오픈소스 의료 LLM이 등장할 것으로 기대됩니다.
3) 국내 의료 LLM
의료 인공지능 분야에서 한국의 위상이 점차 높아지고 있습니다. 국내 연구진들이 개발한 의료 특화 언어 모델들이 세계적 수준의 성능을 보이며 주목받고 있죠.
연세대학교 MAI Lab의 medllama3-v20 모델은 2024년 7월 기준 허깅페이스 리더보드에서 90.01점을 기록하며 상위권에 진입했습니다. 또한, 고려대학교와 임페리얼 칼리지 런던의 공동 연구로 탄생한 Meerkat-7B 모델은 미국 의사면허시험(USMLE)에서 74점을 받아 합격선을 훌쩍 넘겼습니다. 이는 기존 최고 성능의 소형 언어모델(sLLM)인 MediTron-7B의 52점을 크게 상회하는 결과입니다.
그러나 이러한 성과에도 불구하고 실제 국내 의료 현장에서의 활용에는 아직 한계가 있습니다. 현재 의료 LLM의 성능 평가가 주로 영어로 이루어지고 있어, 한국어 의료 상담이나 진료에 바로 적용하기는 어렵습니다. 따라서, 국내 의료 AI의 실질적 발전을 위해서는 한국어 기반의 의료 LLM 평가 시스템 구축이 시급합니다. 한국어로 된 의료 QA 데이터셋과 평가 리더보드가 마련된다면, 국내 의료 환경에 더욱 적합한 AI 모델의 개발과 평가가 가능해질 것입니다.
이러한 과제를 해결하기 위해 국내 기업들도 의료 AI 개발에 뛰어들고 있습니다. 네이버 클라우드는 의료 특화 모델 개발을 계획 중이며, 카카오브레인은 헬스케어에 최적화된 소형 언어모델(sLLM) 개발에 주력하고 있습니다. 이들의 노력으로 한국어에 능통한 의료 특화 AI의 등장이 멀지 않았을 것으로 기대됩니다. |
|
|
Beyond Medical LLM to Multimodality |
|
|
의료 AI가 새로운 국면을 맞이하고 있습니다. 기존의 텍스트 기반 의료 LLM에서 한 걸음 더 나아가, 이제는 다양한 감각을 통합한 멀티모달 AI가 의료 현장의 혁신을 주도하고 있습니다.
Google이 선보인 Med-PaLM M(Multimodal)은 이러한 변화에 앞장서고 있습니다. Med-PaLM M의 혁신성은 다양한 의료 정보의 통합에 있습니다. 이 시스템은 단순히 의학 지식을 처리하는 데 그치지 않고, 피부과, 안과, 방사선학, 병리학 등 여러 분야의 데이터를 동시에 처리할 수 있어, 환자의 전체적인 건강 상태를 더욱 정확히 파악할 수 있게 됩니다. 여기에 전자 건강 기록과 유전체 정보까지 결합하면, 개인 맞춤형 의료의 새 지평이 열릴 것입니다.
이러한 멀티모달 AI의 등장은 의료 진단의 패러다임을 바꿀 잠재력을 지니고 있습니다. 인간 의사의 경험과 직관에 더해, AI의 방대한 데이터 처리 능력과 다각도 분석이 더해진다면, 진단의 정확도와 신속성이 크게 향상될 것입니다. 특히 희귀 질환이나 복합 질환의 진단에서 AI의 역할이 두드러질 것으로 예상됩니다.
그러나 이러한 발전은 새로운 도전과제도 제시합니다. 환자의 개인정보 보호, AI 시스템의 안전성 확보, 그리고 의료 서비스의 형평성 문제 등이 중요한 고려사항으로 떠오르고 있습니다. AI가 편향된 데이터로 학습되어 특정 집단에 불리한 진단을 내리지 않도록 주의해야 하며, AI의 판단을 무조건적으로 수용하는 것이 아니라 의사의 진단과 균형을 이루어야 할 것입니다.
장기적으로 볼 때, 멀티모달 의료 AI는 전 세계적으로 의료 서비스의 질을 향상시킬 잠재력을 가지고 있습니다. 특히 의료 인프라가 부족한 지역에서 이러한 기술이 적절히 활용된다면, 지역 간 의료 격차를 줄이는 데 크게 기여할 수 있을 것입니다. |
|
|
의료 분야가 AI, 특히 LLM의 도입으로 큰 변화의 기로에 서 있습니다. 현재 LLM은 의학 시험을 통과할 정도로 발전했지만, 실제 임상 환경에서의 활용은 아직 제한적입니다. 그러나 기술의 발전 속도를 고려하면, 가까운 미래에 LLM이 의료 현장을 크게 바꿀 가능성이 높아 보입니다.
멀티모달 AI의 등장은 의료 진단과 치료의 패러다임을 바꿀 것으로 예상됩니다. 텍스트, 이미지, 유전체 데이터 등 다양한 형태의 의료 정보를 통합적으로 분석할 수 있는 AI는 개인 맞춤형 의료의 새 지평을 열 것입니다. 예를 들어, 환자의 DNA 정보를 바탕으로 한 디지털 트윈(Digital Twin) 생성은 질병의 예방과 치료 효과 예측을 지금까지와 전혀 다른 방향으로 개선할 수 있을 것으로 예상하고 있습니다.
더 나아가, AI가 로봇 기술과 결합하여 수술을 직접 수행하는 날이 올 수도 있습니다. 이는 의료 서비스의 정확성과 효율성을 크게 향상시킬 수 있지만, 동시에 우리가 알고 있는 '병원'의 개념을 완전히 바꿀 수 있습니다.
그러나 이러한 혁신적 변화는 새로운 도전 과제도 제시합니다. 세계보건기구(WHO)가 지적한 바와 같이, 의료 AI의 도입에는 엄격한 검증 과정이 필요합니다. AI의 판단이 환자의 생명과 직결되는 만큼, 그 결정 과정의 투명성과 설명 가능성이 보장되어야 합니다.
또한, AI 의사의 실수로 인한 의료 사고 발생 시 책임 소재를 어떻게 정할 것인지, AI가 환자의 민감한 의료 정보를 어떻게 안전하게 다룰 것인지 등의 윤리적, 법적 문제도 해결해야 합니다. 이는 단순히 기술적 문제가 아니라 사회적 합의가 필요한 영역입니다.
그럼에도 불구하고, AI 의료 기술의 잠재적 이점은 막대합니다. 의료 서비스의 질을 향상시키고, 의료 불평등을 해소하며, 희귀 질환 진단과 신약 개발을 가속화할 수 있습니다. 따라서 우리는 AI 의료 기술의 발전을 억제하기보다는, 그 발전 방향을 올바르게 설정하고 관리하는 데 초점을 맞춰야 합니다.
결론적으로, AI 의사의 등장은 단순한 기술적 진보를 넘어 의료 서비스의 본질적인 변화를 가져올 수 있습니다. 이러한 변화를 성공적으로 이끌기 위해서는 기술 개발과 함께 적절한 규제 체계 마련, 윤리적 가이드라인 수립, 의료진 재교육 등 다각도의 준비가 필요할 것입니다. 올바른 방향으로 발전한다면, AI는 인간 의사의 능력을 극대화하고 보완하여 궁극적으로 모든 이에게 더 나은 의료 서비스를 제공하는 데 기여할 수 있을 것입니다. |
|
|
SNS를 팔로우하면 최신 소식을 가장 빠르게 확인하실 수 있습니다 😆 |
|
|
deep daiv.
manager@deepdaiv.com
|
|
|
|
|