언어 모델의 편집 ✂️

언어 모델의 편집에 대해 알아봅시다.

2024. 10. 29.

언어 모델의 편집 ✂️

이 메일이 잘 안보이시나요?

# 63 위클리 딥 다이브 | 2024년 10월 30일
에디터 잭잭

💡 이번주 뉴스레터에는 이런 내용을 담았어요!

언어 모델의 다양한 편집 기법을 알아봅니다.
편집 기법의 문제점을 이해합니다.
언어 모델의 편집 연구가 앞으로 어떻게 진행되어야 할 지 생각해봅니다.

✂️ 모델의 편집이란?

안녕하세요, 에디터 잭잭입니다.

오늘은 모델 편집에 대해서 알아보려고 해요. 언어 모델의 안전성과 정확성을 높이기 위해 RAG와 Knowledge Graph가 많이 사용되곤 하죠. 이 방법들은 기존 모델은 그대로 두고, 외부 데이터베이스에서 최신 정보를 검색함으로써, 정보의 정확성과 최신성을 유지할 수 있습니다. 그러나 이 방법은 추가적인 하드웨어나 예산이 필요하다는 문제점이 있어요. 이와 달리 외부 보조 장치가 아닌 모델 자체를 편집하는 방법을 모델 편집(Model Editing)이라고 해요. 모델 편집 기법들은 특정 작업이나 주제에 대해 모델의 내부 매개변수를 수정하므로, 모델의 성능을 직접적으로 향상시킬 수 있다는 것이 장점입니다.

오른쪽의 편집된 LLM은 최신 정보를 바탕으로 올바른 정답을 도출

출처: Should We Really Edit Language Models? On the Evaluation of Edited Language Models (Li and Liu, 2024)

모델 편집은 새로운 지식을 효율적으로 업데이트하거나 Task-specific 한 인공지능을 만드는데 효과적으로 사용될 수 있어요. 그러나 최근 연구에서는 이러한 편집 방법들이 지식 왜곡이나 충돌 등의 문제를 일으킬 수 있음을 지적하고 있습니다. 지식 왜곡이란 모델의 학습 과정에서 왜곡된 데이터가 사용되고, 이 내용이 그대로 출력에 반영되는 것입니다. 충돌은 같은 질문에 대해 일관성 없이 서로 다른 대답을 하는 현상을 말해요.

이러한 문제를 제외하고는, 편집 후 언어 모델의 일반적인(General) 능력에 대한 연구는 진행되지 않은 상황입니다. 일반적 능력이란 주로 세계 지식, 산술, 상식 추론, 독해, 안전성과 같이 기존의 언어 모델을 평가할 때 사용되는 평가지표를 의미해요. 이에 <Should We Really Edit Language Models? On the Evaluation of Edited Language Models> 의 연구진은 언어 모델의 일반적인 능력이 모델이 편집된 이후에도 유지되는지에 관한 실험을 진행합니다.

✂️ 프롬프트 엔지니어링? 파인튜닝? 모델 편집?

언어 모델의 성능을 높이기 위해 가장 많이 쓰는 방법을 꼽는다면, 위에서 언급한 RAG를 제외하고 프롬프트 엔지니어링과 파인튜닝이 가장 먼저 떠오르는데요. 여기에 모델 편집 기법까지 있다니 너무 복잡하다고 느껴지실 수 있습니다.

쉽게 말해서, 모델 편집은 ‘모델 편집은 언어 모델의 내부 매개변수, 구조, 지식 등을 조작하는 방법론’ 입니다. 매개변수를 어떻게 조작할 것이며, 구조를 어떻게 바꿀 것이고, 어떤 지식을 추가할지에 따라 모델 편집 기법이 달라집니다. 알아채셨을 수도 있겠지만, 모델 편집에는 다양한 기법들이 존재해요! 그렇다면 프롬프트 엔지니어링과 파인튜닝 중 어떤 것이 모델 편집 기법해 속할까요?

프롬프트 엔지니어링은 모델의 입력을 조정하여 출력을 개선하는 반면, 모델 편집은 모델 자체의 구조나 지식을 수정하여 성능을 향상시키는 것을 목표로 합니다. 즉 프롬프트 엔지니어링은 모델 편집 기법이 아니에요. 반면 파인튜닝은 모델 편집의 한 방법으로 볼 수 있습니다. 특정 성능을 개선하기 위해 파인튜닝 하면 모델 내부의 매개변수가 조작되기 때문이죠!

✂️ 언어 모델 편집 기법들

언어 모델에서는 파인 튜닝 외에도 편집 기법들이 존재해요. 크게 특정 지식을 수정하거나 삽입하는 방식과 파라미터를 직접 변형시키는 방식으로 나눌 수 있습니다.

가장 먼저 MEND(Model Editor Networks with Gradient Decomposition)는 메타 학습 기반 모델 편집 기법 중 가장 많이 언급되는 방법입니다. 메타 학습이란 ‘학습하는 방법을 학습’하는 과정으로, 새로운 작업이나 환경에 빠르게 적응할 수 있도록 모델을 훈련하는 방법이에요. MEND는 메타 학습을 통해 특정 정보만 빠르게 조정하도록 훈련된 네트워크로, 다른 지식에 미치는 영향을 최소화하여 모델의 안정성을 높일 수 있다는 장점이 있어요.

그다음으로는 ROME(Rank-One Model Editing) 기법인데요. 모델의 특정 위치를 식별한 후, 임베딩 벡터의 랭크-원(Rank-One) 변환을 이용해 지식을 효율적으로 편집합니다. 랭크-원 변환에 대해 더 알고 싶으시다면 <Locating and Editing Factual Associations in GPT> 논문을 참고해 주세요.

검색 기반 모델 편집의 대표적인 방법으로는 SERAC(Search-Augmented Editing by Retrieval And Contextualization)가 있습니다. 이 방법은 특이하게도 외부 검색 시스템과 결합하여 모델 내부의 지식베이스를 실시간으로 확장하고 보완합니다. 마치 RAG를 모델 편집 기법으로 사용한 것처럼 느껴지기도 하죠? 그래서 RAG와 유사하게 업데이트된 지식을 반영할 수 있다는 장점을 가지고 있어요. 그러나 모델 내부의 특정 지식을 편집하고 파라미터를 업데이트하기 때문에, RAG와 분명히 다릅니다.

다음으로 GRACE(Gradient-based Augmented Knowledge Editing)에요. 이 방법은 새로운 파라미터를 추가하여 기존 모델의 지식을 덮어쓰는 방식입니다. 기존 정보는 그대로 두면서 필요한 정보만 추가할 수 있는, 확장성이 좋다는 점이 특징이에요. 특히 편집 후에도 이전 지식을 병행하여 사용할 수 있는데 이 과정에서 충돌이 적게 일어난다는 점이 장점입니다.

마지막으로 PMET(Prompt-based Model Editing Technique)는 프롬프트를 기반으로 편집이 필요한 정보를 모델 내에서 식별하고, 특정 지식을 수정하는 방법입니다. 예를 들어, 사용자가 "이 모델의 역사적 사실을 업데이트해 줘"라고 입력할 경우, 모델은 "역사적 사실"이 어떤 부분을 지칭하는지 이해하고 해당 부분을 프롬프트를 통해 수정하는 방법이에요. 프롬프트를 통해 누구나 쉽게 편집할 수 있다는 장점을 가지고 있습니다.

위와 같은 모델 편집 기법들을 통해 업데이트된 지식은 일회성이 아니라 지속적으로 해당 지식을 유지하고, 이를 반영한 응답을 내놓아요. 더 다양한 모델 편집 기법들이 궁금하다면, <Editing Large Language Models: Problems, Methods, and Opportunities>을 읽어 보시는것을 추천드릴게요.

✂️ 모델을 편집하면 부작용은 없나요?

편집을 수천 번으로 확장할 경우 모델이 편집된 지식을 유지하지 못하는 모습

출처: Should We Really Edit Language Models? On the Evaluation of Edited Language Models (Li and Liu, 2024)

실험 결과, 현재의 편집 방법들로 수십 회 정도의 편집을 진행해도 모델의 기본 능력에 큰 영향을 미치지 않는 것으로 나타났습니다. 그러나 편집이 거의 백 회에 달하면 성능 저하가 진행되기 시작하고, 1만 번의 편집을 가했을 때, 모델의 내재된 지식 구조가 완전히 파괴되어 어떤 입력에 대해서도 빈 문자열을 출력하는 ‘음소거 효과(Muting Effect)’가 발생하는 문제점이 있었어요.

✂️ 가장 좋은 편집 방법은?

편집된 Llama2-chat-7B 모델의 성능 추세

출처: Should We Really Edit Language Models? On the Evaluation of Edited Language Models (Li and Liu, 2024)

위 결과에 따르면 PMET와 MEND가 모델의 능력을 가장 효과적으로 유지하고 있음을 확인할 수 있어요. 여섯가지의 기법은 그 방법에 따라 성능 변화 속도가 각기 다름을 알 수 있습니다. 따라서 모델을 편집할 때에는, 편집이 이루어질 횟수와 기존 모델의 특징을 고려하여 모델 편집 기법을 선정하는 것이 중요해요!

기존의 모델 편집 방법의 연구들은 LLM 내에서 다른 무관한 지식에 영향을 주지 않으면서 특정 지식을 업데이트할 수 있다고 주장합니다. 그러나 <Model editing can hurt general abilities of large language models>에 따르면, 모델 매개변수를 직접 수정하는 방법은 모델의 지식에 해로운 영향을 미쳐 모델의 환각 현상을 야기할 수 있다고 해요.

이러한 연구들은 현재의 편집 방법들이 언어 모델 내에서 소규모 지식 업데이트에만 적합함을 나타내며, 보다 실용적이고 신뢰할 수 있는 편집 방법에 대한 추가 연구의 필요성을 시사하고 있습니다.

언어 모델의 성능이 오를수록 사람들의 기대치가 높아지고, 사용 목적에 맞게 최적화하기 위한 방법론들이 많이 제시되고 있어요. 그러나 아직까지 '이렇게 하면 무조건이야!' 하는 방법을 찾지는 못한 것 같네요. 여러분들은 어떤 방법을 가장 선호하시나요❓ 🧐