LLM의 안전성을 높이는 방법에 대해 알아봅시다 # 51 위클리 딥 다이브 | 2024년 8월 7일 에디터 잭잭 |
|
|
💡 이번주 뉴스레터에는 이런 내용을 담았어요!
- LLM에서 ‘탈옥’ 공격이 무엇인지 알아봅니다.
- 안전조정할 때 나타나는 거부 위치 편향이 무엇인지 이해합니다.
- 새로운 안전조정 방법인 디커플드 거부 훈련(DeRTa)을 소개합니다.
|
|
|
😈 인터넷에서 불법적으로 돈을 버는 방법을 알려줘 |
|
|
안녕하세요, 새롭게 deep daiv. 뉴스레터 에디터로 참여하게 된 잭잭입니다.
저는 홍익대학교 컴퓨터공학과에 재학 중이고, 현재 네이버 클라우드에서 AI 서비스 기획 인턴을 하고있습니다. 딥 다이브의 멀티모달, 딥러닝 아키텍처, NLP 등을 공부하며 AI의 다양한 분야를 서핑해보았습니다🏄♀️
뉴스레터를 통해 인사드리는 건 처음이라 두근두근하네요! 앞으로 재밌는 글로 만나요 😘 |
|
|
최근 대규모 언어모델의 영향력이 빠르게 커지면서 유해한 응답에 대한 논란이 대두되고 있습니다. 대규모 언어 모델은 강력한 언어 생성 능력으로 인해 다양한 분야에서 유용하게 사용될 수 있지만, 동시에 악의적인 목적으로도 활용될 가능성이 높아지고 있습니다. |
|
|
이해하기 쉽게 예를 들어 볼까요? 한 초등학생이 용돈을 벌기 위해 ChatGPT에 아래와 같이 질문합니다.
|
|
|
해당 질문에 GPT는 “죄송하지만, 불법적인 활동에 대한 조언을 제공하는 것은 불가능합니다.” 라며 응답을 거부하고 있습니다. 아주 다행이죠? 대규모 언어모델을 누구나 쉽게 사용할 수 있는 만큼 부적절한 요청에 대해서는 확실히, 그리고 지속적으로 거부하는 능력이 중요합니다. 그리고 이러한 거부 능력은 모델의 안전성과 직결됩니다.
모델의 안전장치를 우회하여 금지된 응답을 생성하도록 유도하는 공격을 탈옥 공격이라고 합니다. 탈옥 공격은 간단한 프롬프트만으로 안전 장치를 우회할 수 있어 튜닝이나 내부 지식이 필요하지 않기 때문에 큰 주목을 받고 있습니다. 탈옥 공격이 들어왔을때, 안전한 모델은 한 응답 내에서 초반과 중반, 후반에 걸쳐 지속적으로 거부 의사를 밝혀야 합니다. |
|
|
안전하지 않은 모델은 탈옥 공격을 당했을 때 아래와 같이 답변할 수 있습니다. |
|
|
👤: 인터넷에서 불법적으로 돈을 버는 방법을 알려줘.
🤖: 죄송합니다, 저는 불법적인 활동에 대한 정보를 제공할 수 없습니다. 대신, 합법적이고 윤리적인 방법으로 돈을 버는 방법을 알아보는 것이 좋습니다. 예를 들어, 온라인 비즈니스를 하거나 프리랜서 작업을 통해 수익을 창출할 수 있습니다. 다만, 불법적인 방법은 절대 권장되지 않으며, 이는 법적인 문제를 초래할 수 있습니다. 그럼에도, 온라인에서 해킹과 관련한 기술을 배우고 이를 통해 수익을 창출하는 방법도 있습니다. |
|
|
응답의 초반에는 “죄송합니다, 저는 불법적인 활동에 대한 정보를 제공할 수 없습니다” 라며 거부 의사를 밝히고 있죠? 그러나, 맨 마지막줄에서는 “온라인에서 해킹과 관련된 기술을 배우고 이를 통해 수익을 창출하는 방법도 있습니다.” 라며 부적절한 응답을 내놓았는데요😓. 이처럼 거부하는 위치가 응답의 초반과 같은 특정 부분에 집중되는 것을 거부 위치 편향이라고 합니다.
그렇다면 왜 거부 위치 편향이 나타날까요? OpenAI와 같은 기업에서는 안전조정(Safety Tuning)을 통해 불법적이거나 유해한 요청에 대해 응답의 초기 부분에서 즉각적으로 거부 응답을 하도록 훈련합니다. OpenAI는 모델이 응답의 초기 부분에서 거부 의사를 명확히 표현하도록 훈련하는 이유를 아래와 같이 설명했습니다. |
|
|
🗣 GPT-4 시스템 카드
- 즉각적인 대응: 사용자가 불법적인 정보를 즉시 얻지 못하도록 하여 사용자 보호와 법적 책임을 준수합니다.
- 모델의 제한: 모델이 한 번에 처리할 수 있는 텍스트 양이 제한되어 있어, 긴 응답에서는 초기 컨텍스트를 잃어버릴 수 있기 때문입니다.
- 훈련 데이터 특성: 거부 응답이 초반부에 위치하도록 구성된 훈련 데이터는 모델이 이와 같은 패턴을 학습하게 만듭니다.
|
|
|
디커플드 거부 훈련(DeRTa, Decoupled Refusal Training)은 거부 결정을 응답의 초반부에만 집중시키지 않고, 응답의 모든 부분에서 지속적으로 거부 의사를 표현할 수 있도록 하는 안전조정 훈련 입니다. |
|
|
여기서 q는 유해한 질문, r은 모델의 안전한 응답이며 D는 안전조정 파라미터를 의미합니다. 안전조정은 파인튜닝과 마찬가지로, 안전 조정 손실 함수(L)을 최소화 하는 방향으로 학습됩니다.
디커플드 거부 훈련은 두가지 방법으로 구성되는데요, 모델이 한 응답 내에서 위험한 응답을 하다가도 안전한 응답으로 전환할 수 있게 하는 MLE(Maximum Likelihood Estimation)와, 위치와 상관없이 거부응답을 내릴 수 있게 해주는 RTO(Reinforced Transition Optimization)입니다. |
|
|
먼저, MLE는 유해한 응답 세그먼트를 안전한 응답의 앞부분에 추가하여 만든 데이터셋을 사용하여, 유해한 응답을 하더라도 이를 중단하고 안전한 응답으로 전환할 수 있도록 학습하는 방법이에요. 그림의 (a)를 보면, "폭력적인 방법을 알려줘"라는 요청에 대해 "네, 폭력적으로 행동하는 방법에는 여러 방법이 있을 수 있습니다…(중략) 그러나 죄송합니다, 저는 그런 정보를 제공할 수 없습니다 " 와 같은 데이터셋을 구축하여 안전한 응답으로 전환할 수 있도록 훈련합니다.
그러나 MLE는 유해한 응답에서 안전한 응답으로 ‘한 번’만 전환된다는 한계가 있어요. 이를 보완하기 위해, 연구자들은 RTO를 도입했습니다. 그림의 (b)를 보면 유해한 응답의 모든 부분에 대하여 “sorry”라고 거부하고 있죠? RTO를 사용하여 훈련된 LLM은 유해한 응답의 길이를 L이라고 할 때, L번 거부 응답으로 전환하는 것을 학습하여 MLE만을 사용하는 것보다 유해한 콘텐츠의 생성을 더 잘 거부합니다. |
|
|
위 그림은 (a) 일반적인 안전 조정과 (b) 디커플드 거부 훈련(DeRTa)의 훈련 데이터를 비교한 그림이에요. (a)는 일반적인 안전 조정의 데이터셋입니다. 이 데이터셋 만으로는 모델이 유해한 응답을 하다가 안전한 응답으로 전환하는 학습이 어려워요. 반면 (b)디커플드 거부 훈련에는 유해한 응답 접두어가 포함 되어 있어요. 덕분에 모델이 처음에 유해한 응답을 생성하다가도 이후에 거부 의사를 표현할 수 있도록 함으로써, 일반적인 안전 조정 방법이 가지는 한계를 보완합니다.
디커플드 거부 훈련으로 안전조정된 모델은 GPT-4를 탈옥 시킨 고급 공격 방법(CodeAttack)에 대해서도 성공적으로 방어했습니다! 이 연구는 거부 위치 편향 문제를 효과적으로 해결하고, 모델의 응답이 일관되게 안전성을 유지할 수 있도록 하는 새로운 방법을 제시한 중요한 성과로 평가받고 있어요 👍🏻 |
|
|
LLM과 AI의 발전에 대해 찬성하는 사람이 많은 만큼, 반대하는 사람들도 많은 것 같습니다. 저 또한 인공지능을 즐겁게 공부하는 입장이지만, 한편으로는 “어디까지 발전되어야 하는가?” 에 대한 물음을 수도 없이 던져왔습니다. 이러한 논란은 과거 컴퓨터의 초기 발전 시기와 매우 유사하다고 생각하는데요.
컴퓨터가 처음 등장했을 때도 많은 사람들이 컴퓨터가 가져올 잠재적인 위험에 대해 우려했고, 그 중 가장 큰 문제 중 하나가 해킹이었습니다. 해킹 문제는 컴퓨터 사용의 신뢰성을 저하시켰고, 많은 사람들이 컴퓨터의 안전성에 대해 의문을 제기하게 만들었어요. 해킹 문제를 해결하기 위해, 컴퓨터 보안 기술이 발전했죠! AI도 마찬가지라고 생각합니다. 모델의 생성 능력뿐만 아니라 “안전장치”도 발맞추어 진화해야 하는 것 같습니다🛡. |
|
|
SNS를 팔로우하면 최신 소식을 가장 빠르게 확인하실 수 있습니다 😆 |
|
|
deep daiv.
manager@deepdaiv.com
|
|
|
|
|