연구진은 해석가능성을 평가하는 방법을 3가지로 분류합니다.
1. 실용적 평가 (Application-grounded Evaluation)
실용적 평가는 모델이 데이터를 처리하는 과정을 전문가들이 실제로 확인하며 평가하는 것입니다. 예를 들어, 모델이 특정 질병을 진단한다고 할 때, 전문의가 의사 결정 내리는 방식과 비교하여 평가하는 것입니다. 신뢰할 수 있는 인간 전문가와 비교해 평가한다는 점에서 ‘믿음’의 가치는 더욱 커집니다. 즉, 설명의 효과가 더 크면서 동시에 더욱 높은 해석가능성을 보유하고 있다고 볼 수 있죠. 또한 시스템이 의도한 작업을 그대로 수행하는지 확인할 수 있다는 점에서 강한 윤리성을 보장합니다.
예를 들어, LLM이 어떤 문제를 풀면서 풀잇법까지 설명하라는 요청을 받았습니다. 요청에 따라 문제 풀이 과정을 추론하는데, 이것이 수학 강사의 설명과 일치한다면 해석가능성이 높다고 볼 수 있겠죠. 문제는 한 모델이End-to-end 디자인으로 입력부터 출력까지 담당한다면 평가가 어렵다는 점입니다.
2. 인간 기반 지표 (Human-grounded Metrics)
인간 기반 지표는 비전문가가 평가하지만 다수의 의견을 따르는 방식입니다. 실용성 기반 평가는 전문가를 초빙해야 한다는 점에서 비용이 많이 들지만, 일반인에게 맡기면 더 많은 피험자를 모으면서 비용을 절감할 수 있습니다. 다만, 전문성이 부족한 만큼 일반 개념을 평가할 때 더 적합한 지표겠죠.
이후에 등장한 ChatGPT의 근간이 된 InstructGPT에서는 이 개념을 응용해 모델이 생성한 답변을 기반으로 평가를 내립니다. 덕분에 모델의 설명이 더욱 구체화되고, 마치 ChatGPT가 우리에게 설명하듯 답변을 생성하는 것이 가능해졌죠. 이런 점은 앞서 언급한 실용적 측면에서 해석가능성이 높다고 볼 수 있습니다.
3. 기능적 평가 (Functionally-grounded Evaluation)
기능적 평가는 인간 실험이 필요 없다는 점에서 큰 장점으로 꼽힙니다. 대신에 설명을 대신할 수 있는 지표가 필요하죠. 그리고 이를 최적화하는 방법을 입증해야 합니다. 예를 들어, 의사 결정 나무(Decision Tree) 모델의 경우, 최적화하는 과정에서 데이터가 분류되는 기준이 명확합니다. 다른 모델에서도 역시 어떤 지표(일반적인 손실함수) 최적화하기 위해 학습됐다고 말한다면 어느 정도 모델을 설명할 수 있죠.
그러나 이 기준 자체만으로는 해석가능성이 높다고 말하기 어렵습니다. 기준에 대한 타당성을 평가해야 하기 때문이죠. 이에 대한 전문가의 평가가 추가로 개입되어야 하기도 합니다. |