Object Detection 연구가 줄어들고 있는 이유를 알아봅니다. # 58 위클리 딥 다이브 | 2024년 9월 25일 에디터 배니 |
|
|
💡 이번주 뉴스레터에는 이런 내용을 담았어요!
- YOLO의 특성과 YOLO v10의 성능을 요약했습니다.
- 객체 탐지의 위상을 알아보기 위해 CVPR 2022 vs 2024 트렌드를 비교했습니다.
- 혁신적인 모델이 나오는 과정을 소개했습니다.
|
|
|
안녕하세요, 에디터 배니입니다.
아마 컴퓨터 비전을 공부해보셨다면 객체 탐지(Object Detection)를 들어보셨을 겁니다. 그리고 이 분야를 조금 더 공부하신 분들이라면 객체 탐지 태스크의 대표 모델인 YOLO도 알고 계실 텐데요. YOLO는 객체 탐지 분야에서 빼놓을 수 없는 모델입니다.
YOLO가 처음 발표된 것은 2015년입니다. 그 이전 R-CNN 계열의 객체 탐지 모델은 1) 이미지에서 객체 후보 영역을 생성하고 (이를 객체 제안(Region Proposal)이라고 합니다.), 2) 후보 영역을 개별적으로 분류하고 경계 상자를 조정하는 두 단계에 걸쳐 객체를 탐지하는 것이 일반적이었습니다. 이 과정에서 IoU(Intersection over Union)라는 지표를 사용해 예측된 경계 상자와 실제 경계 상자 사이의 겹침 정도를 계산하고, 이를 기반으로 최종 예측을 결정했습니다. 하지만 이러한 방식은 수천 개의 후보 영역에 대해 복잡한 연산을 수행해야 하므로 처리 속도가 느려 실시간 영상 처리에는 적합하지 않았습니다. |
|
|
🤔 IoU(Intersection over Union) |
|
|
IoU 계산 원리
IoU 두 개의 영역이 얼마나 겹치는지를 나타내는 지표로, 두 영역의 교집합을 합집합으로 나눈 값입니다. 값이 0에 가까울수록 겹침이 없고, 1에 가까울수록 완벽히 겹칩니다. 객체 탐지에서 IoU는 예측된 경계 상자와 실제 경계 상자 사이의 정확도를 평가하는 데 사용됩니다. |
|
|
YOLO는 이러한 두 단계의 과정을 하나의 통합된 신경망으로 처리하는 방법을 제안했습니다. 이미지 전체를 한 번에 입력받아 S x S 그리드로 분할하고, 각 그리드 셀에서 객체의 존재 유무를 예측함과 동시에 해당 객체의 클래스 확률과 경계 상자를 직접 예측합니다. 이를 통해 별도의 객체 후보 생성 단계 없이도 객체의 위치와 종류를 한 번에 예측할 수 있게 되었습니다.
이 접근법은 연산량을 크게 줄여 속도를 비약적으로 개선했습니다. 그 결과, 성능은 유지하면서 초당 45프레임의 속도로 실시간으로 영상 속 객체를 탐지할 수 있었고 많은 연구자 사이에서 화제가 됐습니다. (참고로, 일반적인 영상은 초당 30프레임입니다.)
그동안 YOLO는 거의 매해 새로운 버전이 발표됐고, 2024년 5월에는 YOLO는 v10까지 등장했습니다. 과거에는 YOLO 모델이 발표될 때마다 많은 연구자들이 주목해왔는데요. 해가 갈수록 소리 소문 없이 공개되는 기분입니다. YOLO v1의 연구진은 v3까지, v4 연구진은 v7까지 발표하면서 정통성 측면(?)에서도 설득력이 떨어집니다. 아무래도 무엇이든 인기가 영원하기는 어려워보입니다.
그렇다면 한 시대를 풍미했던 YOLO 모델의 인기는 왜 사그라들었을까요? 그리고 객체 탐지 분야는 어떻게 변화하고 있을까요? |
|
|
우선 지난 5월 발표된 YOLOv10의 성능을 살펴보겠습니다. 모델의 아키텍처는 크게 달라지지 않았고, 더 가볍고 빠르면서 정확한 모델을 만들었다는 것이 성능 측면에서 큰 특징입니다. 트랜스포머 기반의 객체 탐지 모델인 RT-DETR의 최신 모델에 비해서 1.8배 빠르고 연산량은 2.8배 적습니다. |
|
|
YOLOv10의 벤치마크 비교
출처: <YOLOv10: Real-Time End-to-End Object Detection> (Wang et al., 2024)
기존 모델을 계속 개선해나가는 것도 중요한 연구 과제입니다. 이것이 비약적으로 개선된다면 GPT 시리즈처럼 대성할 수도 있고요. 그러나 객체 탐지 분야가 이미 뛰어난 성과를 달성했습니다. 더 가볍고 빠른 모델도 좋지만, 이제 그 수준이 미묘합니다. 연구의 성과가 더 이상 새로울 것이 없다는 점이 새로운 연구의 동기 부여를 떨어뜨리는 요소입니다. |
|
|
세계 최대 컴퓨터 비전 학술대회인 CVPR에서는 매년 2천여 건의 논문이 출판됩니다. 출판된 논문의 주제를 살펴보면 현재 연구 트렌드가 어떤지 살펴볼 수 있습니다. 비교를 위해서 2년 전 개최된 CVPR 2022와 올해 열린 CVPR 2024의 주제 수를 비교해보겠습니다. |
|
|
Recognition이 1위를 차지했던 CVPR 2022
|
|
|
Recognition이 6위를 차지한 CVPR 2024
출처: Tableau <CVPR 2024>
CVPR 2022에는 ‘Recognition: Detection, Categorization, Retrieval’ 주제가 가장 뜨거웠습니다. 많은 분야 중에서도 당당히 1등을 차지하고 있는데요. 반면에 2024년에는 동일한 주제가 6위를 차리하고 있습니다. 올해의 1위는 이미지 및 비디오 합성 및 생성 분야, 2위는 3D 생성입니다. 최근 트렌드가 어디를 향하고 있는지 잘 보여주죠.
2년 사이 전체 AI 시장의 크기는 기하급수적으로 성장하고 했습니다. 그러나 이미지 인식 연구의 수는 줄어들고 있죠. 슬픈 일이냐고요? 전혀 그렇지 않습니다. 연구 트렌드가 바뀌는 것은 자연스러운 흐름이니까요. 다만, 불과 2년 전까지만 해도 활발했던 연구들이 그새 설 자리를 잃어가고 있는 이유는 눈 여겨 볼 필요가 있습니다.
앞서 언급한 것처럼 Detection 연구는 이미 성능이 포화됐습니다. 발전의 여지가 크지 않은 것이죠. 무엇보다도 포괄적으로 처리 가능한 기반(Foundation) 모델이 많이 등장했습니다. 하나의 모델에 여러 기능이 통합되고 있는 것입니다. 예를 들어, DETR(Detection Transformer) 모델은 이제 탐지뿐만 아니라 세그멘테이션, 시각적 관계 탐지, 객체 추적 등이 모두 가능합니다. YOLO 모델로도 멀티 객체 추적, 행동 인식 등이 가능합니다.
기능이 하나의 모델에 통합될수록 가장 뛰어난 모델만이 빛납니다. 과거에는 선보일 수 있는 무대가 여러 곳이었다면 이제는 세계 무대 하나로 합쳐지고 있는 것이죠. 앞서 탐지 기반 모델이 가능하다고 언급한 많은 기능은 최근 Meta에서 공개한 Segment Anything Model 2(SAM)에서도 어느 정도 포괄할 수 있습니다. 게다가 성능 감탄사가 절로 나올 정도로 좋은 성능을 보여줍니다.
객체 탐지가 주된 목적인 모델이 SAM보다 뛰어난 성능을 보여주지 못한다면 손길이 잦아들 수밖에 없을 것입니다. 그리고 AI라는 실용 학문에서 사용자의 선택 역시 중요한 문제 중 하나고요. (현재 생성 모델이 주목 받는 이유를 생각해보면 실용성이 중요하다는 것은 타당해보입니다.) |
|
|
한 분야의 ‘혁신’은 한 순간에 일어나지 않습니다. 과학철학자 토마스 쿤이 저술한 ‘과학혁명의 구조’에 따르면 패러다임의 전환은 수 많은 도전 끝에 일어납니다. 현재 주목 받는 모델도 ‘혁신’이라 보기는 어렵습니다. 모두 거인의 어깨 위의 연구들이 축적된 결과물이니까요.
그럼에도 몇 가지 공통점을 꼽자면 기업들이 어떤 데이터셋에 대한 성능을 비약적으로 개선하기 위해 새로운 아키텍처를 제안했을 때 새롭게 주목 받아왔습니다. 과거 사례를 몇 가지 꼽아보자면 Netflix Prize에서 Matrix Factorization 등 추천 시스템의 역사를 뒤바꾼 모델이 제안되기도 했고, ILSVRC 대회에서 이미지 인식 성능을 개선하기 위해 AlexNet, ResNet 같은 모델이 제안되기도 했습니다. YOLO, Transformer는 완전히 새로운 아키텍처로 AI 생태계를 뒤바꿨고요.
최근에는 아키텍처뿐만 아니라 데이터도 중요합니다. 특히, 기반 모델을 구축하기 위해서는 대규모 모델에 대량의 데이터를 학습해야 하죠. GPT, CLIP, LLaVA, SAM까지 모두 대량의 데이터셋을 확보했거나 새롭게 데이터를 생성한 것입니다.
이런 관점에서 탐지 모델이 주목 받기 어려운 이유는 더욱 뚜렷해보입니다. 새로운 데이터셋이 나오지도, 새로운 아키텍처가 제안되지 않고, 더불어 필요성이 점차 떨어지는 악순환 고리가 연결되고 있는 것입니다. 게다가 경쟁 모델이 더욱 빛을 발하면서 상대적으로 위상이 떨어지고 있는 것도 사실이고요. |
|
|
이렇게 탐지 모델의 짧은 역사부터 줄어든 탐지 모델의 위상과 이유까지 알아봤습니다. 탐지 모델로 예를 들었지만, 이런 분야와 모델은 정말 많습니다. 특히 자연어 처리의 세부 태스크는 모두 언어 모델 하나에 통합됐고, 2022년 3D 분야에서 가장 주목받던 NeRF는 3D Gaussian Splatting에 밀려 힘을 못 쓰고 있습니다.
최근 들어 ‘온고지신’의 자세가 중요하다는 것을 자주 느낍니다. 2015년 발표된 Diffusion 초기 모델도 뒤늦게 2020년 DDPM으로 다시 빛을 발했고, Transformer를 위협한다는 Mamba 아키텍처는 2020년 발표된 아이디어가 학계의 변화를 맞이하며 눈에 띄었습니다. 게다가 Mamba는 사장된 줄 알았던 RNN과 닮아 있다는 점도 놀랍고요.
최근 AI 연구에는 혁신이 없다는 비판이 잇따르고 있습니다. 그 장고의 기간을 이겨낸 연구자들의 의지가 놀랍습니다. 시류에 휩쓸리지 않고 성공일지 실패일지 모르는 연구에 끊임 없이 매진해 성공한 결과니까요. 현재 AI 연구 패러다임 역시 언제 달라질지 모릅니다. 빠르게 변화하는 세계 속에서 살아남기 위해서는 어떻게 변화하는지 알고 그에 맞게 준비해야 하는데요. 어차피 쉴새 없이 달라질 것이라면 시류에 발맞춰 걷는 것보다도 한 분야에 진득하게 매진하는 것이 가장 빠른 길일지도 모르겠다는 생각도 듭니다. |
|
|
SNS를 팔로우하면 최신 소식을 가장 빠르게 확인하실 수 있습니다 😆 |
|
|
deep daiv.
manager@deepdaiv.com
|
|
|
|
|