์ผ๊ตด ์ธ์์ ์๋ ์๋ฆฌ์ MambaGlue์ ๋ํด ์์๋ด
๋๋ค. # 82 ์ํด๋ฆฌ ๋ฅ ๋ค์ด๋ธ | 2025๋
3์ 12์ผ ์๋ํฐ ์ญ์ญ |
|
|
๐ก ์ด๋ฒ์ฃผ ๋ด์ค๋ ํฐ์๋ ์ด๋ฐ ๋ด์ฉ์ ๋ด์์ด์!
- ์ผ๊ตด ์ธ์์ ์๋ ๊ณผ์ ์ ์์ฝํ์ต๋๋ค.
- Vision Mamba์ ViT(Vision Transformer)์ ์ฃผ์ ์ฐจ์ด๋ฅผ ์์๋ด
๋๋ค.
- ์๋ก์ด Mamba๊ธฐ๋ฐ ์ด๋ฏธ์ง ๋งค์นญ ๊ธฐ๋ฒ์ธ MambaGlue๋ฅผ ์๊ฐํฉ๋๋ค.
|
|
|
๐ ์ผ๊ตด ์ธ์(Face Recognition)์ ์๋ฆฌ |
|
|
์๋
ํ์ธ์, ์๋ํฐ ์ญ์ญ์
๋๋ค.
์ด๋ฌ ๋ง, ์ผ๋ถ ํธ์์ ์์ ์ผ๊ตด ๊ฒฐ์ ๊ธฐ๋ฅ์ ์ ๋ณด์ธ๋ค๊ณ ํฉ๋๋ค. ์ผ๊ตด ๊ฒฐ์ ๋ ์ฌ์ฉ์ ์ผ๊ตด ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์นด๋๋ ์ค๋งํธํฐ ์์ด ๊ฒฐ์ ํ ์ ์๋ ์๋น์ค์
๋๋ค. ์์ชฝ ์ฃผ๋จธ๋๊ฐ ๋ชจ๋ ๊ฐ๋ฒผ์์ง ๋ ์ด ๋ค๊ฐ์๋ค์! ๊ทธ๋ฐ๋ฐ ์ด๋ค ๋ ์ ๊ธฐ๋ถ์ด ์ ์ข์ ๋ฌดํ์ ์ผ ์๋ ์๊ณ , ๋๋ ์ ๋ ๋ผ๋ฉด์ ๋จน๊ณ ์์ ์ผ๊ตด์ด ๋ถ์์ ์๋ ์์ต๋๋ค. ์ฒ์ ๊ธฐ๊ธฐ์ ์ผ๊ตด์ ๋ฑ๋กํ์ ๋์ 100% ์ผ์นํ์ง๋ ์๋๋ฐ, ์ด๋ป๊ฒ โ๋โ์ธ ๊ฒ์ ์์๋ณผ ์ ์์๊น์?
์ด์ฒ๋ผ ์๋ง์ ์ฌ๋๋ค์ ์ผ๊ตด ์ฌ์ง๋ค ์ค โ๋โ๋ฅผ ์ ํํ ์ฐพ์ ์ ์๋ ๊ธฐ์ ์๋, ์ด๋ฏธ์ง ๋งค์นญ(Image Matching) ๊ธฐ์ ์ด ์จ๊ฒจ์ ธ ์์ต๋๋ค. |
|
|
๐คณ ์ด๋ฏธ์ง ๋งค์นญ ํ๋ก์ธ์ค |
|
|
A๋ผ๋ ์ฌ์ฉ์๊ฐ ์์ ์ ์ผ๊ตด๋ก ํด๋ํฐ์ ์ ๊ธ์ ํด์ ํ๋ค๊ณ ํ์ ๋ ์์๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค. ์ฌ์ฉ์์ ์ผ๊ตด์ ์ต์ด๋ก ๋ฑ๋กํ ์ ๋ณด๊ฐ ์ค๋งํธํฐ์ ์๋ค๊ณ ๊ฐ์ ํ์ ๋, ์ผ๊ตด ์ธ์์์์ ์ด๋ฏธ์ง ๋งค์นญ์ ํฌ๊ฒ ๋ค ๋จ๊ณ๋ก ๋๋ฉ๋๋ค. |
|
|
์ฒซ ๋จ๊ณ๋ ์ค๋งํธํฐ ์นด๋ฉ๋ผ๊ฐ Face Detection ํ๋ฉฐ ์ฌ์ง ์์์ A์ ์ผ๊ตด์ ์ฐพ์๋ด๋ ๋จ๊ณ์
๋๋ค. ์ฌ์ฉ์๊ฐ ์ผ๊ตด ๋ฐฉํฅ์ ๋ฐ๊พธ์ด๋ ๊ณ์ ์ถ์ (Tracking)ํ๋ฉฐ ์์ง์ด๋ ์ฌ์ฉ์์ ์ผ๊ตด์ ๊ณ์ ํฌ์ฐฉํ์ฃ .
์ดํ ์ผ๊ตด์ ์์น์ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ ๊ณผ์ ์ด ์ด๋ฃจ์ด์ง๋๋ค. ์ด๋ฅผ Face Alignment๋ผ๊ณ ํ๋๋ฐ์. ์ผ๊ตด์ด ์กฐ๊ธ ๊ธฐ์ธ์ด์ง๊ฑฐ๋ ๋ค์ํ ํ์ ์ ์ง์์ ๋์๋, โ๋, ์ฝ, ์
, ํฑ, ์ผ๊ตด ์ โ๊ณผ ๊ฐ์ ์ฃผ์ ํน์ง์ ๋ค(Key points)์ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก ์ผ๊ตด์ ์ผ์ง์ ์ผ๋ก ์ ๋ ฌํ์ฌ ์ผ๊ตด์ ์ ํํ๊ฒ ์ธ์ํ ์ ์๋๋ก ํฉ๋๋ค. |
|
|
์ถ์ฒ: โ deep daiv.
Face Alignment์ ์๋ ๊ณผ์ ์ ์ค๋ช
ํ๋ ๊ทธ๋ฆผ. ํ์ ๋๊ฑฐ๋ ๊ฐ๋๊ฐ ๋ฌ๋ผ์ ธ๋ ํน์ง์ ์ ๋ฐํ์ผ๋ก ์ ๋ ฌํ๋ค. |
|
|
๊ทธ ๋ค์, Feature Extraction ๋จ๊ณ์์๋ ์ผ๊ตด์์ ์ค์ํ ํน์ง๋ค์ ์ถ์ถํ๋ ๊ณผ์ ์ด ์ด๋ฃจ์ด์ง๋๋ค. ๋ผ๋ฉด์ ๋จน๊ณ ์ผ๊ตด์ด ๋ถ์๊ฑฐ๋ ๊ธฐ๋ถ์ด ์ ์ข์ ๋ ์ผ๊ตด์ ๋ชจ์ต์ด ์กฐ๊ธ ๋ฌ๋ผ์ ธ๋, ์ฌ์ ํ ์ผ๊ตด์ ์ฃผ์ํ ํน์ง์ ํฌ๊ฒ ๋ณํ์ง ์์ต๋๋ค. ์ผ๊ตด ์ธ์ ์์คํ
์ ์ด๋ฌํ ํน์ง์ ๊ณ ์ ํ ์ซ์ ๋ฒกํฐ๋ก ๋ณํํ์ฃ . ๋น์ทํ ์ผ๊ตด์ ๊ฐ์ง ์ฌ๋๋ค๋ ์ด ๋จ๊ณ์์ ์๋ก ๋ค๋ฅธ ํน์ง์ ์ถ์ถํ์ฌ ๊ตฌ๋ถํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ฆ, ์ผ๊ตด์ ๋ณํ์ด๋ ํ์ ์ฐจ์ด์๋ ๋ถ๊ตฌํ๊ณ ์์คํ
์ ์ค์ํ ํน์ง์ ์ฐพ์๋ด์ด, ์ฌ์ฉ์๊ฐ ๋๊ตฌ์ธ์ง ์ ํํ ์ธ์ํ ์ ์๋๋ก ๋์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก Feature Matching ๋จ๊ณ๋ ์ฌ์ง ๋ ์ฅ์ ๋๊ณ ์ฌ์ฉ์ A๊ฐ ๋ง๋์ง, ์๋์ง ๋น๊ตํฉ๋๋ค. ์ฌ๋ฌ ์ฌ์ฉ์๋ค์ ์ผ๊ตด ์ ๋ณด๊ฐ ๋ด๊ธด ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก๋ถํฐ A์ ์ผ์นํ๋ ์ผ๊ตด ์ ๋ณด๊ฐ ์๋์ง ํ์ธํ๋๋ฐ์. ๋ง์ฝ ์ผ๊ตด์ด ์ ํํ ์ผ์นํ๋ฉด ์ค๋งํธํฐ์ A์ ์ผ๊ตด์ ์ธ์ฆํ๊ณ ์ ๊ธ์ ํด์ ํฉ๋๋ค. |
|
|
์ถ์ฒ: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Google Research et al., 2021),
MambaGlue: Fast and Robust Local Feature Matching With Mamba (Ryoo et al., 2025)
์ด๋ฏธ์ง ๋งค์นญ ๋ชจ๋ธ์์ Vision Transformer(ViT)์ Vision Mamba๋ ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ํน์ง์ ์ ์ฒ๋ฆฌํฉ๋๋ค. ViT๋ Self-Attention์ ์ฌ์ฉํด ๋ชจ๋ ํ ํฐ ๊ฐ์ ์ํธ์์ฉ์ ํ์ตํ๊ธฐ ๋๋ฌธ์ ์
๋ ฅ ๊ธธ์ด(n)์ ๋ฐ๋ผ ์ฐ์ฐ๋์ด O(n^2)์ผ๋ก ์ปค์ง๊ณ , ์์ ์๋ชจ๊ฐ ํฌ๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
๋ฐ๋ฉด, Vision Mamba๋ Selective Focus๋ฅผ ํ์ฉํด ์ค์ํ ์ ๋ณด๋ง ์ ์งํ๊ณ ๋ถํ์ํ ์ฐ์ฐ์ ์ค์ด๋ฉฐ, ์ ํ ์๊ฐ ๋ณต์ก๋ O(n)๋ก ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค๋ ์ฅ์ ์ด ์๋๋ฐ์. Selective Focus๋ ์ ํ์ ์ผ๋ก ์ค์ํ ์ํ๋ง ์
๋ฐ์ดํธํ๋ ๋ฐฉ์์ ๋งํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ฅ๊ธฐ ์์กด์ฑ์ ํ์ตํ๊ธฐ ์ด๋ ค์ธ ์๋ ์๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. |
|
|
๋ฐ๋ผ์ ์ต๊ทผ ์ฐ๊ตฌ๋ค์ Self-Attention์ ์ ์ญ ๋ฌธ๋งฅ ํ์ต ๋ฅ๋ ฅ๊ณผ Selective Focus์ ์ฐ์ฐ ํจ์จ์ฑ์ ๊ฒฐํฉํ๋ ค๋ ์๋๋ฅผ ์ด์ด๊ฐ๊ณ ์์ด์. ํนํ, ๊ธฐ์กด Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ๊ฐ๋ ฅํ ํํ๋ ฅ์ ์ง๋ ๋ฐ๋ฉด ๊ณ์ฐ๋๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ํฌ๋ค๋ ์ ์ ๋ณด์ํ๊ธฐ ์ํด, Mamba ๊ธฐ๋ฐ์ ์๋ก์ด ํ์ด๋ธ๋ฆฌ๋ ๊ตฌ์กฐ๊ฐ ๋ฑ์ฅํ๊ณ ์๋๋ฐ์.
์ด๋ฌํ ๋งฅ๋ฝ์์ ์ต๊ทผ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ ์ฐ๊ตฌ๊ฐ ๋ฐ๋ก MambaGlue์
๋๋ค. MambaGlue๋ Transformer์ Mamba์ ๊ฐ์ ์ ๊ฒฐํฉํ์ฌ, ๊ฐ ๋ ์ด์ด์ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์ ์ํค๋ฉด์๋ ๋ฎ์ ์ง์ฐ ์๊ฐ(low latency)์ ์ ์งํฉ๋๋ค. MambaGlue์์ ์๋กญ๊ฒ ์ ์ํ ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ์
๋ ฅ๋ฐ๋ ๊ฒ์ด ์๋, ์ด๋ฏธ์ง์์ ์ถ์ถ๋ ํน์ง์ ๊ณผ ๊ทธ ํน์ง์ ์ ์์น ์ ๋ณด๋ง์ ์
๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ํด Feature Matching ๋จ๊ณ์์ ViT๊ฐ ์๋ Vision Mamba์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฃ . |
|
|
์ดํด๋ฅผ ๋๊ธฐ ์ํด ์ผ๊ตด ์ธ์ ํ์คํฌ๋ฅผ ์์๋ก ๋ค๊ฒ ์ต๋๋ค. ๋ธ๋ก์ ํฌ๊ฒ ์ธ ๋ถ๋ถ์ผ๋ก ๋๋๋๋ฐ์. ๋จผ์ , ์ผ๊ตด์์ ์ถ์ถํ ์ฌ๋ฌ ํน์ง์ ๋ค์ ์ขํ(p_q)๋ฅผ Self-Attention ๋ธ๋ก์ ๋ฃ์ด ๊ฐ ํน์ง์ ๊ฐ์ ์๋์ ์์น ๊ด๊ณ๋ฅผ ํ์
ํฉ๋๋ค. ๋ค์์ผ๋ก, ์๋์ ํน์ง์ ๋ฒกํฐ(x_q)๋ฅผ ๊ทธ๋๋ก ํต๊ณผ์์ผ ์ผ๊ตด ํน์ง์ ๊ทธ๋๋ก ์ ์งํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ํน์ง์ ๋ฒกํฐ๊ฐ ๊ธฐ์กด์ Vision Mamba ๊ธฐ๋ฐ ๋ธ๋ก์ ๊ฑฐ์น๋ฉด์, ํ์ํ ์ ๋ณด๋ฅผ ๋์ฑ ๊ฐ์กฐํ๊ณ ๋ถํ์ํ ์ ๋ณด๋ฅผ ๊ฑฐ๋ฅด๋๋ก ์ค๊ณํ์ต๋๋ค. ์ด๋ ๊ฒ ์ธ ๊ฐ์ง ๋ถ๋ถ์ ๋ชจ๋ ๊ฒฐํฉ(Concatenation) ํ๋ฉด, ์ดํ ๋จ๊ณ์์ ์ผ๊ตด์ ํน์ง์ ๋์ฑ ์ ๊ตํ๊ฒ ํ์ฉํ ์ ์๋ ํํ๋ก ๋ง๋ค์ด์ง๋๋ค.
|
|
|
์๋์ ์๋ ๊ทธ๋ฆผ์ MambaGlue๋ฅผ ์ ์ฉํ์ ๋ Feature Matching ๊ฒฐ๊ณผ์
๋๋ค. ๋ฐค์ ์ฐ์ ์ฌ์ง๊ณผ ๋ฎ์ ์ฐ์ ์ฌ์ง์ ํฌ๊ธฐ์ ๊ฐ๋, ๋ฐฐ๊ฒฝ์ด ๋ค๋ฅธ ์ํฉ์์๋ ํน์ง์ ์ ์ ์ฐ๊ฒฐํ๊ณ ์๋ ๋ชจ์ต์ ํ์ธํ ์ ์์ต๋๋ค. ํน์ง์ ๊ฐ์ ์๋ชป๋ ์ฐ๊ด ๊ด๊ณ(Correlation)๋ฅผ ์๋ฏธํ๋ Outlier๋ ๊ฐ์์ํค๋ฉฐ, ๊ธฐ์กด์ SOTA ๋ฐฉ๋ฒ๋ก ์ธ LightGlue ๋ณด๋ค ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. |
|
|
์ผ๊ตด ์ธ์์ ์๋ ์๋ฆฌ๋ถํฐ ์์ํ์ฌ, ViT์ Vision Mamaba๋ฅผ ๊ฒฐํฉํ์ฌ ์๋ก์ด ํ์ด๋ธ๋ฆฌ๋ Feature Matching ๊ธฐ๋ฒ์ ์ ์ํ MambaGlue๊น์ง ์์๋ณด์์ต๋๋ค. ์ค๋งํธํฐ ์ ๊ธ์ ํด์ ํ๊ธฐ ์ํด ์ผ๊ตด ์ธ์ ๊ธฐ๋ฅ์ ์ฌ์ฉํ๋ฉด์๋, ์งง์ ์๊ฐ์ ์ด๋ ๊ฒ ๋ง์ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ค๊ณ ์๊ฐํด ๋ณธ ์ ์ด ์๋ ๊ฒ ๊ฐ์ต๋๋ค.
๊ฐ์ธ์ ์ผ๋ก๋ ๊ต์ฅํ ๋ฎ์ ํ์ , ์๋งค ํน์ ์ผ๋์ฑ ์๋ฅ์ด์ ๋ํด์๋ ์ ๊ตฌ๋ณ์ ํ ์ ์์์ง ๊ถ๊ธํ๋๋ฐ์. ์ ํ์ Face ID ๊ด๋ จ ๊ณต์ ์ค๋ช
์์๋ "์ฌ์ฉ์์ ์ผ๊ตด์ด ๋ฎ์ ํ์ ์๋งค ๋ฐ ์๋ฅ์ด์ ๊ฒฝ์ฐ, ๊ทธ๋ฆฌ๊ณ ๋ง 13์ธ ๋ฏธ๋ง ์ด๋ฆฐ์ด์ ๊ฒฝ์ฐ ๋๋ ทํ ์ผ๊ตด ํน์ง์ด ์์ ํ ๋ฐ๋ฌํ ์ํ๊ฐ ์๋ ์ ์๊ธฐ ๋๋ฌธ์ ์ธ์ ์ค๋ฅ๊ฐ ๋ฐ์ํ ํต๊ณ์ ํ๋ฅ ์ด ๋ ๋์ต๋๋ค"๋ผ๊ณ ์ธ๊ธ๋์ด ์๋๋ฐ์. ์์ง ๊ธฐ์ ์ ์ผ๋ก ๋ณด์ํ ์ ์ด ์กฐ๊ธ์ ๋จ์ ์์ด ๋ณด์
๋๋ค.
์์ฒด ์ธ์(Biometric) ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ๊ฒฐ์ , ๋ณธ์ธ ํ์ธ ๋ฑ ์ฌ์ฉ์ ๊ฒฝํ์ด ์ ์ ๋ ํธ๋ฆฌํด์ง๊ณ ์์ต๋๋ค. ๋ค์์๋ ์ด๋ค ์์ฒด ์ธ์ ๊ธฐ์ ์ด ์์ฅ์ ๋์
๋ ๊น์? ํน์ ๋ณด์์ ์ํด ์ผ๊ตด, ๋ชฉ์๋ฆฌ, ํ์ฑ ๋ฑ ์ฌ๋ฌ ๊ฐ์ ์์ฒด ์ ํธ๋ฅผ ๋์์ ์ธ์ํด์ผ ํ๋ค๋ฉด, ์คํ๋ ค ๋น๋ฐ๋ฒํธ๋ฅผ ์
๋ ฅํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋์๊ฐ๊ณ ์ถ์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ๋ ํด๋ด
๋๋ค. |
|
|
SNS๋ฅผ ํ๋ก์ฐํ๋ฉด ์ต์ ์์์ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ |
|
|
deep daiv.
manager@deepdaiv.com
|
|
|
|
|