ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 어도비의 이미지 3D 재구성 모델 "LRM" 소식 겉 핥기
    academic blog/수박 겉 핥고 호박도 겉 핥기 2023. 11. 17. 02:00

    (출처: MS Bing Image Creator, getimg.ai, Google Deep Dream Generator)

     

    뉴스 출처: AI 타임스 임대준 기자 (2023.11.13 19:48)

     

    출처: arXiv:2311.04400

    어도비가 5초 안에 2D 이미지를 3D로 변환하는 혁신적인 AI 기술을 소개했다. 이 기술은 벤처비트가 보도하고 어도비 리서치와 호주국립대학교의 연구진이 발표한 논문 "대규모 재구성 모델(LRM, Large Reconstruction Model)"을 통해 최초로 소개되었다. 단일 이미지를 3D 객체로 변환하는 이 기술은 게임, 애니메이션, 산업 디자인, 증강현실(AR)과 가상현실(VR) 분야 등에 혁신을 가져올 것으로 주장되고 있다.

     


    이전 연구들, 이를테면 구글의 NeRF(Neural Radiance Fields) (2021, arXiv)와 같은 연구들은 한 객체에 대한 특정 각도에서의 이미지들로부터 전체 방향의 형상을 추론할 수 있도록 연구를 진행했었다. 하지만 이런 데이터는 구하는 것에도 비용이 많이 들뿐더러, 대개 특정 범위 안에서의 한정된 성능을 보여주었다.

    출처: arXiv:2003.08934

    최근에는 이미지 생성 분야에서의 발전을 기반으로, 사전 훈련된 대규모 이미지-언어 모델의 이점을 활용한 연구들도 발생하고 있는 추세였다. 하지만 대규모 재구성 모델(Large Reconstruction Model, 이하 LRM)은 사전 훈련된 대규모 멀티모달 모델의 보조적인 학습 없이 오로지 데이터 기반의 접근법으로 임의의 객체를 재구성하는 데 성공했다. 특히, 기존의 연구들과는 다르게 단일 이미지에서 3D 객체 재구성을 이루어냈다는 점에서 주목을 받고 있다.

    출처: arXiv:2311.04400

    LRM은 확장성이 뛰어난 트랜스포머 기반 모듈로 매개변수가 5억 개가 넘는 신경망을 구축하여 사용하였다. 이전 연구들이 소규모 데이터셋을 사용했던 것과는 달리, LRM은 '옵자버스(Objaverse)'와 'MV이미지넷(MVImgNet)' 데이터셋을 활용해 약 100만개의 3D 개체들을 학습했다. 학습 결과, 연구진은 LRM을 통해 입력 이미지들에 대응하는 우수한 품질의 3D 이미지들을 얻을 수 있었다고 주장한다. 연구진은 LRM이 세부적인 형태 뿐만 아니라 나뭇결과 같은 섬세한 질감도 표현할 수 있다고 밝혔으며, 엔비디아 A100 GPU 1장을 사용하였을 때 5초 만에 2D 이미지를 3D로 변환할 수 있어 다양한 산업 분야에서의 시간 및 비용 절감을 가능케 할 수 있다고 주장했다.

    좌측 AI생성 사진 실험, 우측 폰 캡쳐 사진 실험. 출처: arXiv:2311.04400

    추가 실험 결과, LRM은 실제 이미지 뿐만 아니라 휴대폰으로 찍은 사진과 AI 생성 이미지에서도 3D 모델을 재구성할 수 있는 것으로 나타나, 더 많은 사람들이 LRM을 통해 창의적, 상업적인 기회를 얻을 수 있으리라 기대를 받고 있다.


    연구진은 일부 영역에서 3D 텍스처가 흐릿하게 나타날 수 있다고 인정했지만, 대규모 데이터셋 학습을 통한 트랜스포머 기반 대형 3D 이미지 모델의 가능성을 강조했다. 해당 연구 내용은 연구 홈페이지에서 확인할 수 있다.


    한편, 스태빌리티 AI도 3D 재구성 분야에 주목하며, 게임 및 산업에 유용하다고 강조하였다. 지난 2일에는 "스태이블 3D(Stable 3D)" 모델을 추가하여 3D 이미지를 생성하는 플랫폼을 발표했다.


    이러한 기술들은 이미지 생성 AI 연구진들이 B2B 중심의 수익화에 중점을 두고 있는 추세임을 보여준다.

Copycat ⓒ 2009. 호미 Hommy. All rights not reserved.