ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2024 상반기 AI 가상악기 겉 핥기
    academic blog/수박 겉 핥고 호박도 겉 핥기 2024. 6. 22. 02:00

    출처: MS Bing Image Creator, getimg.ai

     

      그림 생성AI 서비스들이 우리 대중들에게 이미 익숙해진 지 오래, 올해는 다양한 음악 생성AI 서비스들이 주후죽순 쏟아졌다. 대다수의 그림 생성AI처럼 마찬가지로 이들 음악 생성AI 서비스들은 Large Multimodal Model(LMM)을 파운데이션 모델로 구축한 것으로 추측되고, 텍스트 프롬프트를 이용하여 원하는 스타일의 음악을 생성하는 것을 주 서비스로 내세우고 있다. 기존에 알려졌었던 룩셈부르크의 AIVA(2016)과 일본의 SOUNDRAW(2020) 보다 훨씬 임팩트 있는 서비스를 Suno AI(beta: 2023.12.20 / V3: 2024.03.21)Udio(2024.04.10) 측에서 선보였고, 오픈소스 진영에서 또한 더욱 업그레이드 된 Riffusion과 새로 출시된 Stable Audio가 경쟁에 뛰어들었다. 국내에서도 뉴튠(Neutune)의 Mix.audio, 포자랩스의 vio.dio, 크리에이티브마인드의 Musia 등의 서비스들이 경쟁력을 갖추고 이 시장에 당당히 뛰어들었으며, 더 이상 음악 생성은 구글메타와 같은 빅테크들의 전유물, 또는 논문으로만 존재하는 미상의 기술이 아니다.

     

      하지만, (많은 생성AI 서비스들이 그러하지만) 이제 대중들 입장에서도 텍스트 프롬프트를 입력하고 '딸깍' 한방에 원하는 결과물을 얻는 것은 새롭지 않다. "와~ 신기하다! 퀄리티도 엄청나네!"라는 감탄사는 곧 "그래서 이걸로 뭐 함?"이라는 질문으로 이어지기 십상이며, 음악 테크와 벤처들은 이제 신기함만을 주는 서비스가 아니라 정말 유용한 제품들을 내놓아야 한다고 생각한다.

      현 시점, 음악 생성AI 서비스들에게 가장 아쉬운 점은, 이들이 인간 작곡가와 프로듀서들에게 유의미한 도움을 주는 것이 아니라 불안감과 좌절감을 조성하고 있다는 것이다. 물론, 나도 음악에 관심이 있는 인공지능 전공자로서, 이는 음악 생성AI 서비스를 내놓는 회사들의 의도가 아니고, 이 회사들에도 수많은 음악 애호가들이 있다는 것을 알고 있다. 그래서 이들의 '잘못'이라고 비판하기는 어렵지만, 인공지능 비전문가 주변인들과 대화를 해보면 여전히 이런 생성AI 기술 기반 서비스들의 큰 쓸모를 찾기 어려워한다는 것이 현실이다. 창작이 더욱 쉽고 즐거워져야 하는데, '남이 나 대신 창작을 하게 되고 내 설자리가 없어지면 어떡하지'라는 공포감만 불러일으키는 것은 기존 음악 창작자들의 입장이나, AI 기술을 연구 개발하는 사람들의 입장이나, 둘 다 좋을 것이 없다.

     

      나는 석사 때 인공지능을 처음 접하고 인공지능으로 음악과 오디오를 다룰 수 있다는 사실을 알게 되자마자, 인공지능 기술 기반의 새로운 툴들이 (내 부족한 음악적 지능을 메꿔주고) 작곡을 도와주면 좋겠다는 상상을 하게 되었다. 내가 석사로 공부할 당시에는 Google Magenta의 NSynth(2017)DDSP(2022)가 그 가능성을 보여주며, 인공지능 기술만으로 얻을 수 있는 새로운 사운드를 다룰 수 있게 도와주는 가상악기로 등장했다.

      이후 인공지능 학계에서 Diffusion 모듈 및 LLM/LMM 파운데이션 모델 기술의 붐이 일어나며, 세상은 또 한 계단 진보해가게 되었는데, 이젠 정말 기존 인공지능 비전문가 음악 프로듀서들과 엔지니어들도 좋아할 만한 툴들이 많이 나온 것 같다고 생각한다. 내가 알고 있는 지식들을 정리도 하고, 아무도 신경 쓰지 않는 이 블로그에 실수로 들어온 지나가는 사람에게 조그마한 상식의 선물도 나눠주기 위해 이 글을 써본다.

     

    1. AI 악기 분리기 : Stems - Fadr Plus

      국내에는 학계에서든 산업계에서든 유명한 음악 벤쳐 3대장이 있다: 서울대 이교구 교수님의 슈퍼톤(Supertone)(하이브에 팔린 이후로 더이상 벤처는 아니지만), KAIST 남주한 교수님의 뉴튠(Neutune), 그리고 내가 2~3차례 정도 취업을 시도했으나 실패한 가우디오랩(GaudioLab). 이 3대장 중 하나인 가우디오랩은 이전에 GSEP이라는 음악 악기 분리 베타 서비스를 무료로 선보였었는데, 1~2년 정도 재능기부를 하더니 드디어 올해 들어 부분유료화로 전환되었다. 개인적으로 정말 많이 유용하게 잘 써먹은 서비스인데, 웹기반 서비스여서 편리한 측면도 있었지만 VSTI 플러그인으로 나오면 정말 좋겠다는 생각을 했었는데, 이걸 다른 회사에서 해버렸다.

     

     

      Fadr Plus는 유료 구독제 서비스이고, 여러 유용한 웹기반 서비스들과 플러그인이 번들로 포함되어 있다. 이 중에서도 Fadr Stems라는 플러그인은 VST3를 지원하는 윈도우와 맥 상 모든 DAW와 호환되는 악기 분리 플러그인으로, 음원을 입력하면 14개 종류의 악기로 분리해 주는 막강한 유용성을 자랑한다. 어떤 음악의 특정 세션만을 가져와서 샘플링을 한다든지, 아니면 단순히 해당 음악을 분석하고 공부하기 위해서든지, 다양한 용도로 사용이 가능해 보인다. 웹기반 서비스를 넘어서서 작곡 프로그램과 연동해 사용 가능한 VSTI 플러그인을 선보였다는 것이 정말 좋은 방향성인 것 같은데, 한 달에 10달러씩이나 하는 이용비가 다소 아쉽다. 개인적으로는 일단 가우디오랩 스튜디오 무료 크레딧을 소모하면서 손가락 빨고 있을 듯하다.

     

    2. 입으로 작곡하기 : Vochlea Dubler 2

      인스타그램의 개그지온라인 같은 광고 환경 속에서 건진 상당한 플러그인이다. 리그오브레전드의 이론 상 완벽한 플레이를 '입롤'이라고 하지 않는가? 이 플러그인은 '입작곡'을 실현시킨다. 대다수 음악 연구개발진들은 이용자들로 하여금 텍스트 프롬프트로 인공지능을 조작하도록 하는데, Vochlea Music은 음악 현업자들이 친숙한 허밍과 비트박스(?)로 작곡을 하게끔 도와주는 기술을 개발하였다. 정말 좋은 연구 방향성 같고, 국내에서 아직 언급이 많이 되고 있지는 않은 것 같지만 한번 알려지기만 한다면 정말 애용될 플러그인 같다.

     

     

      Dubler 2는 VST3/AU로 사용 가능하며, 윈도우 및 맥 상의 모든 DAW와 호환 가능하다. 가격대가 만만 한 건 아니지만, 그래도 내가 정액제보다 선호하는 선불제다. 20만 원 현금 박치기로 구매할 수 있는데, 아직 내 작곡 실력이 그지깽깽이라 질러놓고 사용하지 않는 불상사가 일어날까 봐 지름신을 막고 있다. 내 작곡 취미가 조금만 본격화되면 바로 구매할 의향이 있다.

     

    3. 사운드 디자인 도우미 : MicroMusic AI-Powered Synth Preset Generator

      이 글을 쓰게 된 본격적인 이유다. 이 플러그인은 블로그에 반드시 기록으로 남겨둬야겠다고 생각했다. 카톡방에 이 프로그램에 대한 소식을 들고 달려온 내 작곡 쌉고수 친구나 나나 정말 충격에 빠지지 않을 수 없었다.

      나올 게 드디어 나와버렸다. 내가 2018~2020년 처음 프로그래밍 공부하고 인공지능 입문할 때쯤 망상으로만 생각하던 게 그대로 구현되어 실제품으로 나온 걸 보니 매우 감회가 새롭고, 이 프로그램을 내놓은 워털루 大 연구개발진이 정말 대단하게 느껴진다.

      나 같은 작곡 초보들의 입장에서는 신디사이저의 수많은 노브들을 보면 공포감에 빠지고, 머리속 원하는 소리를 구현하지 못해 스트레스를 받곤 하는데, 나같은 작곡 초보들이 쉽게 신디사이저로 사운드 디자인을 할 수 있게끔 도와주는 제품이다. 위 두 제품과 마찬가지로 VST로 제공되어 DAW과 같이 쓸 수 있다는 것이 사용성을 크게 높여준다.

     

     

      MicroMusic무료 버젼은 특정 소리를 입력받았을 때 해당 소리와 가장 가까운 소리를 내도록 해주는 Vital이라는 프리웨어 신디사이저의 프리셋을 생성해준다. (유료 버전은 작곡가들과 비트메이커들 사이에서 훨씬 더 많이 쓰이는 Serum이라는 신디사이저의 프리셋을 생성해준다는 것 같다.) 리버스 엔지니어링을 통해 소리 공부를 하는 용도로든, 실제 작곡에 활용할 소리 제작을 위한 출발점으로든, 정말 유용한 플러그인이다. 한달에 10달러씩 내는 지불하는 정액제, 또는 100달러 선불제 두 형태로 유료 버젼을 얻을 수 있다. 무료 버젼은 윈도우에서만 작동하는 것으로 파악했는데, 위의 소개 영상을 보니 유료 버젼은 맥에서도 활용 가능한 것으로 보인다. 내가 위에서 소개했던 Fadr Plus 또는 가우디오랩의 서비스와 같이 활용하면 더욱 시너지 효과가 날 것 같다.

     

    앞으로는 또 어떤 악기들이 나오면 좋을까?

      내 연구 역량을 훨씬 넘어서는 프로젝트들을 많이 망상하곤 하는데, 개인적으로 나오면 좋을 것 같은 음악 생성AI 서비스로는 다음과 같은 것들이 있다.

     

    1. 생성AI 기반 Text-to-Audio 샘플 생성 서비스
      • 현업에서는 Splice가 많이 사용되는 샘플 라이브러리 서비스인 것으로 알고 있는데, 제일 싼 구독 서비스가 월 13달러 정도다.
      • Meta AI의 Audiobox 또는 가우디오랩의 FALL-E 프로젝트가 이 쪽 분야의 대표 주자로 알고 있는데, 이들 연구가 품질도 좋고 월 3000원~5000원 정도의 저렴한 프로그램의 개발로 이어져서 Splice와 경쟁해 주면 좋을 것 같다.
      • 사실 출시가 이미 임박했다고 느껴진다. 연구자료들이나 보도자료에서 Text-to-Audio Synthesis 또는 Foley Sound Generation을 키워드로 하여 많이들 뿌려지고 있는데, 곧 있으면 만나볼 수 있게 될 서비스 아닐까 개인적으로 생각한다. 가격대만 Splice 보다 착하게 나왔으면 좋겠다.
      • 2024.06.22 19:40 추가: 비슷한 서비스가 이미 나왔다. ElevenLabs가 Sound Effects라는 서비스를 이번 달 1일에 이미 선보였다. 역시 이미 누군가가 선수칠 줄 알았다.

    2. 고도화된 Text-to-Speech 서비스
      • 이전에 Uberduckfastspeech / fastpitch 연구에서 영향을 받은 것 같은 고도화된 TTS 서비스를 선보인 바 있다. 한번 생성되고 난 발화 음성을 음절 별로 길이 및 높낮이(피치)를 조절해 다시 생성하도록 해주는 서비스였고, 상당히 많은 유명인과 가수들의 목소리로 서비스를 제공했었다. 최근 다시 찾아보니 라이센스 문제가 있었는지 서비스에서 제공하는 목소리의 범위가 많이 축소되고, 길이와 피치를 음절별로 조절하도록 도와주는 UI도 보이지 않았다.
      • 국내에서 TTS 분야에 압도적 1위를 달리고 있는 네오사피엔스(Neosapience)의 타입캐스트를 포함하여 많은 TTS 서비스들이 실제 성우의 목소리를 재현하는 데 그치고 있다. 나는 이전에 다니던 회사에서부터 지금까지 세상에 존재하지 않는 상업적으로 이용 가능한 목소리를 만드는데 관심이 있는데, 목소리의 특성을 RPG 게임에서 원하는 캐릭터의 얼굴을 만들듯이 만드는 시스템이 구축되면 굉장히 유용할 것 같다.
      • 또한, 단일 목소리가 아니라 "아이들이 합창하는 목소리", "성가대가 우렁차게 합창하는 목소리" 등의 일반 인디 뮤지션들이 접근하기 힘든 목소리로 노래를 불러주는 VSTI 악기가 나온다면, 음악 및 오디오 콘텐츠 창작에 있어 또 다른 가능성을 열어줄 것 같다.

    3. 음악 선생님 모델
      • 지금까지 등장한 LLM/LMM 파운데이션 모델 기술을 어떻게 잘 조합하면 충분히 나올법한 기술 및 서비스라고 생각되는데, 아직 안 나오고 있는 게 오히려 신기하다.
      • 특정 음악을 들려주면, 이게 몇 년도의 무슨 밴드의 어떤 장르/스타일의 음악인지 알려주는 거대 음악 파운데이션 모델 기반 서비스가 나오면 좋겠다. 사실 뉴튠(Neutune)의 Mix.audio가 오디오 프롬프트 기능을 통해 입력된 음원을 텍스트 프롬프트로 바꿔주면서 간접적으로 이 기능을 무료로 선보이고 있는데, 내가 원하는 수준까지 정확도가 높은 건 아직 아니다. (그리고 애초에 그 목적으로 제공되고 있는 기능도 아니기도 하다.)
      • 이런 서비스가 나온다면 내가 제일 기대하고 있는 기능은, 내가 만든 멜로디와 리듬이 표절인지 아닌지를 검사해 주는 것이다. 논문 표절 서비스들과는 달리 상업적 음악들은 라이센스 문제가 있어 AI 음악 기업들이 직접적으로 이 음악 데이터들을 DB화 시키거나 AI 모델에 학습시키는 것을 다소 곤란해하고 있는 것으로 알고 있다. 하지만, 나 같은 작곡 초보들, 특히 내 머릿속에서 나온 멜로디가 진짜 내가 만든 멜로디인지 아니면 옛날에 들었던 멜로디인지 헷갈려하는 사람들 입장에서는 정말 필요한 서비스들 중 하나다.

      가장 베스트는 내가 이런 연구들을 직접 수행하고 프로그램 개발을 하는 것이긴 한데, 올해 박사 과정을 시작하면서 빵꾸난 수학 기반 지식을 메우는 데 바빠서 누군가가 선수칠 것 같다. 슬프다. 맨날 망상만 하고 정작 연구하려면 연구 역량이 딸려서 못하고. 환경 탓도 못할 정도로 좋은 연구 환경에 있는데도. 나는 언제쯤 되어야 시대를 이끌어나가는 혁신적인 연구를 해볼 수 있을까?

Copycat ⓒ 2009. 호미 Hommy. All rights not reserved.