AI 요약
META가 AI 연구 모델 5개를 공개하며 혁신 가속화에 나섰다.
특히 텍스트와 이미지를 동시에 처리하는 Chameleon 모델과 AI 음성 탐지 기술 AudioSeal을 공개하며 기술 리더십 강화에 대한 기대감이 상승하고 있다.
또한, AI 모델 학습 속도를 높이는 다중 토큰 예측 기술을 선보이며 AI 분야에서의 경쟁 우위를 확보할 것으로 전망된다.
핵심 포인트
- META가 AI 연구 모델 5개를 공개하며 혁신 가속화에 나섰다.
- 특히 텍스트와 이미지를 동시에 처리하는 Chameleon 모델과 AI 음성 탐지 기술 AudioSeal을 공개하며 기술 리더십 강화에 대한 기대감이 상승하고 있다.
- 또한, AI 모델 학습 속도를 높이는 다중 토큰 예측 기술을 선보이며 AI 분야에서의 경쟁 우위를 확보할 것으로 전망된다.
긍정 / 부정 요인
긍정 요인
- AI 연구 모델 5개 공개
- 텍스트 및 이미지 동시 처리 가능한 Chameleon 모델 공개
- AI 음성 탐지 기술 AudioSeal 공개
- AI 모델 학습 속도 향상 기술 공개
- AI 분야 기술 리더십 강화 기대
기사 전문
메타(META), AI 연구 성과 공개… 텍스트-이미지 생성 모델 등 5가지 모델 선보여
메타(META)의 인공지능 연구팀 FAIR(Fundamental AI Research)가 10년 이상 오픈 리서치를 통해 AI 기술 발전에 기여해왔습니다. 급변하는 AI 분야에서 전 세계 AI 커뮤니티와의 협력이 더욱 중요해지고 있다는 판단 하에, 메타는 최근 FAIR 연구 모델 5가지를 공개했습니다. 이번 공개에는 이미지-텍스트 변환 및 텍스트-음악 생성 모델, 다중 토큰 예측 모델, AI 생성 음성 탐지 기술 등이 포함됩니다. 메타는 이러한 연구 공개를 통해 AI 기술의 책임감 있는 발전을 촉진하고 새로운 아이디어 발현을 독려하고자 합니다.
**Chameleon: 텍스트와 이미지 모두 처리하고 생성하는 혁신 모델**
메타는 Chameleon 모델의 핵심 구성 요소를 연구 전용 라이선스 하에 공개했습니다. Chameleon은 텍스트와 이미지를 동시에 이해하고 생성할 수 있는 혼합 모달(mixed-modal) 모델입니다. 인간이 텍스트와 이미지를 동시에 인지하듯, Chameleon 역시 텍스트와 이미지를 동시에 처리하고 결과물을 생성할 수 있습니다. 기존의 대규모 언어 모델(LLM)이 텍스트를 이미지로 변환하는 등 단일 모달 결과물을 주로 생성하는 것과 달리, Chameleon은 텍스트와 이미지의 어떤 조합이든 입력으로 받아들이고 텍스트와 이미지의 어떤 조합이든 출력할 수 있습니다. 이를 통해 이미지에 대한 창의적인 캡션 생성이나 텍스트 프롬프트와 이미지를 혼합하여 완전히 새로운 장면을 만들어내는 등 무궁무진한 가능성을 열어갈 것으로 기대됩니다.
**다중 토큰 예측, AI 모델의 단어 예측 속도 향상**
대규모 텍스트 데이터로 학습된 LLM은 이미 창의적인 텍스트 생성, 아이디어 구상, 질문 답변 등 다양한 분야에서 활용되고 있습니다. LLM의 기본적인 학습 목표는 '다음 단어 예측'입니다. 이 방식은 단순하고 확장 가능하지만 비효율적인 측면도 있습니다. 어린이가 언어 능력을 습득하는 데 필요한 것보다 수십 배 더 많은 텍스트가 요구되기 때문입니다. 메타는 지난 4월, 다중 토큰 예측(multi-token prediction) 방식을 도입하여 더 빠르고 효율적인 LLM 구축을 제안했습니다. 이 접근 방식은 기존의 한 번에 하나의 단어를 예측하는 방식 대신, 한 번에 여러 개의 미래 단어를 예측하도록 언어 모델을 학습시킵니다. 책임감 있는 오픈 사이언스 정신에 따라, 코드 완성을 위한 사전 학습 모델을 비상업적, 연구 전용 라이선스로 공개했습니다.
**JASCO, AI 음악 생성에 대한 제어력 강화**
생성형 AI는 텍스트 프롬프트를 음악 클립으로 변환하는 등 창의성을 발휘할 수 있는 새로운 방법을 제시했습니다. 기존의 MusicGen과 같은 텍스트-음악 생성 모델은 주로 텍스트 입력을 기반으로 음악을 생성하지만, 메타의 새로운 모델인 JASCO는 코드나 비트와 같은 다양한 입력을 받아들여 생성되는 음악 결과물에 대한 제어력을 향상시킵니다. 이를 통해 기호와 오디오를 동일한 텍스트-음악 생성 모델에 통합할 수 있습니다. JASCO는 생성 품질 측면에서 기존 모델들과 유사한 성능을 보이면서도, 생성되는 음악에 대한 훨씬 더 다양하고 유연한 제어를 가능하게 하는 것으로 나타났습니다.
**AudioSeal, AI 생성 음성 탐지 기술 공개**
메타는 AI 생성 음성을 국소적으로 탐지하기 위해 특별히 설계된 최초의 오디오 워터마킹 기술인 AudioSeal도 공개했습니다. AudioSeal을 사용하면 긴 오디오 스니펫 내에서 AI로 생성된 부분을 정확히 찾아낼 수 있습니다. 복잡한 디코딩 알고리즘에 의존하는 기존 방식과 달리, AudioSeal의 국소 탐지 접근 방식은 더 빠르고 효율적인 탐지를 가능하게 합니다. 이 설계는 이전 방식에 비해 탐지 속도를 최대 485배까지 향상시켜 대규모 및 실시간 애플리케이션에 적합합니다. AudioSeal은 상업용 라이선스로 공개되었으며, 생성형 AI 도구의 오용을 방지하기 위한 메타의 책임감 있는 연구 노력의 일환입니다.
**텍스트-이미지 생성 시스템의 다양성 증진**
텍스트-이미지 모델은 모든 사용자에게 잘 작동하고 전 세계의 지리적, 문화적 다양성을 반영해야 합니다. 이를 위해 메타는 텍스트-이미지 모델에서 발생할 수 있는 지리적 불균형을 평가하기 위한 자동 지표를 개발했습니다. 또한, 다양한 지역의 사람들이 지리적 표현에 대해 어떻게 인식하는지 이해하기 위해 대규모 주석 연구를 수행했습니다. 텍스트-이미지 모델에 대한 자동 및 인간 평가의 개선을 위해 매력도, 유사성, 일관성, 공유된 권장 사항을 다루는 65,000개 이상의 주석과 예당 20개 이상의 설문 응답을 수집했습니다. 이를 통해 AI 생성 이미지의 다양성과 표현력을 향상시킬 수 있습니다. 메타는 지리적 불균형 평가 코드와 수집된 주석을 공개하여 커뮤니티가 생성 모델 전반의 다양성을 개선하는 데 도움을 줄 것으로 기대하고 있습니다.