AI 요약
META의 Reality Labs 연구팀이 AR 글래스용 혁신적인 오디오 기술 개발에 박차를 가하고 있습니다.
이 기술은 주변 소음을 효과적으로 차단하고 음성 전달력을 높여, 향후 메타버스 경험의 몰입감을 극대화할 것으로 기대됩니다.
핵심 포인트
- META의 Reality Labs 연구팀이 AR 글래스용 혁신적인 오디오 기술 개발에 박차를 가하고 있습니다.
- 이 기술은 주변 소음을 효과적으로 차단하고 음성 전달력을 높여, 향후 메타버스 경험의 몰입감을 극대화할 것으로 기대됩니다.
긍정 / 부정 요인
긍정 요인
- AR 글래스용 혁신적인 오디오 기술 개발
- 주변 소음 차단 및 음성 전달력 향상 기술
- 메타버스 경험 몰입감 극대화 기대
기사 전문
META, AR 글래스로 '마법 같은' 청각 경험 선사한다
페이스북 리얼리티 랩스(Facebook Reality Labs Research)의 오디오 팀이 미래 AR 글래스를 통해 소음이 심한 환경에서도 더 잘 듣고, 마치 그 자리에 있는 듯한 '오디오 프레젠스(audio presence)'와 '지각 초능력(perceptual superpowers)'을 구현하는 혁신적인 기술을 개발하고 있습니다.
내부 시리즈 'Inside Facebook Reality Labs' 최신 글에서 팀은 현재 시연 중인 기술과 프로토타입을 심층적으로 소개했습니다. 아서 C. 클라크의 유명한 말처럼 "충분히 발전된 기술은 마법과 구별할 수 없다"는 말이 있듯이, 페이스북이 선보이는 놀라운 기술들을 직접 경험하고 그 내용을 공유하고자 합니다.
소리는 사랑하는 사람의 목소리든, 노래의 감동이든 다른 어떤 감각 경험과도 비교할 수 없는 풍부한 감정을 담고 있습니다. 하지만 종종 소음, 거리, 혹은 우리의 청력 능력 한계로 인해 그 경험이 퇴색되거나 왜곡되곤 합니다. 페이스북은 이러한 한계를 극복하고자 합니다.
VR 헤드셋이나 AR 글래스를 착용하고 수천 마일 떨어진 곳으로 이동해 마치 그곳에 있는 것처럼 수업을 듣거나, 일하거나, 친척의 생일 파티에 참석하는 경험을 상상해 보세요. 이를 '소셜 프레젠스(social presence)'라고 합니다. 현재 기술은 비현실적인 소리 때문에 이러한 약속을 완벽하게 이행하지 못하고 있습니다. 시끄러운 배경 때문에 말을 반복해야 하거나, 누가 무슨 말을 하는지 알아듣지 못해 대화의 흐름을 놓친 경험은 누구나 있을 것입니다. 같은 장소에 있더라도 주변 환경은 인간적인 연결의 질에 영향을 미칩니다. 시끄러운 배경은 대화를 방해하고, 때로는 우리를 침묵하게 만들거나 목소리를 잃게 만들기도 합니다.
이제 같은 AR 글래스가 우리의 청력 능력을 한 차원 높여 레스토랑, 커피숍, 콘서트장과 같이 시끄러운 장소에서도 더 잘 듣게 해준다고 상상해 보세요. 이는 우리의 대면 상호작용의 질을 어떻게 변화시킬까요?
Facebook Reality Labs Research는 증강현실(AR)과 가상현실(VR)의 미래를 만들어가고 있습니다. FRL Research는 연구 과학자, 엔지니어, 디자이너 등으로 구성된 매우 학제적인 오디오 팀을 구성하여 혁신적인 오디오 기술을 통해 인간의 소통을 개선하기 위해 노력하고 있습니다. 팀의 임무는 두 가지입니다. 첫째, 현실과 지각적으로 구별할 수 없는 가상 소리를 만드는 것. 둘째, 인간의 청력을 재정의하는 것입니다. 이를 위해 팀은 두 가지 새로운 기능을 제공하는 데 중점을 두고 있습니다. 첫째, '오디오 프레젠스'로, 가상 소리의 출처가 청취자와 같은 공간에 물리적으로 존재한다는 느낌을 현실과 구별할 수 없을 정도로 높은 충실도로 전달하는 것입니다. 둘째, '지각 초능력'으로, 우리 앞의 사람의 목소리는 키우고 원치 않는 배경 소음은 줄여 시끄러운 환경에서 더 잘 들을 수 있도록 하는 기술적 발전입니다.
세계에서 가장 큰 오디오 연구팀 중 하나인 FRL Research 오디오 팀은 라비쉬 메흐라(Ravish Mehra)가 이끌고 있으며, 6년 만에 단 한 명에서 세계적인 전문가 팀으로 성장했습니다. 이 팀은 혁신적인 연구 문제를 해결하고, 개념 증명 솔루션을 생성하며, 설득력 있는 경험을 통해 이러한 솔루션을 입증하고 있습니다. 저는 이러한 경험에 참여할 기회가 있었고, 오디오 통신의 미래에 대한 함의는 놀라웠습니다. 이는 진정한 몰입형 경험을 제공하는 완전히 새로운 하드웨어 및 소프트웨어 기술 스택을 발명해야 하는 소통의 미래 이야기입니다.
듣는 것이 믿는 것입니다: 오디오 프레젠스
록스타가 되고 싶었던 연구 과학자 파블로 호프만(Pablo Hoffmann)은 오늘날 마술사에 가깝습니다. 그는 헤드폰을 통해 거의 하드웨어의 색채 없이 항상 초고음질로 소리를 들을 수 있는 올웨이즈온 오디오 보정 시스템을 성공적으로 개발했습니다. 이 시연은 FRL Research의 혁신적인 알고리즘과 소프트웨어 처리 기술, 그리고 기성 하드웨어를 사용하여 오디오 개인화, 방음향 재현, 하드웨어 장치를 음향적으로 투명하게 만드는 경험을 보여줍니다.
저는 워싱턴주 레드먼드에 있는 그의 책상에 앉아 있을 때, 그는 귀 입구에 특별히 배치된 마이크가 달린 헤드폰을 건네주었습니다. 다음 2분 동안 마이크는 제 관점에서 방의 소리를 녹음했습니다. 호프만은 다른 위치에서 크고 작게 말하고, 기타를 연주하고, 심지어 제 뒤에서 열쇠를 떨어뜨리기도 했습니다.
호프만은 제가 헤드폰으로 듣는 동안 오디오 녹음 재생했습니다. 너무나 현실적이어서 실제와 거의 구별할 수 없습니다. 사실, 그의 옆자리에 앉아 있을 때, 저는 그의 입술이 움직이지 않는 것을 보면서도 그가 제 주변 시야에 보이는 대로 저에게 말하고 있다고 돈을 걸 수 있을 정도였습니다. 하지만 그를 바라보면, 그의 입술이 움직이지 않는 것을 볼 수 있습니다. 그의 방향에서 들리는 소리는 완전히 합성된 것이었습니다. 이것은 2분간의 데자뷰였습니다. 이것이 바로 현실과 지각적으로 구별할 수 없는 가상 소리를 만드는 것이 무엇인지 보여주는 것입니다. 그리고 그 작업을 실제로 보면, 그것은 자비로운 종류의 마법과 같습니다.
연구 리드인 필립 로빈슨(Philip Robinson)은 "'지각적으로 구별할 수 없다'는 말은 쉽게 할 수 있습니다. 하지만 직접 들어보면 그것은 마법입니다."라고 설명합니다.
현실적인 오디오의 재료
누군가 방에서 당신에게 말할 때, 한쪽 귀가 다른 쪽 귀보다 먼저 소리를 듣습니다. 각 귀의 볼륨도 다릅니다. 게다가 귀의 모양은 각자가 소리를 듣는 방식을 아주 미묘하게 변화시킵니다. 이러한 모든 신호는 뇌에게 소리가 어디에서 오는지를 알려줍니다. 그리고 소리는 환경과 상호작용하며, 귀에 도달하기 전에 벽에 반사됩니다. 이것들이 정확하게 재현된다면 가상 소리가 실제 소리를 복제할 수 있게 하는 핵심 구성 요소입니다.
2017년에 오디오 연구팀은 실제 생활에서 소리가 오는 방향을 모방하는 가상 소리인 '공간화된 오디오(spatialized audio)'를 출시하는 데 기여했습니다. 또한 가상 환경을 더욱 사실적으로 만드는 고품질 음향 시뮬레이션 기술을 발명했습니다. 이러한 기술은 공간 오디오의 최신 기술을 발전시켰으며, First Steps 및 Oculus First Contact를 포함한 Oculus Quest 및 Rift Platform의 많은 현재 경험을 지원합니다.
다음 개척지는 공간 오디오를 개인화하고 소리가 실제 환경과 어떻게 상호작용하는지를 모델링하는 것입니다. 레드먼드 연구소의 다음 두 장소에서 팀은 두 가지 측면 모두에서 진행 상황을 보여줍니다.
공간 오디오 개인화
연구원은 무향실로 저를 안내했습니다. 이 방은 수백만 달러 규모의 시설로, 스프링에 매달려 있고 주변 건물과 3피트 너비의 공기 간격과 사방에 4인치 두께의 강철 패널로 분리되어 모든 반향을 흡수합니다. 방은 너무 조용해서 자신의 심장 박동 소리를 들을 수 있을 정도입니다. 위에서 아래로 54개의 스피커가 달린 기계 팔이 360도 호를 자유롭게 회전하며, 제 귀의 고유한 기하학적 구조에 소리가 어떻게 반응하는지를 측정하기 위해 톤을 재생합니다. 전체 과정은 약 30분 정도 소요되며, 최종적으로는 공간화된 오디오를 듣는 개인적인 경험의 디지털 표현, 즉 '머리 전달 함수(Head-Related Transfer Function, HRTF)'라고도 불리는 것을 볼 수 있습니다.
현재 컴퓨터 게임 및 VR에서 사용되는 대규모 솔루션은 '일반적인' 일률적인 HRTF로, 모든 사람에게 완벽한 공간 정확도를 제공하지 못합니다. 이는 마치 김 서린 자동차 앞유리를 통해 보는 것과 같습니다. 개인화된 HRTF 측정은 이러한 한계를 극복하고 모든 사람이 실제 소리를 개별적으로 인식하는 방식과 동일한 방식으로 가상 소리를 진정으로 들을 수 있도록 합니다. 마치 완벽하게 맑은 유리를 통해 보는 것과 같습니다.
무향실은 고유한 HRTF를 캡처하는 확장 가능한 방법이 분명히 아니지만, 오디오 연구팀은 여러 혁신적인 접근 방식을 고려하고 있습니다. 한 가지 예로, 언젠가는 귀 사진과 같이 간단한 것에서 작동 가능한 개인화된 HRTF를 근사할 수 있는 알고리즘을 개발하기를 희망합니다.
방음향 모델링
특정 공간을 통해 소리가 어떻게 이동하고, 귀에 도달하기 전에 표면에 반사되는지를 이해하는 것은 가상 소리가 실제 소리를 복제하도록 만드는 또 다른 강력한 도구입니다. 시각적 AR이 가상 객체의 기하학적 구조와 조명을 올바르게 파악하기 위해 SLAM(Simultaneous Localization and Mapping)을 사용하는 것처럼, 오디오 측면에서는 가상 소스 위치를 실제 공간에 원활하게 배치하기 위해 방의 음향 특성을 이해해야 합니다.
방음향에 대한 저의 개인적인 마스터 클래스를 위해, 팀은 제가 방 주위에 설치된 일련의 물리적 스피커에서 나오는 소리와 제가 착용한 오픈 이어 헤드폰에서 나오는 소리를 구별하는 게임을 하도록 초대했습니다. 저는 공간을 이동할 수 있고 소리가 그에 따라 반응하는 것을 들을 수 있었습니다. 저는 스스로를 약간의 오디오 애호가라고 생각하지만, 실제 소리와 가상 소리를 구별하려는 제 시도는 약 50-50으로 최고치를 기록했습니다. 헤드폰에서 나오는 소리임에도 불구하고, 공간화된 오디오와 시뮬레이션된 음향은 너무나 현실적이어서 제 뇌는 제가 듣는 소리가 방 안의 스피커에서 나오는 것이라고 완전히 확신했습니다. 소리가 실제로 어디에서 오는지 확인하기 위해 헤드폰을 벗어야 할 정도였습니다.
로빈슨은 "전화 통화를 하다가 거리에 의해 분리되었다는 사실을 잊었다고 상상해 보세요. 그것이 우리가 개발하는 기술의 약속입니다."라고 말합니다.
이것이 무엇을 의미하는지 이해하기 위해 팀은 제가 자신의 위치가 아닌 다른 장소에 실시간으로 존재하는 것처럼 느끼게 하는 능력인 '텔레프레즌스(telepresence)'를 보여주는 데모를 보여주었습니다. 저는 수정된 Oculus Rift 헤드셋과 헤드폰을 착용한 채 방에 앉아 있었지만, 마치 제가 다른 곳에 앉아 동료 연구원들과 함께 테이블에 앉아 있는 것처럼 느껴졌습니다. 저는 헤드셋을 통해 회의실을 볼 수 있었습니다. 32개의 배열이...