메인 콘텐츠로 건너뛰기
AMZN logo
AMZNNASDAQ긍정AI/기술

Amazon Nova Sonic 출시: 음성 애플리케이션 및 에이전트 구축을 위한 차세대 AI 모델

Amazon
중요도

AI 요약

Amazon이 새로운 AI 모델인 Nova Sonic을 출시하며 음성 애플리케이션 개발을 간소화하고 인간과 유사한 음성 대화를 구현합니다.

경쟁사 대비 뛰어난 정확도와 품질을 자랑하며, 이는 AI 기반 음성 서비스 시장에서의 경쟁력 강화와 매출 성장에 긍정적인 영향을 미칠 것으로 기대됩니다.

핵심 포인트

  • Amazon이 새로운 AI 모델인 Nova Sonic을 출시하며 음성 애플리케이션 개발을 간소화하고 인간과 유사한 음성 대화를 구현합니다.
  • 경쟁사 대비 뛰어난 정확도와 품질을 자랑하며, 이는 AI 기반 음성 서비스 시장에서의 경쟁력 강화와 매출 성장에 긍정적인 영향을 미칠 것으로 기대됩니다.

긍정 / 부정 요인

긍정 요인

  • 새로운 AI 모델 출시
  • 음성 애플리케이션 개발 간소화
  • 인간과 유사한 음성 대화 구현
  • 경쟁사 대비 뛰어난 정확도 및 품질
  • AI 기반 음성 서비스 시장 경쟁력 강화 기대

기사 전문

아마존, AI 음성 대화 혁신할 'Amazon Nova Sonic' 공개 아마존닷컴(NASDAQ: AMZN)이 AI 애플리케이션에서 더욱 인간적인 음성 대화를 가능하게 하는 새로운 파운데이션 모델 'Amazon Nova Sonic'을 공개했습니다. 이 모델은 음성 이해와 음성 생성을 단일 모델로 통합한 것이 특징입니다. Amazon Bedrock을 통해 새로운 양방향 스트리밍 API로 제공되는 Nova Sonic은 여행, 교육, 의료, 엔터테인먼트 등 다양한 산업 분야에서 고객 서비스 통화 자동화 및 AI 에이전트와 같은 음성 애플리케이션 개발을 간소화합니다. Rohit Prasad, SVP of Amazon Artificial General Intelligence는 "Alexa라는 세계 최고의 개인 AI 비서 발명부터 다양한 산업에서 사용되는 Connect, Lex, Polly와 같은 AWS 서비스 개발에 이르기까지, 아마존은 오랫동안 음성 기반 애플리케이션이 고객의 삶을 더 좋고 편리하게 만들 수 있다고 믿어왔습니다"라며, "Amazon Nova Sonic을 통해 Amazon Bedrock에 새로운 파운데이션 모델을 출시하여 개발자들이 더 높은 정확도로 작업을 완료하고, 더 자연스럽고 매력적인 음성 기반 애플리케이션을 더 쉽게 구축할 수 있도록 합니다"라고 말했습니다. 기존의 음성 지원 애플리케이션 구축 방식은 음성을 텍스트로 변환하는 음성 인식, 응답을 이해하고 생성하는 대규모 언어 모델(LLM), 텍스트를 다시 오디오로 변환하는 텍스트 음성 변환 등 여러 모델의 복잡한 오케스트레이션이 필요했습니다. 이러한 파편화된 접근 방식은 개발 복잡성을 증가시킬 뿐만 아니라, 자연스러운 대화에 필수적인 톤, 억양, 말하는 스타일과 같은 중요한 음향적 맥락과 뉘앙스를 보존하지 못했습니다. Nova Sonic은 이러한 문제를 통합 모델 아키텍처를 통해 해결합니다. 각 단계마다 별도의 모델이 필요 없이 음성 이해와 생성을 모두 제공합니다. 이러한 통합을 통해 모델은 음향적 맥락(예: 톤, 스타일)과 음성 입력에 맞춰 생성된 음성 응답을 조정하여 더욱 자연스러운 대화를 가능하게 합니다. Nova Sonic은 화자의 자연스러운 휴지 및 망설임, 적절한 시점까지 기다렸다가 말하는 것, 그리고 끼어드는 말(barge-ins)을 자연스럽게 처리하는 등 인간 대화의 뉘앙스까지 이해합니다. 또한 사용자의 음성에 대한 텍스트 전사를 생성하여 개발자가 이를 사용하여 음성 지원 AI 에이전트를 구축하기 위한 특정 도구 및 API를 호출할 수 있습니다. (예: 최신 항공편 정보를 검색하여 항공편을 예약할 수 있는 AI 기반 여행 에이전트) 이러한 기능과 번개처럼 빠른 추론 속도는 Nova Sonic 기반 음성 애플리케이션을 더욱 자연스럽고 유용하게 만듭니다. 최첨단 정확도 및 품질 Nova Sonic은 음성 이해 및 생성에 대한 광범위한 업계 표준 벤치마크에 대해 엄격하게 테스트되었으며, 인간과 유사한 실시간 음성 대화에 대해 탁월한 품질과 정확도를 보여주었습니다. 이 모델은 대화 맥락을 유지하면서 휴지, 망설임, 중단을 비즈니스적으로 이해하고 조정하는 자연스러운 대화 처리에 탁월합니다. 이러한 기능은 턴테이킹 테스트에서 전반적인 품질 및 정확도에 대한 강력한 성능에 기여했습니다. Nova Sonic은 현재 OpenAI의 GPT-4o (Realtime) 및 Google Gemini Flash 2.0 (Gemini의 실험적 라이브 API를 통해 사용 가능)과 같은 유사한 실시간 대화 음성 기능을 갖춘 소수의 모델과 비교하여 전반적인 대화 품질에서 강력한 성능을 보여줍니다. 예를 들어, 미국 영어 남성 목소리의 단일 턴 대화는 Common Eval 데이터 세트를 기반으로 OpenAI의 GPT-4o (Realtime) 및 Google의 Gemini Flash 2.0에 대해 각각 51.0% 및 69.7%의 승률을 기록했습니다. 마찬가지로, Nova Sonic의 미국 영어 여성 목소리는 동일한 데이터 세트에서 OpenAI의 GPT-4o (Realtime) 및 Google의 Gemini Flash 2.0에 대해 각각 50.9% 및 66.3%의 승률을 기록했습니다. Nova Sonic은 또한 영국 영어 여성 목소리에서 OpenAI의 GPT-4o (Realtime)에 대해 58.3%의 승률을 기록하며 성능을 능가합니다. 음성을 인식하는 것은 정확한 응답을 생성하는 데 중요하므로, 다양한 언어, 방언 및 억양에 걸쳐 Nova Sonic의 음성 인식 정확도를 단어 오류율(WER) 측면에서 측정하는 것도 중요합니다. Multilingual LibriSpeech에서 Nova Sonic은 영어, 프랑스어, 이탈리아어, 독일어, 스페인어에 대한 평균 WER이 4.2%로 OpenAI의 GPT-4o Transcribe 모델보다 36.4% 낮았습니다. Multilingual LibriSpeech (MLS) 데이터 세트의 영어 발화에서 OpenAI의 GPT-4o Transcribe 모델보다 24.2% 낮은 WER을 기록했습니다. Nova Sonic은 또한 노이즈 환경에서도 견고하며, 실제 노이즈 및 다중 화자 상호 작용으로 구성된 Augmented Multi Party Interaction (AMI) 회의 벤치마크에서 측정된 OpenAI의 GPT-4o Transcribe 모델과 비교하여 영어에 대해 46.7% 낮은 WER을 보입니다. 도구 사용을 통한 함수 호출 및 에이전트 워크플로우 Nova Sonic은 가격 계획, 재고 가용성, 일정 가용성과 같은 기업 데이터에 사실적으로 기반한 응답이 필요한 고객 서비스 통화 자동화와 같은 애플리케이션을 위한 도구 사용도 지원합니다. Nova Sonic의 네이티브 도구 사용은 또한 모델이 복잡한 고객 문의를 해결하고 "예약하기" 또는 "대체 항공편 찾기"와 같이 고객을 대신하여 작업을 완료할 수 있도록 합니다. 다수의 네이티브 음성 및 말하기 스타일 Nova Sonic은 현재 영어로 제공되는 남성 및 여성 목소리를 포함한 세 가지 표현력 있는 음성을 지원하며, 미국 및 영국 억양을 포함한 다양한 영어 억양으로 음성 생성을 지원합니다. 추가 언어 및 억양에 대한 지원은 곧 제공될 예정입니다. 업계 선도적인 속도 및 가격 성능 Nova Sonic은 고객이 말을 마친 시점부터 시스템이 첫 번째 음성 응답을 생성할 때까지 평균 1.09초의 고객 체감 지연 시간을 제공합니다. 이는 Artificial Analysis의 벤치마킹에 따르면 OpenAI의 GPT-4o (Realtime)의 1.18초, Google의 Gemini Flash 2.0 (Gemini의 실험적 라이브 API를 통해 사용 가능)의 1.41초와 비교됩니다. Nova Sonic은 실시간 음성 대화와 유사한 기능을 가지고 있으며 공개 가격이 제공되는 모델과 비교할 때 업계에서 가장 비용 효율적인 모델입니다. 예를 들어, OpenAI의 GPT-4o (Realtime)보다 거의 80% 저렴합니다. Amazon Nova Sonic은 기업이 고객 만족도와 생산성을 향상시키는 데 도움을 주고 있습니다. ASAPP는 GenerativeAgent, 완전한 대화형 생성 AI 음성 에이전트를 통해 기업 고객의 컨택 센터가 탁월한 고객 서비스를 제공할 수 있도록 지원합니다. ASAPP의 AI 엔지니어링 부사장인 Nirmal Mukhi는 "ASAPP에서는 컨택 센터의 고객 서비스 개선을 위해 신뢰할 수 있고 안전하며 고성능 솔루션을 제공하기 위해 생성 AI를 사용하는 데 중점을 두고 있습니다. 우리는 Amazon Nova Sonic의 매우 정확한 음성 이해 기능에 특히 감명을 받았으며, 이를 통해 보다 자연스러운 음성 상호 작용과 전화 통화를 통한 정확한 대화 처리가 가능합니다"라고 말했습니다. "우리는 Nova Sonic을 계속 사용하여 기업 컨택 센터의 요구를 충족하는 안전하고 고품질이며 정확한 대화를 제공하게 되어 기쁩니다." Education First (EF)는 50개국 이상에 학교 및 사무실 네트워크를 보유한 국제 교육 분야의 선두 주자입니다. EF의 AI 및 데이터 부문 부사장인 Tim Hesse는 "Amazon Nova Sonic은 EF 학생들이 역동적인 학습 환경에서 새로운 어휘를 연습하고 발음을 개선할 수 있도록 지원하며, 모델의 대화형 특성은 학생들이 발음 시도에 대한 즉각적인 피드백을 받을 수 있도록 하여 보다 효율적이고 효과적인 학습 프로세스에 기여합니다. 이 모델은 다양한 억양을 가진 비원어민 영어 사용자를 정확하게 이해할 수 있습니다. 또한 모델이 중단에 빠르게 반응하는 Nova Sonic의 바지인 기능에도 감명을 받았습니다"라고 말했습니다. "이 기술의 확장성과 신뢰성은 교육 품질을 저하시키지 않으면서 동시에 더 많은 학생들에게 서비스를 제공할 수 있는 역량을 확장할 수 있도록 할 것입니다." Stats Perform는 전 세계 미디어 조직, 베팅 사업자 및 프로 스포츠 팀에 서비스를 제공하는 스포츠 데이터 및 AI 기술 제공업체입니다. Stats Perform의 최고 운영 책임자인 Mike Perez는 "Stats Perform에서 우리의 목표는 세계 최고의 스포츠 방송사, 미디어, 연맹 및 팀에게 방대한 실시간 및 과거 Opta 스포츠 데이터 세트의 마법을 제공하여 시청자, 고객 및 트로피를 획득하도록 돕는 것입니다. Opta AI Chat을 통해 그들은 놀라운 속도로 실시간 데이터 인사이트에 의해 구동되는 독특하고 정확하며 맥락에 맞는 응답을 여러 형식과 언어로 생성하여 승리하는 분석 또는 스토리텔링 우위를 찾을 수 있습니다"라고 말했습니다. "우리는 Amazon Nova Sonic을 테스트해 왔으며, 특히 시스템의 낮은 지연 시간에 감명을 받았습니다. 이는 복잡한 쿼리에 대해서도 거의 즉각적인 응답을 가능하게 하여 인간 전문가를 초인 전문가로 만드는 원활한 사용자 경험을 만듭니다. 직관적인 프롬프트 기능과 쉬운 설정은 우리의 기대를 뛰어넘어 구현을 단순화했습니다. 전반적으로 Nova Sonic은 환상적인 솔루션임이 입증되었습니다." 아마존은 인공지능의 책임감 있는 개발에 전념하고 있습니다. Amazon Nova 모델은 통합된 안전 조치 및 보호 기능으로 구축됩니다. 회사는 Nova 모델에 대한 AWS AI 서비스 카드를 출시하여 사용 사례, 제한 사항 및 책임감 있는 AI 관행에 대한 투명한 정보를 제공합니다. Amazon Nova 모델을 시작하려면 https://aws.amazon.com/nova/ 를 방문하십시오. 더 자세한 내용은 https://www.aboutamazon.com/ 에서 오늘 발표에 대한 정보를 확인하십시오. Amazon.com, Inc. 미디어 문의 [email protected] www.amazon.com/pr 출처: Amazon.com, Inc.

관련 기사