메인 콘텐츠로 건너뛰기
AMZN logo
AMZNNASDAQ긍정AI/기술

Amazon S3, 데이터 레이크 분석 속도 향상을 위한 관리형 Apache Iceberg 테이블 및 데이터 검색 및 이해 간소화를 위한 자동 메타데이터 생성 기능 확장

Amazon
중요도

AI 요약

Amazon S3가 Apache Iceberg 테이블 지원을 확대하며 데이터 레이크 분석 성능을 최대 3배 빠르게 향상시키고 메타데이터 자동 생성을 통해 데이터 검색을 간소화했습니다.

이는 AMZN의 클라우드 스토리지 서비스 경쟁력을 강화하며 데이터 분석 시장에서의 입지를 더욱 공고히 할 것으로 기대됩니다.

핵심 포인트

  • Amazon S3가 Apache Iceberg 테이블 지원을 확대하며 데이터 레이크 분석 성능을 최대 3배 빠르게 향상시키고 메타데이터 자동 생성을 통해 데이터 검색을 간소화했습니다.
  • 이는 AMZN의 클라우드 스토리지 서비스 경쟁력을 강화하며 데이터 분석 시장에서의 입지를 더욱 공고히 할 것으로 기대됩니다.

긍정 / 부정 요인

긍정 요인

  • Amazon S3의 분석 성능 최대 3배 향상
  • 메타데이터 자동 생성으로 데이터 검색 간소화
  • Apache Iceberg 테이블의 완전 관리형 지원 최초 도입

기사 전문

AWS re:Invent에서 Amazon Web Services(AWS)가 새로운 Amazon S3 기능들을 발표했습니다. 이번 발표는 S3를 분석 워크로드에 최적화된 최초의 클라우드 객체 스토리지로 만들고, 대규모 테이블 형식 데이터를 저장하고 관리하는 가장 쉬운 방법을 제공합니다. 새로운 기능에는 쿼리가 가능한 메타데이터를 자동으로 생성하는 기능이 포함되어 데이터 검색을 간소화하고 고객이 S3 내 데이터의 가치를 발굴하도록 돕습니다. Amazon S3 Tables는 Apache Iceberg 테이블을 기본 지원하는 최초의 클라우드 객체 스토리지로, 테이블 형식 데이터의 저장 및 쿼리를 최적화하는 새로운 버킷 유형을 도입했습니다. 이를 통해 분석 워크로드에서 최대 3배 빠른 쿼리 성능과 최대 10배 높은 초당 트랜잭션 수(TPS)를 제공하며, 자동화된 테이블 유지보수 및 관리를 지원합니다. Amazon S3 Metadata는 거의 실시간으로 쿼리가 가능한 객체 메타데이터를 자동으로 캡처하고, 객체 태그를 사용하여 사용자 정의 메타데이터를 저장합니다. 이 메타데이터는 S3 Tables에 저장되어 데이터 레이크 전반의 분석을 가속화합니다. AWS의 스토리지 부문 부사장 겸 석좌 엔지니어인 Andy Warfield는 "전 세계 400조 개 이상의 객체를 보유한 선도적인 객체 스토리지인 S3는 수백만 명의 고객이 사용하고 있으며, 우리는 전례 없는 규모의 데이터 작업을 단순화하기 위해 지속적으로 혁신하고 있습니다."라며, "테이블 형식 데이터의 급격한 증가와 함께 고객들은 테이블 간 쿼리, 쿼리 성능 향상, 방대한 데이터의 이해 및 구성에 대한 요구가 커지고 있습니다. S3 Tables와 S3 Metadata는 객체 위에 테이블 및 메타데이터 스토어를 구성하고 운영하는 오버헤드를 제거하여 고객이 데이터 구축에 다시 집중할 수 있도록 합니다."라고 말했습니다. S3 Tables와 S3 Metadata는 Apache Iceberg 테이블과 호환되어 고객은 Amazon Athena, Amazon QuickSight, Apache Spark를 포함한 AWS 분석 서비스 및 오픈 소스 도구를 사용하여 데이터를 쉽게 쿼리할 수 있습니다. Amazon S3 Tables는 S3에서 Apache Iceberg 테이블에 대한 분석을 가장 쉽고 빠르게 수행할 수 있는 방법입니다. 많은 고객이 분석에 사용하는 데이터를 테이블 형식으로 구성하며, 주로 데이터 쿼리에 최적화된 파일 형식인 Apache Parquet에 저장합니다. Parquet는 S3에서 가장 빠르게 성장하는 데이터 유형 중 하나가 되었으며, 고객들은 이러한 테이블 형식 데이터 세트를 쿼리할 수 있는 능력을 점점 더 원하고 있습니다. 이를 위해 오픈 테이블 형식(OTF)을 사용하는데, 이는 대량의 데이터를 구성, 업데이트 및 변경 사항을 추적하는 데 도움이 되는 오픈 소스 표준입니다. Iceberg는 Parquet 파일을 관리하는 가장 인기 있는 OTF가 되었으며, 고객들은 수십억 개의 파일에 걸쳐 페타바이트 또는 엑사바이트의 데이터를 쿼리하기 위해 Iceberg를 사용합니다. 그러나 Iceberg는 고객이 확장함에 따라 관리하기 어려울 수 있으며, 테이블 유지보수 및 데이터 압축을 처리하고 액세스 제어를 관리하기 위한 시스템을 구축하고 유지보수하기 위해 전담 팀이 필요한 경우가 많습니다. 이러한 외부 시스템은 비용이 많이 들고 복잡하며, 숙련된 팀이 유지보수해야 하므로 귀중한 리소스가 소모됩니다. Amazon S3 Tables는 데이터 레이크를 위한 Apache Iceberg 테이블 관리를 위해 특별히 설계되었습니다. S3 Tables는 분석 워크로드에 최적화되어 일반 목적의 S3 버킷에 비해 최대 3배 빠른 쿼리 성능과 10배 높은 TPS를 제공합니다. S3 Tables는 쿼리 성능 향상을 위한 압축 및 쿼리 성능과 스토리지 비용을 지속적으로 최적화하기 위한 스냅샷 관리와 같은 테이블 유지보수 작업을 자동으로 관리합니다. 고객은 테이블 형식 데이터의 저장 및 쿼리를 최적화하는 테이블 버킷을 생성하여 완전 관리형 Iceberg 테이블에서 S3 Tables를 사용할 수 있습니다. S3 Tables를 통해 고객은 행 수준 트랜잭션, 시간 여행 기능을 통한 쿼리 가능한 스냅샷, 스키마 진화 등 Iceberg의 이점을 누릴 수 있습니다. 또한 S3 Tables는 테이블 수준 액세스 제어를 제공하여 고객이 권한을 정의할 수 있습니다. AI 기반 경험 오케스트레이션 분야의 글로벌 리더인 Genesys는 데이터 레이크에 Amazon S3를 활용할 계획입니다. S3 Tables의 관리형 Iceberg 지원을 활용하여 Genesys는 다양한 데이터 분석 요구에 맞는 구체화된 뷰 계층을 제공할 것으로 예상합니다. S3 Tables의 Iceberg 테이블에 대한 기본 지원은 테이블 압축, 스냅샷 관리, 미참조 파일 정리와 같은 주요 유지보수 작업을 자동화하여 복잡한 데이터 워크플로우를 단순화할 것입니다. Genesys는 Iceberg 테이블을 직접 읽고 쓸 수 있는 Iceberg 호환 분석 도구의 광범위한 지원과 향상된 성능을 기대하고 있습니다. S3 Tables는 Genesys의 미래 데이터 전략의 기반이 되어, AI 기반 고객 및 직원 경험 솔루션을 지원하기 위한 더 빠르고 유연하며 안정적인 데이터 인사이트를 제공할 수 있도록 할 것입니다. Amazon S3 Metadata는 S3에서 데이터를 가장 쉽고 빠르게 검색하고 이해하는 방법입니다. 더 많은 고객이 S3를 중앙 데이터 저장소로 사용함에 따라 데이터의 양과 다양성이 기하급수적으로 증가했으며, 고객이 필요한 정확한 객체를 찾을 수 있도록 방대한 데이터를 이해하고 구성하는 방법으로 메타데이터의 중요성이 커지고 있습니다. 이 문제를 해결하기 위해 많은 고객은 복잡한 메타데이터 캡처 및 저장 시스템을 구축하고 유지보수하여 데이터 이해도를 높입니다. 그러나 이러한 메타데이터 시스템은 비용이 많이 들고 시간이 많이 소요되며 리소스 집약적입니다. 종종 데이터 엔지니어는 메타데이터가 처리 파이프라인을 통과할 때 수동으로 추적하고 업데이트해야 하며, 데이터 분석가는 분석 및 AI/ML 데이터 처리 워크플로우에 필요한 특정 데이터를 찾기 위해 대규모 객체 저장소를 수동으로 검사해야 합니다. Amazon S3 Metadata는 거의 실시간으로 쿼리가 가능한 객체 메타데이터를 자동으로 생성하여 데이터 검색을 가속화하고 데이터 이해도를 향상시켜 고객이 자체 복잡한 메타데이터 시스템을 구축하고 유지보수할 필요가 없도록 합니다. S3 Metadata를 통해 고객은 비즈니스 분석, 실시간 추론 애플리케이션 등을 위한 데이터를 쿼리, 검색 및 사용할 수 있습니다. S3 Metadata는 객체의 크기 및 소스와 같은 시스템 정의 세부 정보를 포함하는 객체 메타데이터를 자동으로 생성하고 새로운 S3 Tables를 통해 쿼리 가능하게 만듭니다. S3 Metadata는 객체가 추가되거나 제거될 때 S3 Tables의 객체 메타데이터를 업데이트하여 고객에게 데이터의 최신 보기를 제공합니다. 고객은 제품 SKU, 트랜잭션 ID 또는 콘텐츠 등급과 같은 비즈니스별 정보 또는 고객 세부 정보로 객체를 주석 처리하기 위해 객체 태그를 사용하여 자체 사용자 정의 메타데이터를 추가할 수 있습니다. 고객은 간단한 SQL 쿼리를 사용하여 메타데이터를 쉽게 쿼리할 수 있으므로 비즈니스 분석 및 실시간 추론 애플리케이션에 사용할 데이터를 신속하게 찾고 준비할 수 있으며, 기본 모델을 미세 조정하고, 검색 증강 생성(RAG)을 수행하고, 데이터 웨어하우스 및 분석 워크플로우를 통합하고, 대상 스토리지 최적화 작업을 수행하는 등의 작업을 할 수 있습니다. 모든 규모의 조직은 S3 Metadata가 제공하는 데이터 검색 및 이해로부터 혜택을 받을 것입니다. 선도적인 생명공학 기업인 Roche는 향후 생성형 AI 이니셔티브를 가속화하기 위해 S3 Metadata를 활용할 계획입니다. 정교한 내부 챗봇과 같은 고급 대규모 언어 모델(LLM) 애플리케이션을 개발함에 따라 향상된 RAG를 위해 기하급수적으로 더 많은 양의 비정형 데이터를 관리할 것으로 예상합니다. S3 Metadata는 새로운 데이터가 수집될 때 메타데이터를 자동으로 표시하고 업데이트하여 확장 가능한 메타데이터 시스템 생성을 단순화할 것입니다. Roche는 복잡한 비즈니스별 메타데이터를 추출하기 위해 사용자 정의 Lambda 함수를 사용하고 포괄적인 Glue 카탈로그에서 S3 Metadata와 원활하게 통합할 것을 구상하고 있습니다. 이를 통해 최첨단 AI 애플리케이션에 대한 관련 데이터 세트를 보다 효율적으로 구성하고 신속하게 식별할 수 있어 Roche가 개인 맞춤 의료 분야의 획기적인 혁신에 집중할 수 있습니다. Cambridge Mobile Telematics(CMT)는 세계 최대의 텔레매틱스 서비스 제공업체입니다. 이 회사는 장치에서 센서 데이터를 수집하고 컨텍스트 데이터로 보강하여 자동차 보험사, 자동차 제조업체, 상업용 이동성 회사 및 공공 부문에서 위험 평가, 안전, 청구 및 운전자 개선 프로그램을 지원하는 데 사용하는 차량 및 운전자 행동에 대한 통합 보기를 만듭니다. CMT는 전 세계 수백만 개의 IoT 장치에서 페타바이트 이상의 데이터를 저장하고 분석합니다. CMT가 확장됨에 따라 새로운 인사이트와 모델 개발을 위한 특정 데이터를 찾는 것이 점점 더 어려워지고 있습니다. 시스템 및 사용자 정의 메타데이터를 포함한 S3 Metadata를 통해 CMT는 페타바이트의 메타데이터를 쿼리할 수 있어 관련 데이터를 간단하고 비용 효율적으로 찾을 수 있습니다. S3 Tables(일반 공급) 및 S3 Metadata(미리 보기)는 오늘부터 사용할 수 있습니다. S3 Tables와 S3 Metadata 테이블을 포함한 데이터를 Amazon Athena, Redshift, EMR, QuickSight와 같은 AWS 분석 서비스를 사용하여 쿼리하고 시각화할 수 있는 AWS Glue Data Catalog와의 통합은 미리 보기 상태입니다. 자세한 내용은 S3 Tables 및 S3 Metadata AWS News Blog 게시물, S3 Tables 및 S3 Metadata 제품 세부 정보 페이지, S3 Tables 및 S3 Metadata 동영상을 참조하십시오.

관련 기사