메인 콘텐츠로 건너뛰기
NVDA logo
NVDANASDAQ긍정AI/기술

Tachyum, Nvidia Rubin Ultra 대비 AI 랙 성능 21배 향상된 2nm Prodigy 공개

Business Wire
중요도

AI 요약

경쟁사 Tachyum이 NVIDIA Rubin Ultra 대비 21배 높은 AI 랙 성능을 자랑하는 2nm Prodigy 칩을 공개하며 NVIDIA의 AI 칩 시장 경쟁 심화를 예고했습니다.

Tachyum은 훨씬 저렴한 비용으로 더 큰 규모의 AI 모델 구현을 목표로 하고 있어 NVIDIA에게는 잠재적인 위협 요인이 될 수 있습니다.

핵심 포인트

  • 경쟁사 Tachyum이 NVIDIA Rubin Ultra 대비 21배 높은 AI 랙 성능을 자랑하는 2nm Prodigy 칩을 공개하며 NVIDIA의 AI 칩 시장 경쟁 심화를 예고했습니다.
  • Tachyum은 훨씬 저렴한 비용으로 더 큰 규모의 AI 모델 구현을 목표로 하고 있어 NVIDIA에게는 잠재적인 위협 요인이 될 수 있습니다.

긍정 / 부정 요인

부정 요인

  • 경쟁사 신제품 출시로 인한 경쟁 심화

기사 전문

Tachyum, 엔비디아 제치고 AI 칩 시장 판도 흔들까? 2nm 공정 'Prodigy' 공개 AI 시장의 경쟁이 가속화되는 가운데, 반도체 스타트업 Tachyum이 엔비디아(Nvidia)의 최신 AI 칩을 압도하는 성능을 자랑하는 2nm 공정 기반의 'Prodigy' 프로세서를 공개하며 이목을 집중시키고 있습니다. Tachyum은 2nm 공정 기술을 적용한 'Prodigy' 유니버설 프로세서의 상세 사양을 발표했습니다. 이 칩은 기존 솔루션 대비 수십 배 더 큰 규모의 AI 모델을 훨씬 저렴한 비용으로 구현할 수 있도록 설계되었습니다. 구체적으로 'Prodigy Ultimate' 모델은 엔비디아의 'Rubin Ultra NVL576' 대비 최대 21.3배, 'Prodigy Premium' 모델은 'Vera Rubin 144' 대비 최대 25.8배 높은 AI 랙 성능을 제공하는 것으로 알려졌습니다. 특히 'Prodigy' 칩은 추론(inference) 작업에서 1,000 PFLOPs를 최초로 돌파하는 성능을 기록했으며, 이는 엔비디아의 'Rubin' 칩이 제공하는 50 PFLOPs를 훨씬 뛰어넘는 수치입니다. 이러한 기술적 세부 사항은 곧 공개될 예정입니다. 현재 AI 모델은 방대한 연산 능력을 요구합니다. 예를 들어, ChatGPT 4는 약 1.8조 개의 매개변수(parameter)를 가지고 있으며, 인간의 뇌는 약 150조 개의 시냅스를 가지고 있는 것으로 추정됩니다. 최근 등장한 BaGauLu와 같은 시스템은 174조 개의 매개변수에 달하지만, 궁극적으로는 인류 전체의 집단 지식을 학습하는 모델이 10^20개 이상의 매개변수를 가질 것으로 예상됩니다. 이러한 대규모 AI 솔루션은 기존 방식으로는 8조 달러 이상의 비용과 276기가와트(GW) 이상의 전력을 필요로 할 것으로 추산됩니다. 반면, Tachyum은 유사한 성능을 약 780억 달러의 비용과 1기가와트의 전력으로 달성할 수 있을 것으로 전망하며, 이는 더 많은 기업과 국가가 AI 기술에 접근할 수 있게 할 것으로 기대됩니다. Tachyum은 AI 시장의 혁신을 위해 소프트웨어를 오픈소스로 공개하는 것 외에도, 표준 부품을 사용하는 메모리 기술을 제공합니다. 이는 라이선싱을 통해 메모리 또는 프로세서 회사들이 DIMM 기반 메모리 대역폭을 최대 10배까지 증가시킬 수 있도록 지원하며, JEDEC 표준 채택을 통해 높은 호환성과 낮은 비용을 달성할 수 있습니다. 이미 2023년에는 라이선스 가능한 Tachyum AI(TAI) 데이터 타입을 발표했으며, Tachyum Processing Unit(TPU) 코어도 라이선스 형태로 제공하고 있습니다. 또한, 명령어 집합 아키텍처(ISA)를 오픈소스로 공개하는 작업도 진행 중입니다. Tachyum은 서버, AI, 고성능 컴퓨팅(HPC) 시장의 끊임없이 변화하는 요구사항을 충족시키기 위해 'Prodigy' 설계를 지속적으로 업그레이드해왔습니다. 이를 통해 최대 5배의 정수 연산 성능, 최대 16배의 AI 성능, 8배의 DRAM 대역폭, 4배의 칩 간 및 I/O 대역폭, 16개 소켓 지원을 통한 4배의 확장성, 그리고 2배의 전력 효율성을 달성했으며, 코어당 비용도 절감했습니다. 특히 'Prodigy' 칩은 전력 소비를 대폭 줄이기 위해 2nm 공정으로 업그레이드되었습니다. 2nm 웨이퍼의 높은 비용에도 불구하고, 칩렛(chiplet)의 다이(die) 크기를 줄여 비용 효율성을 높였습니다. 'Prodigy' 패키지 내 각 칩렛은 256개의 고성능 맞춤형 64비트 코어를 통합하고 있습니다. 여러 칩렛이 단일 패키지에 집적되는 만큼, 전력 소비 감소는 매우 중요한 요소입니다. 최근 2억 2천만 달러의 투자를 유치한 Tachyum은 2nm 'Prodigy' 칩의 테이프아웃(tape-out) 준비를 완료했습니다. 다양한 성능과 애플리케이션을 지원하는 여러 'Prodigy' SKU(Stock Keeping Unit)가 출시될 예정입니다. 여기에는 빅 AI, 엑사스케일 슈퍼컴퓨팅, HPC, 디지털 통화, 클라우드/하이퍼스케일, 빅데이터 분석, 데이터베이스 등이 포함됩니다. 'Prodigy Ultimate'은 1,024개의 고성능 코어, 24개의 DDR5 17.6GT/s 메모리 컨트롤러, 128개의 PCIe 7.0 레인을 통합합니다. 'Prodigy Premium'은 16개의 DRAM 채널과 512개에서 128개까지 확장 가능한 코어를 갖추고 있으며, 최대 16개 소켓 시스템까지 지원합니다. 보급형 'Prodigy' 모델은 8개 또는 4개의 DRAM 컨트롤러와 128개에서 32개까지의 코어를 제공합니다. 'Prodigy'의 기능, 확장성, 가격 세분화는 빠른 시장 침투를 보장합니다. Tachyum은 즉시 사용 가능한 네이티브 시스템 소프트웨어, 운영체제, 컴파일러, 라이브러리, 다양한 애플리케이션 및 AI 인프라 프레임워크를 제공합니다. 또한, 수정되지 않은 Intel/AMD x86 바이너리를 실행하고 이를 네이티브 애플리케이션과 혼합하여 사용할 수 있도록 지원합니다. 이를 통해 고객은 출시 첫날부터 Tachyum 시스템을 즉시 운영할 수 있습니다. Tachyum의 창립자이자 CEO인 Dr. Radoslav Danilak는 "오랜 기다림 끝에 테이프아웃 자금 확보가 완료됨에 따라, 오늘날 데이터센터의 내재적 한계를 극복하도록 설계된 세계 최초의 유니버설 프로세서가 생산 단계로 나아갈 수 있게 되었습니다"라며, "Prodigy가 겨냥하는 AI, 서버, HPC 시장은 빠르고 효율적인 칩을 필요로 합니다. Tachyum의 Prodigy Premium과 Ultimate은 시장의 어떤 다른 솔루션보다도 뛰어난 성능을 더 낮은 비용으로 제공하여 워크로드를 가속화할 것입니다"라고 밝혔습니다. 'Prodigy' 유니버설 프로세서는 기존 대비 수십 배 높은 AI 성능, 최고의 x86 프로세서 대비 3배의 성능, 그리고 가장 빠른 GPGPU 대비 6배의 HPC 성능을 제공합니다. 고가의 전용 AI 하드웨어 필요성을 제거하고 서버 활용도를 극적으로 높임으로써, 'Prodigy'는 데이터센터의 CAPEX(자본 지출) 및 OPEX(운영 지출)를 크게 절감하는 동시에 전례 없는 성능, 전력 효율성, 경제성을 제공합니다. Tachyum의 최신 'Prodigy' 유니버설 프로세서 아키텍처에 대한 전체 사양은 솔루션 브리프를 통해 다운로드할 수 있습니다. Tachyum은 CPU, HPC GPGPU, AI 가속기의 기능을 통합한 세계 최초의 유니버설 프로세서 'Prodigy'를 통해 AI, HPC, 퍼블릭 및 프라이빗 클라우드의 경제성을 혁신하고 있으며, 업계 최고의 성능, 비용, 전력 효율성을 제공합니다. Tachyum은 미국, 슬로바키아, 대만, 체코에 지사를 두고 있습니다.

관련 기사