AI 요약
ARM의 효율적인 컴퓨팅 기술이 소형 언어 모델(SLM)의 성장을 가속화하며 AI 시장의 새로운 기회를 창출할 것으로 기대됩니다.
SLM은 LLM 대비 낮은 인프라 비용과 빠른 개발 속도를 제공하여 ARM의 CPU 기술과 결합 시 모바일 기기에서의 AI 성능 향상, 개인 정보 보호 강화, 사용자 경험 개선을 이끌어낼 전망입니다.
이는 ARM에게 긍정적인 성장 동력이 될 것입니다.
핵심 포인트
- ARM의 효율적인 컴퓨팅 기술이 소형 언어 모델(SLM)의 성장을 가속화하며 AI 시장의 새로운 기회를 창출할 것으로 기대됩니다.
- SLM은 LLM 대비 낮은 인프라 비용과 빠른 개발 속도를 제공하여 ARM의 CPU 기술과 결합 시 모바일 기기에서의 AI 성능 향상, 개인 정보 보호 강화, 사용자 경험 개선을 이끌어낼 전망입니다.
- 이는 ARM에게 긍정적인 성장 동력이 될 것입니다.
긍정 / 부정 요인
긍정 요인
- ARM의 효율적인 CPU 기술이 소형 언어 모델(SLM)의 성능 향상 및 확산에 기여
- SLM의 낮은 인프라 비용과 빠른 개발 속도가 ARM 기반 AI 솔루션의 경쟁력 강화
- 모바일 기기에서의 AI 성능 향상, 개인 정보 보호 강화, 사용자 경험 개선 기대
기사 전문
AI 시대, '작은 거인' SLM이 대세로 떠오른다
초거대 언어 모델(LLM)이 생성형 AI 시장을 주도해왔지만, 이제는 더 작고 효율적인 모델, 즉 소형 언어 모델(SLM)이 주목받고 있습니다. 수조 개의 매개변수를 가진 LLM의 무분별한 확장은 지속 가능하지 않다는 인식이 확산되고 있으며, 막대한 인프라 비용 또한 일부 기업만이 감당할 수 있는 수준에 이르렀기 때문입니다.
GPT-4 학습에 최소 1억 달러가 소요된 것처럼, LLM은 막대한 컴퓨팅 파워와 에너지를 요구하며 높은 운영 비용을 발생시킵니다. 또한, 90일 이상 소요되는 모델 배포 기간은 빠르게 변화하는 AI 분야에서 신속한 개발과 반복적인 실험을 저해하는 요인으로 작용합니다.
이러한 문제점을 해결하기 위해 개발 초점이 SLM으로 옮겨가고 있습니다. Llama, Mistral, Qwen, Gemma, Phi3와 같은 SLM은 대화, 번역, 요약, 분류 등 단순하고 집중된 작업에서 LLM보다 훨씬 효율적이며, 학습에 필요한 에너지도 훨씬 적게 소비합니다. 이는 개발자들이 텍스트, 이미지, 오디오 등 다양한 형태의 콘텐츠를 처리하고 생성할 수 있는 멀티모달(multimodal) 기능을 갖춘 생성형 AI 솔루션을 구축하도록 장려합니다.
Llama 3와 같은 기반 모델은 의료, 코드 생성, 특정 분야 전문 지식 등 특정 애플리케이션에 집중하도록 미세 조정(fine-tuning)될 수 있습니다. 이러한 집중된 애플리케이션과 SLM의 접근성이 결합되면서, GPU 자원을 대규모로 보유하지 않은 애플리케이션 개발자들도 생성형 AI의 기능을 활용할 수 있게 되어 새로운 애플리케이션과 사용 사례를 발굴할 수 있습니다.
또한, 양자화(quantization)와 같은 최적화 기술은 모델의 효율성을 더욱 높입니다. 양자화는 신경망 가중치에 저정밀도 계산을 사용하여 모델 크기를 줄이는 방식으로, 16비트 부동소수점 대신 4비트 정수를 사용하여 메모리와 컴퓨팅 요구 사항을 크게 줄이면서도 정확도는 거의 떨어뜨리지 않습니다. 예를 들어, 70억 매개변수를 가진 Llama 2 모델은 양자화를 통해 138GB에서 40.7GB로 크게 줄어들 수 있습니다. 이러한 기술은 특히 CPU에서 경량 모델을 실행하는 속도를 높이고 비용을 절감합니다.
이러한 소프트웨어 발전과 Arm의 효율적이고 강력한 CPU 기술이 결합되면서, SLM은 모바일 기기에서도 직접 실행될 수 있게 되어 성능, 개인 정보 보호 및 사용자 경험을 향상시킵니다. llama.cpp와 같은 특화된 프레임워크의 등장은 CPU 추론 성능 최적화에 집중하여, 범용 프레임워크인 PyTorch에 비해 Llama 기반 모델을 일반 하드웨어에서 더 빠르고 효율적으로 실행할 수 있게 합니다. 이는 전문 GPU 리소스에 의존하지 않고도 광범위한 배포를 가능하게 하여 더 많은 사용자와 애플리케이션에 LLM을 제공합니다.
Arm의 Neoverse CPU는 Neon 및 SVE와 같은 고급 SIMD(Single Instruction, Multiple Data) 명령어를 통해 머신러닝 프로세스를 가속화하며, 특히 신경망 내 복잡한 곱셈을 포함하는 핵심 알고리즘인 GEMM(General Matrix Multiplication)을 가속합니다. Arm은 최근 몇 세대에 걸쳐 Neon 및 SVE2 엔진에 SDOT(Signed Dot Product) 및 MMLA(Matrix Multiply Accumulate)와 같은 기능을 추가하여 주요 ML 알고리즘의 효율성을 높였습니다. 이는 AWS Graviton, NVIDIA Grace, Microsoft Cobalt, Google Axion과 같은 널리 배포되는 서버 CPU의 효율성을 향상시킵니다.
LLM 파이프라인은 일반적으로 입력 데이터를 준비하고 응답성을 개선하는 프롬프트 처리 단계와, 텍스트를 한 번에 생성하며 처리량과 확장성에 중점을 두는 토큰 생성 단계로 나뉩니다. 대화, 스타일 변환, 요약, 콘텐츠 생성 등 애플리케이션에 따라 프롬프트 크기, 토큰 생성, 속도 또는 품질 요구 사항의 균형이 달라집니다.
Arm은 LLM 작업에 대한 Arm Neoverse CPU의 효율성을 입증하기 위해, llama.cpp의 int4 및 int8 커널을 최적화하여 Arm 기반 서버 CPU의 최신 명령어를 활용했습니다. 64개의 Arm 기반 Graviton3 코어와 512GB RAM을 갖춘 AWS r7g.16xlarge 인스턴스에서 80억 매개변수 LLaMa-3 모델을 int4 양자화하여 테스트한 결과, 프롬프트 처리 시 초당 처리 토큰 수가 최대 3배 향상되었으며, 토큰 생성 시 처리량이 최대 2배 증가했습니다. AWS Graviton3는 대화형 LLM 배포를 위한 업계 표준인 100ms 지연 시간 목표를 단일 및 배치 시나리오 모두에서 달성했습니다. 심지어 2019년 출시된 Graviton2도 80억 매개변수 LLM을 100ms 지연 시간 내에 실행할 수 있습니다. 또한, Graviton3 인스턴스는 현재 세대 x86 인스턴스보다 최대 3배 높은 성능을 제공하며, 비용 효율성 측면에서도 경쟁력이 있습니다.
Arm은 LLM의 잠재력과 준비성을 인식하고 소형 언어 모델로의 전환을 선도하고 있습니다. Arm의 CPU는 효율성과 AI 워크로드를 원활하게 실행하는 능력으로 유명합니다. OpenAI CEO Sam Altman은 "거대 모델의 시대는 끝났으며, 이제는 모델을 전문화하고 맞춤화하는 데 초점을 맞출 것"이라며 "고객 및 도메인별 데이터로 모델을 조정할 때만 진정한 가치가 발휘된다"고 언급했습니다. HuggingFace CEO Clem Delangue는 최대 99%의 사용 사례가 SLM으로 해결될 수 있으며, 2024년을 SLM의 해로 예측했습니다. 이는 SLM의 중요성이 더욱 커질 것임을 시사합니다.
관련 기사
Tensor와 Arm, 세계 최초 개인용 Robocar를 위한 AI 정의 컴퓨팅 기반 제공 협력
긍정2026년 2월 26일 PM 02:00산업 자동화에서의 엣지 AI: OEM이 Arm으로 전환하는 이유
긍정2025년 12월 3일 AM 07:002025년 11월 Arm의 놓치지 말아야 할 혁신 7가지
긍정2025년 12월 2일 AM 06:00Arm 혁신 35년: 현대 컴퓨팅을 재정의한 Arm 기반 제품 35가지
긍정2025년 11월 26일 AM 07:57REX와 Tuttle, Arm Holdings, Roblox, Trump Media에 대한 2배 레버리지 ETF 출시로 T-REX ETF 제품군 확장
중립2025년 3월 4일 PM 10:00