AWS re:Invent 2025: 그라비톤5와 트레이니엄3가 바꿀 클라우드 생태계
AWS가 공개한 차세대 자체 칩셋 Graviton5와 Trainium3 분석. 엔터프라이즈 인프라의 가성비와 AI 워크로드 효율성이 어떻게 달라지는가?
2025년 AWS re:Invent의 키노트는 그 어느 때보다 ‘실용적인 효율성’에 초점을 맞췄습니다. 클라우드 비용(FinOps)이 기업의 생존과 직결되는 시점에서, AWS는 다시 한번 자체 실리콘(Silicon) 기술력으로 승부수를 던졌습니다.
클라우드 아키텍트 관점에서 이번에 공개된 **Graviton5(그라비톤5)**와 **Trainium3(트레이니엄3)**가 기업의 인프라 전략에 어떤 영향을 미칠지 심층 분석해 보았습니다.
1. Graviton5: 범용 컴퓨팅의 새로운 기준
Arm 기반의 그라비톤 프로세서는 이제 선택이 아닌 필수가 되어가고 있습니다. 이번에 발표된 Graviton5는 전작인 Graviton4 대비 성능이 25% 향상되었으며, 에너지 효율은 더욱 극대화되었습니다.
1.1 M9g 인스턴스의 등장
새로운 EC2 M9g 인스턴스는 192 코어를 탑재하여, 고밀도 컨테이너 워크로드와 마이크로서비스 아키텍처(MSA)에 최적화되었습니다.
- L3 캐시 5배 증가: 데이터베이스나 인메모리 캐싱(Redis/Memcached) 성능이 비약적으로 상승했습니다.
- 비용 절감: 동급 x86 인스턴스 대비 최대 40% 저렴한 비용 구조를 유지합니다.
Airbnb의 벤치마크 결과에 따르면, Graviton5 도입만으로 P95 레이턴시가 개선되었고 전체적인 클러스터 사이즈를 줄일 수 있었다고 합니다. 이는 쿠버네티스(EKS) 노드 그룹을 운영하는 엔지니어들에게 매우 반가운 소식입니다.
2. Trainium3: AI 인프라의 ‘엔비디아 의존도’ 줄이기
생성형 AI(Generative AI) 학습 비용은 천문학적입니다. AWS는 Trainium3를 통해 엔비디아 GPU에 대한 의존도를 낮추고, 더 합리적인 가격의 AI 학습 환경을 제공하려 합니다.
2.1 UltraServers 아키텍처
Trainium3는 단일 칩 성능도 강력하지만, 이를 묶어서 구성하는 UltraServer 아키텍처가 핵심입니다. 수천 개의 칩을 초고속 인터커넥트로 연결하여, 거대언어모델(LLM) 학습 시간을 획기적으로 단축시킵니다.
- 멀티 모달 지원: 텍스트뿐만 아니라 이미지, 비디오 처리 능력도 강화되었습니다.
- Neuron SDK 개선: 과거에는 Pytorch 코드를 마이그레이션하는 것이 고통스러웠으나, SDK 3.0부터는 거의 코드 수정 없이 호환됩니다.
3. 현업 적용 가이드: 지금 마이그레이션 해야 할까?
3.1 Graviton5 (EC2)
만약 현재 Graviton3나 4를 사용 중이라면, 즉시 Graviton5로의 전환을 테스트해볼 것을 권장합니다. 보통 인스턴스 타입 변경만으로도 비용 절감과 성능 향상을 동시에 누릴 수 있기 때문입니다. 특히 Java, Go, Node.js 기반의 백엔드 서비스라면 호환성 이슈가 거의 없습니다.
3.2 Trainium3 (AI/ML)
아직은 신중할 필요가 있습니다. 기존에 엔비디아 CUDA 생태계에 깊게 의존하고 있다면 마이그레이션 비용이 발생할 수 있습니다. 하지만 추론(Inference) 워크로드부터 점진적으로 Inferentia나 Trainium 기반으로 옮기는 것은 장기적인 FinOps 전략상 매우 유효합니다.
4. 결론: 칩이 소프트웨어를 정의한다
AWS는 이제 단순한 IaaS 제공자가 아닙니다. 칩셋부터 가상화 계층, 그리고 관리형 서비스까지 수직 통합(Vertical Integration)을 완성해가고 있습니다.
2026년의 클라우드 아키텍처는 “어떤 칩을 쓸 것인가?”를 결정하는 것에서부터 시작될 것입니다. x86의 시대가 저물고, 클라우드 네이티브 프로세서의 시대가 활짝 열렸습니다.
전체 댓글 0개