Nvidia'nın Yeni AI Platformu: Rubin
Nvidia, yapay zeka odaklı veri merkezleri için geliştirdiği yeni platformu resmen duyurdu. Bu platform, Nvidia'nın mevcut mimarilerine kıyasla 5 kat daha performans sunarak, şirketin en güçlü AI çözümü haline geldi.
Rubin Platformunun Genel Yapısı
Rubin platformu, tamamlayıcı altı çipten oluşuyor: Rubin GPU, Vera CPU, NVLink 6 Switch, ConnectX-9, BlueField-4 ve Spectrum-X 102.4T CPO silikon fotonik altyapısı. Bu bileşenler, DGX, HGX ve MGX sistemlerinde birlikte çalışacak şekilde tasarlandı.
Rubin GPU
Rubin GPU, yapay zeka iş yükleri için özel olarak geliştirilmiş iki kalıplı tasarımda geliyor. Bu GPU, NVFP4 formatında 50 PFLOPs çıkarım ve 35 PFLOPs eğitim performansını sunuyor, bu değerler Blackwell'e kıyasla sırasıyla 5 kat ve 3,5 kat artış anlamına geliyor.
Vera CPU
Rubin platformunun işlemci tarafında yer alan Vera CPU, Nvidia'nın özel olarak geliştirdiği Olympus kod adlı yeni nesil Arm mimarisine dayanıyor. Toplam 88 çekirdek ve 176 iş parçacığı sunan bu işlemci, veri işleme, sıkıştırma ve CI/CD iş yüklerinde 2 kat performans artışı sağlıyor.
NVLink 6 ve Ağ Altyapısı
Rubin platformunda kullanılan NVLink 6 Switch, CPU başına 3,6 TB/s tümden tüm bağlantı bant genişliği sağlıyor. Toplamda 28,8 TB/s ağ kapasitesine ulaşan bu anahtarlar, 14,4 TFLOPS FP8 ağ içi işlem gücü sunuyor ve tamamen sıvı soğutmalı olarak tasarlanmış durumda.
ConnectX-9 SuperNIC, 1,6 TB/s bant genişliği, 200G PAM4 SerDes, programlanabilir RDMA ve gelişmiş güvenlik özellikleriyle öne çıkıyor. BlueField-4 DPU ise 64 çekirdekli Grace CPU’yu ConnectX-9 ile entegre ederek önceki nesle kıyasla 2 kat ağ, 6 kat işlem ve 3 kat bellek bant genişliği sunuyor.
Rubin SuperPOD
Nvidia'nın Rubin platformunu 8 adet NVL72 raf içeren yeni nesil DGX SuperPOD sistemlerinde konumlandırırken, daha geniş veri merkezleri için DGX Rubin NVL8 seçeneğini de sunacak. Bu platform, Blackwell GB200'e kıyasla çıkarım token maliyetini 10 kat ve MoE model eğitiminde kullanılan GPU sayısını ise 4 kat azaltıyor.
Özellikler ve Yararları
Rubin platformu, veri merkezlerindeki işlem ve ağ performansını önemli ölçüde artıracaktır. Ayrıca, Blackwell GB200'e kıyasla çıkarım token maliyetini 10 kat azaltacak ve MoE model eğitiminde kullanılan GPU sayısını ise 4 kat azaltacak.
Öncelikli Uygulamalar
Rubin platformu, gigaskala çıkarım senaryolarına odaklanan Inference Context Memory Storage platformu ile de tanıtıldı. Bu çözüm, Dynamo, NIXL ve DOCA gibi Nvidia yazılım çözümleriyle tam entegre çalışıyor.