GPU NVIDIA Rubin: Khối “động cơ” mạnh mẽ cho AI Factory thế hệ mới

GPU NVIDIA Rubin là thế hệ GPU AI kế nhiệm Blackwell, được thiết kế cho các hệ thống huấn luyện và suy luận quy mô lớn ở cấp rack. GPU này tích hợp khoảng 336 tỷ transistor, sử dụng kiến trúc đa die và Transformer Engine thế hệ mới, tối ưu mạnh cho các mô hình AI hiện đại như MoE và agentic AI. Về hiệu năng, Rubin đạt tới khoảng 50 PFLOPS NVFP4 cho suy luận và 35 PFLOPS NVFP4 cho huấn luyện AI.

Rubin sử dụng bộ nhớ HBM4 với băng thông tăng gần gấp ba so với Blackwell, đồng thời hỗ trợ NVLink thế hệ thứ 6 cho băng thông kết nối GPU-GPU tới 3.6TB/s, giúp mở rộng hiệu quả trong các cụm AI lớn. Rubin không chỉ là GPU đơn lẻ mà là khối tính toán cốt lõi cho AI Factory thế hệ tiếp theo, nơi hiệu năng, băng thông và khả năng mở rộng được tối ưu đồng thời.

NVIDIA cho ra mắt GPU NVIDIA Rubin

Xin mời các bạn cùng tìm hiểu chi tiết về GPU mạnh mẽ này thông qua nội dung dưới đây.

Mục Lục

Những công nghệ mới nổi bật của GPU NVIDIA Rubin

NVIDIA Rubin không phải là mẫu GPU được thiết kế để sử dụng đơn lẻ, nó được tích hợp cùng với 1 GPU Rubin và 1 CPU Vera nữa trong một Vera Rubin Superchip để tạo nên một nền tảng tính toán chủ chốt cho các hệ thống rack-scale trong môi trường AI Factory thế hệ mới.

Các workload AI hiện đại như reasoning, MoE, long-context inference hay reinforcement learning không chỉ bị giới hạn bởi số lượng phép toán dấu phẩy động tối đa mà còn bị ảnh hưởng bởi khả năng duy trì hiệu quả đồng đều giữa các khối tính toán, bộ nhớ và kết nối của hệ thống.

Nắm bắt được điều đó, NVIDIA đã phát triển GPU Rubin trên ba trụ cột chính là mật độ tính toán, băng thông bộ nhớ và khả năng kết nối ở quy mô rack.

Cấu trúc Silicon mật độ cao

Khối Silicon của NVIDIA Rubin được xây dựng dựa trên nền tảng NVIDIA Blackwell đã được kiểm chứng và mở rộng quy mô của các phân hệ quan trọng để đáp ứng các workload AI mới. GPU này tích hợp 224 SM, được trang bị Tensor core thế hệ thứ 6 để tối ưu cho việc thực thi các phép toán độ chính xác thấp NVFP4 và FP8.

Các Tensor core này được liên kết chặt chẽ với các Special Function Unit mở rộng và các pipeline thực thi được thiết kế riêng để tăng tốc các luồng tính toán Attention, Activation và Sparse compute.

NVIDIA Rubin cũng được trang bị NVIDIA Transformer Engine thế hệ thứ 3 với công nghệ hardware-accelerated adaptive compression mới giúp tăng hiệu năng NVFP4 mà vẫn duy trì được độ chính xác. Công nghệ này cho phép hiệu năng suy luận NVFP4 đạt tới 50 PetaFLOPS.

Những đặc điểm nổi bật của NVIDIA Rubin

Bộ nhớ HBM4 băng thông cao

GPU Rubin tích hợp hệ thống bộ nhớ băng thông cao HBM4 mới với interface width được tăng gấp đôi so với HBM3e. Nhờ các bộ điều khiển bộ nhớ thế hệ mới và sự tích hợp chặt chẽ hơn giữa khối tính toán và bộ nhớ, GPU Rubin đạt mức băng thông bộ nhớ gần gấp 3 lần so với Blackwell.

Những thông số ấn tượng của bộ nhớ trên GPU Rubin bao gồm:

Dung lượng HBM4 lên tới 288GB trên mỗi GPU
Băng thông tổng hợp đạt 22TB/s
Cải thiện hiệu quả giải mã dữ liệu và front-end nhằm đảm bảo các pipeline thực thi luôn được cấp dữ liệu đầy đủ khi hệ thống hoạt động dưới tải cao.

Những nâng cấp về bộ nhớ này giúp GPU Rubin duy trì được hiệu năng ổn định khi suy luận ngữ cảnh dài, thực thi MoE với batch lớn hoặc thực hiện các tác vụ reasoning có tính tương tác cao.

Hệ thống kết nối tốc độ cao, sẵn sàng để mở rộng quy mô

Nền tảng Rubin hỗ trợ NVIDIA NVLink thế hệ thứ 6 để giao tiếp giữa GPU với GPU trong hệ thống, NVLink-C2C để giao tiếp giữa CPU Vera và GPU Rubin, và chuẩn PCIe Gen6 để kết nối giữa Host và thiết bị.

NVLink 6 cung cấp băng thông giao tiếp 2 chiều giữa GPU với GPU lên tới 3.6TB/s, gấp đôi băng thông so với thế hệ trước. Trong một hệ thống rack NVL72, khả năng này cho phép giao tiếp all to all giữa 72 GPU với độ trễ có thể dự đoán trước. Đây là yếu tố quan trọng với các khối lượng công việc như định tuyến MoE, các phép toán tập thể và các luồng suy luận đòi hỏi tính đồng bộ cao.

Dưới đây sẽ là bảng so sánh khả năng kết nối của GPU Rubin và GPU Blackwell để các bạn có thể hình dung được những nâng cấp vượt trội trên GPU Rubin.

Interconnect	Blackwell	Rubin
NVLink (GPU-GPU) (GB/s, bi-directional)	1,800	3,600
NVLink-C2C (CPU-GPU) (GB/s, bi-directional)	900	1,800
PCIe Interface (GB/s, bi-directional)	256 (Gen 6)	256 (Gen 6)

Với việc đượ hỗ trợ các công nghệ kết nối hiện đại nhất, GPU Rubin đảm bảo rằng việc giao tiếp giữa các thành phần của hệ thống sẽ không trở thành giới hạn của mức độ khai thác tài nguyên khi kích thước mô hình, số lượng expert và độ sâu reasoning tiếp tục gia tăng theo thời gian.

Hiệu năng ấn tượng của GPU NVIDIA Rubin

NVIDIA Rubin không tập trung vào việc đẩy cao các chỉ số hiệu năng riêng lẻ, mà được thiết kế để duy trì hiệu suất ổn định trên các khối lượng công việc hội tụ giữa AI và mô phỏng khoa học. Trong các hệ thống HPC hiện đại, mô phỏng không chỉ là bước tính toán cuối cùng mà còn đóng vai trò tạo dữ liệu cho AI, trong khi các mô hình AI lại hỗ trợ tăng tốc hội tụ và suy luận. Điều này đòi hỏi GPU phải mạnh đồng đều trên cả FP32, FP64 và các dạng tính toán ma trận.

GPU Rubin mở rộng năng lực tính toán song song với Transformer Engine và cân bằng thực thi, giúp tránh tình trạng tài nguyên bị “kẹt” do mất cân đối giữa khối compute, bộ nhớ và pipeline. Nhờ đó, hiệu năng duy trì trong các ứng dụng thực tế cao hơn nhiều so với việc chỉ tối ưu các con số TFLOPS lý thuyết.

Ở các workload khoa học, phần lớn hiệu năng FP64 được duy trì nhờ các kernel nhân ma trận. Rubin tiếp tục khai thác Tensor Core để đạt thông lượng FP64 ma trận cao, đồng thời vẫn duy trì đủ năng lực FP64 vector để bão hòa băng thông bộ nhớ. Cách tiếp cận cân bằng này giúp hiệu năng ứng dụng tiếp tục tăng qua từng thế hệ mà không đánh đổi tính linh hoạt cho các workload hội tụ AI và HPC.

Feature	Hopper GPU	Blackwell GPU	Rubin GPU
FP32 vector (TFLOPS)	67	80	130
FP32 matrix (TFLOPS)	67	227	400
FP64 vector (TFLOPS)	34	40	33
FP64 matrix (TFLOPS)	67	150	200

GPU Rubin đạt hiệu năng ấn tượng so với các thế hệ trước

Kết luận

GPU NVIDIA Rubin mở ra một thế hệ nền tảng tính toán mới cho AI Factory, nơi hiệu năng không chỉ được đo bằng thông số đỉnh mà bằng khả năng duy trì thông lượng ổn định trong các workload AI hiện đại như MoE, long context inference và reasoning có tính tương tác cao. Những nâng cấp đồng bộ về mật độ tính toán, bộ nhớ HBM4 và hệ thống kết nối NVLink giúp Rubin khai thác hiệu quả sức mạnh của toàn bộ hệ thống rack.

Với triết lý thiết kế tập trung vào hiệu năng ứng dụng thực tế và khả năng mở rộng lâu dài, NVIDIA Rubin tạo nền tảng vững chắc cho các hệ thống AI quy mô lớn trong tương lai.

CNTTShop với vai trò là đơn vị cung cấp các giải pháp hạ tầng AI và GPU NVIDIA uy tín tại Việt Nam đã luôn theo sát lộ trình công nghệ của NVIDIA. Việc nắm bắt sớm các nền tảng mới như NVIDIA Rubin giúp CNTTShop hiểu rõ cách chúng được ứng dụng trong môi trường doanh nghiệp, trung tâm dữ liệu và nghiên cứu, từ đó đưa ra tư vấn phù hợp và hỗ trợ hiệu quả cho các khách hàng có nhu cầu xây dựng hệ thống AI.