Bộ tăng tốc bản năng AMD MI1000 GPU 7nm cho HPC chính thức ra mắt cung cấp 11,5 Teraflop cho hiệu suất điểm động chính xác kép cao nhất

GPU đầu tiên của AMD dựa trên Kiến trúc CDNA, MI100 là chính thức. GPU MI100 Instinct Accelerator đang được tuyên bố là "GPU HPC nhanh nhất thế giới" với 11,5 teraflop hiệu suất dấu chấm động chính xác kép cao nhất. GPU tuyên bố sẽ đóng gói số lượng đơn vị máy tính nhiều gấp đôi so với thế hệ trước trong khi vẫn ở trong cùng một giới hạn công suất 300 watt.

AMD hôm nay đã công bố Máy gia tốc MI100 Instinct. GPU dựa trên công cụ CDNA hơi khác với Kiến trúc RDNA cung cấp sức mạnh cho Dòng card đồ họa AMD Radeon RX 6000 mới nhất. MI100 Instinct Accelerator kế thừa MI50 và MI60 Instinct được ra mắt cách đây hai năm. Bất chấp khoảng thời gian tương đối nhỏ giữa các thế hệ, Kiến trúc GPU và Công cụ tính toán mới cho phép GPU AMD vượt quá mong đợi.

Bộ tăng tốc bản năng AMD MI1000 GPU 7nm dành cho các đặc điểm kỹ thuật và tính năng của ngành công nghiệp HPC:

GPU MI100 là GPU đầu tiên tích hợp kiến trúc AMD’s Compute DNA (CDNA). GPU có 210 Đơn vị tính toán được sắp xếp thành bốn mảng. Kiến trúc CDNA là một bước nhảy vọt tiến hóa đáng kể so với kiến trúc GCN và nó bao gồm các công cụ lõi ma trận mới giúp tăng cường thông lượng tính toán cho các định dạng số khác nhau.

AMD tuyên bố công nghệ lõi ma trận AMD mới cung cấp cho MI100 hiệu suất dấu chấm động nửa chính xác đỉnh cao gấp 7 lần so với MI50. Công ty tuyên bố MI100 Instinct Accelerator cung cấp ma trận độ chính xác đơn cao nhất 46,1 teraflop (FP32), độ chính xác đơn cao nhất 23,1 teraflop (FP32), hiệu suất nửa chính xác đỉnh cao 184,6 teraflop (FP16) và 92,3 teraflop đỉnh của hiệu suất bfloat16 .

Các MI100 cũng có Công nghệ vải vô cực của AMD được cho là cung cấp khoảng gấp đôi băng thông I / O ngang hàng ngang hàng trên PCIe 4.0 với băng thông tổng hợp lên đến 340 GB / s trên mỗi thẻ. Trong triển khai ngoài đời thực, GPU MI100 có thể được định cấu hình với tối đa hai tổ GPU bốn tích hợp, mỗi tổ cung cấp băng thông I / O ngang hàng lên đến 552 Gbps.

Tương tự, bốn ngăn xếp bộ nhớ HBM2 8GB cung cấp tổng cộng bộ nhớ HBM2 32GB trên mỗi GPU MI100. Với Tốc độ xung nhịp 1,2 GHz, bộ nhớ cung cấp băng thông bộ nhớ 1,23 Tbps. Sự hỗ trợ của MI100 cho công nghệ PCIe Gen 4.0 cho phép băng thông dữ liệu truyền tải lý thuyết cao nhất 64 Gbps giữa CPU và GPU.

GPU AMD MI100 Accelerator có tốt hơn GPU NVIDIA A100 không?

Trên lý thuyết, GPU AMD’s MI100 xuất hiện tốt hơn GPU NVIDIA A100 được đánh giá là 9,7 teraflop về hiệu suất lý thuyết cao nhất. Tuy nhiên, trên thực tế, NIVIDIA A100 cho khả năng chạy FP64 Linpack hiệu suất cao hơn.

Kiến trúc CDNA và RDNA của AMD về cơ bản giống nhau với sự khác biệt chính là các kịch bản của người dùng cuối. Tuy nhiên, có một số khác biệt cơ bản không cho phép Kiến trúc CDNA được sử dụng để chơi game hoặc hiển thị nội dung hình ảnh.

Ngẫu nhiên, AMD đang chuẩn bị ROCm, là bộ công cụ mã nguồn mở của công ty bao gồm các trình biên dịch, API lập trình và thư viện. Bộ công cụ này sẽ đóng vai trò là cơ sở cho khối lượng công việc tính toán exascale. ROCm 4.0 mới nhất đã nâng cấp trình biên dịch thành mã nguồn mở và thống nhất để hỗ trợ cả OpenMP 5.0 và HIP. Nói một cách đơn giản, sự cạnh tranh giữa AMD và NVIDIA trong phân khúc HPC vượt ra ngoài khả năng đơn giản và sức mạnh xử lý thô.