Các lõi Tensor của Nvidia cho Máy học và AI - Giải thích

Dòng card đồ họa RTX nổi tiếng hiện nay của Nvidia đã rất thành công kể từ khi ra mắt với dòng RTX 20. Việc giới thiệu thương hiệu RTX là một sự thay đổi trong định hướng của công ty và kết quả là thị trường card đồ họa nói chung. Nvidia đã tiếp nối thành công loạt RTX đầu tiên của mình với sự ra mắt của loạt RTX 30 vào năm 2020, mặc dù bản thân việc ra mắt có một chút thất vọng do các vấn đề về nguồn hàng và tính sẵn có trên toàn cầu. Tuy nhiên, thương hiệu RTX vẫn là một thế lực thống trị trên thị trường card đồ họa ngày nay.

Với việc giới thiệu RTX, Nvidia đã hỗ trợ tính năng Truy tìm tia theo thời gian thực trong trò chơi, giúp thay đổi cách ánh sáng hoạt động trong môi trường của trò chơi. Chúng tôi đã so sánh hai hình thức kết xuất, Ray Tracing và Rasterized Rendering, một cách chi tiết và tổng thể, Ray Tracing có vẻ như là một cách để tiến xa hơn về tương lai của trò chơi. Nvidia cũng đã bao gồm các lõi chuyên biệt dành riêng cho Ray Tracing trong thẻ RTX của họ được gọi là RT Cores, xử lý phần lớn khối lượng công việc kết xuất khi nói đến Ray Tracing trong trò chơi. Tuy nhiên, điều mà hầu hết mọi người có thể không biết là Nvidia cũng đã giới thiệu một bộ lõi khác với thẻ Turing và Ampere của họ được gọi là Lõi Tensor.

Lõi căng

Lõi Tensor là lõi vật lý dành riêng cho các phép tính phức tạp liên quan đến các tác vụ như máy học và AI. Lõi Tensor cho phép tính toán chính xác hỗn hợp, các phép tính điều chỉnh động để tăng tốc độ thông lượng trong khi vẫn duy trì độ chính xác. Các lõi này đã được thiết kế đặc biệt để trợ giúp các khối lượng công việc phức tạp này nhằm làm cho các phép tính này hiệu quả hơn, cũng như giảm gánh nặng thêm cho các lõi CUDA chính của thẻ.

Trong các loại thẻ tiêu dùng, chẳng hạn như dòng thẻ GeForce tập trung vào chơi game dựa trên kiến trúc Turing hoặc Ampere, các lõi Tensor không có chức năng kết xuất cụ thể. Các lõi này không hiển thị khung hoặc trợ giúp về số hiệu suất chung như các lõi CUDA thông thường hoặc lõi RT có thể làm. Sự hiện diện của Lõi Tensor trong các thẻ này thực sự có mục đích. Các lõi này xử lý phần lớn sức mạnh xử lý đằng sau tính năng Siêu lấy mẫu hoặc DLSS của Deep Learning tuyệt vời của Nvidia. Chúng ta sẽ khám phá DLSS trong một phút, nhưng trước tiên, chúng ta phải xác định những thẻ nào thực sự sở hữu Tensor Cores ngay từ đầu.

Tính đến thời điểm viết bài, chỉ có một số thẻ có Tensor Cores trong đó. Nvidia lần đầu tiên tích hợp Tensor Cores vào Nvidia TITAN V, một card máy trạm dựa trên kiến trúc Volta. Kiến trúc này chưa bao giờ được thu nhỏ xuống các cạc đồ họa cấp người tiêu dùng và do đó kiến trúc Volta chưa bao giờ được nhìn thấy trong GPU GeForce. Sau đó, Nvidia đã giới thiệu các lõi Tensor trong một loạt các GPU Quadro và quan trọng hơn đối với các game thủ, các thẻ RTX dựa trên kiến trúc Turing và Ampere. Điều này có nghĩa là tất cả các cạc đồ họa mang nhãn hiệu RTX từ RTX 2060 đến RTX 3090 đều có Lõi Tensor và có thể tận dụng tính năng DLSS của Nvidia.

Làm thế nào để Tensor Cores hoạt động?

Mặc dù quá trình thực sự đằng sau hoạt động của một Tensor Core khá phức tạp, nhưng nó có thể được tóm tắt trong ba điểm.

Tensor Cores giảm các chu kỳ được sử dụng cần thiết để tính toán các phép tính nhân và cộng, xuống 16 lần - trong ví dụ của tôi, đối với ma trận 32 × 32, từ 128 chu kỳ xuống còn 8 chu kỳ.
Lõi Tensor giảm sự phụ thuộc vào việc truy cập bộ nhớ dùng chung lặp đi lặp lại, do đó tiết kiệm thêm các chu kỳ để truy cập bộ nhớ.
Tensor Cores nhanh đến nỗi việc tính toán không còn là một nút thắt cổ chai nữa. Điểm nghẽn duy nhất là lấy dữ liệu đến các lõi Tensor.

Nói một cách dễ hiểu, Lõi Tensor được sử dụng để thực hiện các phép tính cực kỳ phức tạp sẽ khiến các lõi không chuyên dụng khác như lõi CUDA mất một khoảng thời gian không hợp lý để thực hiện. Do tính chất cụ thể của chúng, Lõi Tensor rõ ràng rất xuất sắc trong việc thực hiện loại công việc này. Trên thực tế, khi Volta lần đầu tiên xuất hiện, Anandtech đã thực hiện một số bài kiểm tra toán học bằng cách sử dụng 3 thẻ Nvidia. Card Volta mới, card đồ họa Pascal cao cấp nhất và card Maxwell TITAN cũ hơn đều được đưa vào hỗn hợp và đây là kết quả.

Trong biểu đồ này, thuật ngữ độ chính xác đề cập đến số bit được sử dụng cho các số dấu phẩy động trong ma trận với đôi là 64, đơn là 32, v.v. Kết quả này cho thấy rõ ràng rằng các lõi Tensor vượt xa các lõi CUDA tiêu chuẩn khi nói đến các phép tính tensor chuyên biệt như cái này.

Các ứng dụng

Nhưng chính xác thì ứng dụng của các lõi Tensor này là gì? Vì Lõi Tensor có thể tăng tốc các quy trình phức tạp như Đào tạo AI lên gấp 10 lần, nên có một số lĩnh vực trong AI và Học sâu mà Lõi Tensor có thể hữu ích. Dưới đây là một số lĩnh vực phổ biến nơi Lõi Tensor có thể được sử dụng.

Học kĩ càng

Một lĩnh vực mà Tensor Cores và các thẻ có chúng có thể đặc biệt có lợi là lĩnh vực Học sâu. Đây thực sự là một lĩnh vực con của học máy liên quan đến các thuật toán lấy cảm hứng từ cấu trúc và chức năng của não được gọi là mạng thần kinh nhân tạo. Học sâu là một lĩnh vực rộng lớn bao gồm một loạt các lĩnh vực chủ đề thú vị. Cốt lõi của học sâu là bây giờ chúng ta có máy tính đủ nhanh và đủ dữ liệu để thực sự đào tạo các mạng nơ-ron lớn.

Đây là nơi các lõi Tensor đi vào. Mặc dù các cạc đồ họa thông thường có thể đủ cho một hoạt động quy mô nhỏ hoặc ở cấp độ cá nhân, quá trình này đòi hỏi rất nhiều mã lực tính toán cụ thể khi nó được triển khai trên quy mô lớn hơn. Nếu bản thân một tổ chức như Nvidia muốn làm việc trên Deep Learning như một lĩnh vực, thì card đồ họa với sức mạnh tính toán cụ thể của Tensor Cores trở thành một điều cần thiết. Lõi Tensor xử lý các khối lượng công việc này hiệu quả và nhanh chóng hơn nhiều so với bất kỳ dạng lõi máy tính nào khác hiện có. Tính cụ thể này làm cho các lõi này và các thẻ chứa chúng trở thành tài sản quý giá cho ngành Học sâu.

Trí tuệ nhân tạo

Tất cả chúng ta đều đã xem phim. Trí tuệ nhân tạo được cho là sẽ là một thành tựu lớn tiếp theo trong lĩnh vực máy tính và người máy. Trí tuệ nhân tạo hay AI đề cập đến sự mô phỏng trí thông minh của con người trong những cỗ máy được lập trình để suy nghĩ giống như con người và thực hiện các hành động tương tự. Các đặc điểm như học hỏi và giải quyết vấn đề cũng thuộc về trí tuệ nhân tạo.

Cần lưu ý rằng trí tuệ nhân tạo không chỉ giới hạn ở trí thông minh trong máy móc như chúng ta đã thấy trên phim. Loại trí thông minh này thực sự rất phổ biến trong một số ứng dụng ngày nay. Các trợ lý ảo trong điện thoại di động của chúng tôi cũng sử dụng một dạng trí tuệ nhân tạo. Trong thế giới trò chơi, tất cả kẻ thù và NPC do máy tính tạo ra và điều khiển cũng thể hiện một mức trí tuệ nhân tạo nhất định. Bất cứ thứ gì có khuynh hướng giống con người hoặc sắc thái hành vi trong môi trường mô phỏng đều đang sử dụng trí tuệ nhân tạo.

Lĩnh vực trí tuệ nhân tạo cũng đòi hỏi rất nhiều tính cụ thể và nó là một lĩnh vực khác mà các card đồ họa được cung cấp bởi Tensor Core chắc chắn có ích. Nvidia là một trong những công ty hàng đầu thế giới về AI và Deep Learning, và các sản phẩm của họ như Tensor Cores và các tính năng như Deep Learning Super Sampling nổi tiếng của Nvidia là minh chứng cho vị thế của họ.

Siêu lấy mẫu học sâu

DLSS là một trong những ứng dụng tốt nhất của Tensor Cores hiện được tìm thấy trong ngành. DLSS hoặc Siêu lấy mẫu học sâu là kỹ thuật của Nvidia để nâng cấp thông minh, có thể đưa hình ảnh được hiển thị ở độ phân giải thấp hơn và nâng cấp lên màn hình có độ phân giải cao hơn, do đó mang lại hiệu suất cao hơn so với hiển thị gốc. Nvidia đã giới thiệu kỹ thuật này với thế hệ đầu tiên của dòng card đồ họa RTX. DLSS không chỉ là một kỹ thuật để nâng cấp hoặc siêu lấy mẫu thông thường, mà nó sử dụng AI để tăng chất lượng hình ảnh được hiển thị ở độ phân giải thấp hơn một cách thông minh nhằm duy trì chất lượng hình ảnh. Về lý thuyết, điều này có thể cung cấp những gì tốt nhất của cả hai thế giới vì hình ảnh hiển thị vẫn có chất lượng cao trong khi hiệu suất cũng sẽ được cải thiện so với hiển thị gốc.

DLSS khai thác sức mạnh của AI để tính toán thông minh cách hiển thị hình ảnh ở độ phân giải thấp hơn trong khi vẫn giữ nguyên chất lượng tối đa. Nó sử dụng sức mạnh của các thẻ RTX mới để thực hiện các phép tính phức tạp và sau đó sử dụng dữ liệu đó để điều chỉnh hình ảnh cuối cùng để làm cho hình ảnh giống với kết xuất nguyên bản nhất có thể. Đặc điểm nổi bật của DLSS là sự bảo tồn chất lượng cực kỳ ấn tượng. Sử dụng phương pháp nâng cấp truyền thống bằng menu trò chơi, người chơi chắc chắn có thể nhận thấy sự thiếu sắc nét và sinh động của trò chơi sau khi nó được hiển thị ở độ phân giải thấp hơn. Đây không phải là vấn đề khi sử dụng DLSS. Mặc dù nó hiển thị hình ảnh ở độ phân giải thấp hơn (thường bằng 66% độ phân giải gốc), kết quả hình ảnh được nâng cấp tốt hơn nhiều so với những gì bạn sẽ nhận được từ việc nâng cấp truyền thống. Nó ấn tượng đến mức hầu hết người chơi không thể phân biệt được sự khác biệt giữa hình ảnh được hiển thị nguyên bản ở độ phân giải cao hơn và hình ảnh được nâng cấp bởi DLSS.

Ưu điểm đáng chú ý nhất của DLSS và được cho là toàn bộ động lực đằng sau sự phát triển của nó là sự gia tăng đáng kể về hiệu suất trong khi DLSS được bật. Hiệu suất này xuất phát từ thực tế đơn giản là DLSS đang hiển thị trò chơi ở độ phân giải thấp hơn và sau đó nâng cấp nó bằng cách sử dụng AI để phù hợp với độ phân giải đầu ra của màn hình. Sử dụng các tính năng học sâu của dòng card đồ họa RTX, DLSS có thể xuất ra hình ảnh với chất lượng phù hợp với hình ảnh được hiển thị nguyên bản.

Nvidia đã giải thích cơ chế đằng sau công nghệ DLSS 2.0 trên trang web chính thức của mình. Chúng tôi biết rằng Nvidia đang sử dụng một hệ thống được gọi là Neural Graphics Framework hoặc NGX, sử dụng khả năng của một siêu máy tính chạy bằng NGX để học hỏi và cải thiện các tính toán AI tốt hơn. DLSS 2.0 có hai đầu vào chính vào mạng AI:

Độ phân giải thấp, hình ảnh bí danh do công cụ trò chơi hiển thị
Độ phân giải thấp, vectơ chuyển động từ các hình ảnh giống nhau - cũng được tạo bởi công cụ trò chơi

Nvidia sau đó sử dụng một quá trình được gọi là phản hồi tạm thời để "ước tính" khung hình sẽ trông như thế nào. Sau đó, một loại tự động mã hóa AI đặc biệt sẽ lấy khung hình hiện tại có độ phân giải thấp và khung hình trước đó có độ phân giải cao để xác định trên cơ sở từng pixel cách tạo khung hình hiện tại có chất lượng cao hơn. Nvidia cũng đang đồng thời thực hiện các bước để cải thiện sự hiểu biết của siêu máy tính về quy trình:

Ứng dụng trong tương lai

Như chúng ta có thể thấy từ các ứng dụng như học sâu, trí tuệ nhân tạo và đặc biệt là tính năng DLSS mà Nvidia đã giới thiệu, lõi Tensor của các card đồ họa này đang thực hiện rất nhiều tác vụ thú vị và quan trọng. Rất khó để dự đoán tương lai sẽ ra sao đối với những lĩnh vực này nhưng người ta chắc chắn có thể đưa ra dự đoán có học thức dựa trên dữ liệu hiện tại và xu hướng của ngành.

Hiện tại, sự thúc đẩy toàn cầu trong các lĩnh vực như trí tuệ nhân tạo và học máy đang ở mức cao nhất mọi thời đại. Có thể giả định rằng Nvidia sẽ mở rộng dòng sản phẩm card đồ họa bao gồm Tensor Core trong tương lai gần và những chiếc card đó sẽ rất hữu ích cho các ứng dụng này. Hơn nữa, DLSS là một ứng dụng tuyệt vời khác của các công nghệ học sâu sử dụng Lõi Tensor và điều đó có thể cũng sẽ chứng kiến những cải tiến lớn trong tương lai gần. Đây là một trong những tính năng thú vị nhất và hiệu quả nhất trong ngành PC Gaming trong những năm gần đây, vì vậy người ta phải cho rằng nó sẽ tồn tại ở đây.

Với sức mạnh của Tensor Cores, những tiến bộ trong lĩnh vực máy học và trí tuệ nhân tạo đang được thực hiện với tốc độ nhanh chóng. Quá trình này rất có thể sẽ tiếp tục và được khuếch đại với các công ty như Nvidia phụ trách và dẫn đầu ngành PC Gaming khi áp dụng kiến thức về các lĩnh vực này vào các trò chơi mà chúng tôi chơi.