Ba mô-đun đa ngôn ngữ sử dụng mới sắp có mặt trên TensorFlow

Google là một trong những công ty tiên phong về nghiên cứu AI và vô số dự án của họ đã thành công. AlphaZero từ Google DeepMind nhóm là một bước đột phá trong nghiên cứu AI, do chương trình có khả năng tự học các trò chơi phức tạp (Không có sự can thiệp và đào tạo của con người). Google cũng đã hoàn thành xuất sắc Các chương trình xử lý ngôn ngữ tự nhiên (NLP), là một trong những lý do đằng sau sự hiệu quả của Trợ lý Google trong việc hiểu và xử lý giọng nói của con người.

Google gần đây đã công bố việc phát hành ba SỬ DỤNG các mô-đun đa ngôn ngữ và cung cấp nhiều mô hình đa ngôn ngữ hơn để truy xuất văn bản tương tự về mặt ngữ nghĩa.

Xử lý ngôn ngữ trong các hệ thống đã trải qua một chặng đường dài, từ phân tích cú pháp cây cơ bản đến các mô hình liên kết vectơ lớn. Hiểu ngữ cảnh trong văn bản là một trong những vấn đề lớn nhất trong lĩnh vực NLP và Bộ mã hóa câu đa năng giải quyết vấn đề này bằng cách chuyển đổi văn bản theo vectơ chiều cao, giúp xếp hạng và ký hiệu văn bản dễ dàng hơn.

Theo Google, “Ba mô-đun mới đều được xây dựng dựa trên kiến ​​trúc truy xuất ngữ nghĩa, thường chia mã hóa câu hỏi và câu trả lời thành các mạng nơ-ron riêng biệt, giúp bạn có thể tìm kiếm trong số hàng tỷ câu trả lời tiềm năng trong vòng mili giây.Nói cách khác, điều này giúp lập chỉ mục dữ liệu tốt hơn.

Tất cả ba mô-đun đa ngôn ngữ đều được đào tạo bằng cách sử dụng khung mã hóa kép đa tác vụ, tương tự như mô hình USE ban đầu cho tiếng Anh, đồng thời sử dụng các kỹ thuật mà chúng tôi đã phát triển để cải thiện bộ mã hóa kép với cách tiếp cận softmax biên phụ gia. Chúng được thiết kế không chỉ để duy trì hiệu suất học chuyển giao tốt mà còn thực hiện tốt n nhiệm vụ truy xuất ngữ nghĩa. ” Hàm Softmax thường được sử dụng để tiết kiệm sức mạnh tính toán bằng cách lũy thừa vectơ và sau đó chia mọi phần tử cho tổng của cấp số nhân.

Kiến trúc truy xuất ngữ nghĩa

“Ba mô-đun mới đều được xây dựng dựa trên kiến ​​trúc truy xuất ngữ nghĩa, thường chia mã hóa câu hỏi và câu trả lời thành các mạng nơ-ron riêng biệt, giúp bạn có thể tìm kiếm trong số hàng tỷ câu trả lời tiềm năng trong vòng mili giây. Chìa khóa để sử dụng mã hóa kép để truy xuất ngữ nghĩa hiệu quả là mã hóa trước tất cả các câu trả lời ứng viên cho các truy vấn đầu vào dự kiến ​​và lưu trữ chúng trong cơ sở dữ liệu vectơ được tối ưu hóa để giải quyết vấn đề hàng xóm gần nhất, cho phép tìm kiếm một số lượng lớn ứng viên một cách nhanh chóng. với độ chính xác và khả năng thu hồi tốt. ”

Bạn có thể tải xuống các mô-đun này từ TensorFlow Hub. Để đọc thêm, hãy tham khảo bài đăng blog đầy đủ của GoogleAI.

Facebook Twitter Google Plus Pinterest