NVIDIA hướng đến giải quyết các vấn đề của AI với nhiều ngôn ngữ

Tin tức AI - 15/08/2025 17:11:14

Dù AI có vẻ phổ biến, nhưng nó chủ yếu hoạt động chỉ trong một phần nhỏ trong số 7.000 ngôn ngữ trên thế giới, một điểm mù mà NVIDIA đặt mục tiêu khắc phục.

Dù AI có vẻ phổ biến, nhưng nó chủ yếu hoạt động chỉ trong một phần nhỏ trong số 7.000 ngôn ngữ trên thế giới, khiến một phần lớn dân số toàn cầu bị bỏ lại phía sau. NVIDIA hướng đến khắc phục điểm mù rõ ràng này, đặc biệt là ở châu Âu.

Công ty vừa phát hành một bộ công cụ mã nguồn mở mạnh mẽ mới, nhằm cung cấp cho các nhà phát triển khả năng xây dựng AI giọng nói chất lượng cao cho 25 ngôn ngữ khác nhau của châu Âu. Điều này bao gồm các ngôn ngữ chính, nhưng quan trọng hơn, nó mang lại một giải pháp cho những ngôn ngữ thường bị các hãng công nghệ lớn bỏ qua, chẳng hạn như tiếng Croatia, tiếng Estonia và tiếng Malta.

Mục tiêu là để các nhà phát triển tạo ra loại công cụ hỗ trợ giọng nói mà nhiều người trong chúng ta coi là điều hiển nhiên, từ các chatbot đa ngôn ngữ thực sự hiểu bạn đến các bot dịch vụ khách hàng và dịch vụ dịch thuật hoạt động trong nháy mắt.

Trọng tâm của sáng kiến này là Granary, một thư viện khổng lồ về giọng nói của con người. Nó chứa khoảng một triệu giờ âm thanh, tất cả đều được chọn lọc kỹ lưỡng để giúp dạy AI những sắc thái của nhận dạng giọng nói và dịch thuật.

Để sử dụng dữ liệu giọng nói này, NVIDIA cũng đang cung cấp hai mô hình AI mới được thiết kế cho các tác vụ ngôn ngữ:

  • Canary-1b-v2, một mô hình lớn được xây dựng để đạt độ chính xác cao trong các công việc phiên âm và dịch thuật phức tạp.
  • Parakeet-tdt-0.6b-v3, được thiết kế cho các ứng dụng thời gian thực, nơi tốc độ là yếu tố then chốt.

Nếu bạn muốn tìm hiểu sâu về khoa học đằng sau nó, thì báo cáo về Granary sẽ được trình bày tại hội nghị Interspeech ở Hà Lan vào tháng này. Đối với các nhà phát triển mong muốn bắt tay vào làm việc, tập dữ liệu và cả hai mô hình đã có sẵn trên Hugging Face.

Tuy nhiên, điều kỳ diệu thực sự nằm ở cách dữ liệu này được tạo ra. Tất cả chúng ta đều biết rằng việc đào tạo AI đòi hỏi lượng lớn dữ liệu, nhưng việc thu thập nó thường là một quá trình chậm chạp, tốn kém và thẳng thắn mà nói là tẻ nhạt của việc gán nhãn thủ công.

Để khắc phục điều này, đội ngũ AI giọng nói của NVIDIA – hợp tác với các nhà nghiên cứu từ Carnegie Mellon UniversityFondazione Bruno Kessler – đã xây dựng một quy trình tự động. Sử dụng bộ công cụ NeMo của riêng họ, họ có thể lấy âm thanh thô, chưa được gán nhãn và biến nó thành dữ liệu chất lượng cao, có cấu trúc mà một AI có thể học hỏi.

Đây không chỉ là một thành tựu kỹ thuật; đó là một bước tiến lớn cho sự hòa nhập kỹ thuật số. Điều đó có nghĩa là một nhà phát triển ở Riga hoặc Zagreb cuối cùng có thể xây dựng các công cụ AI hỗ trợ giọng nói mà thực sự hiểu ngôn ngữ địa phương của họ. Và họ có thể làm điều đó hiệu quả hơn. Nhóm nghiên cứu nhận thấy rằng dữ liệu Granary của họ hiệu quả đến mức chỉ cần khoảng một nửa lượng dữ liệu đó để đạt được mức độ chính xác mục tiêu so với các tập dữ liệu phổ biến khác.

Hai mô hình mới này thể hiện sức mạnh này. Canary thẳng thắn mà nói là một cỗ máy mạnh mẽ, mang lại chất lượng dịch thuật và phiên âm sánh ngang với các mô hình lớn gấp ba lần, nhưng với tốc độ nhanh gấp mười lần. Trong khi đó, Parakeet có thể xử lý một bản ghi cuộc họp dài 24 phút trong một lần, tự động xác định ngôn ngữ đang được nói. Cả hai mô hình đều đủ thông minh để xử lý dấu câu, viết hoa và cung cấp dấu thời gian cấp từ, điều cần thiết để xây dựng các ứng dụng cấp chuyên nghiệp.

Bằng cách đặt những công cụ mạnh mẽ này và các phương pháp đằng sau chúng vào tay của cộng đồng nhà phát triển toàn cầu, NVIDIA không chỉ phát hành một sản phẩm. Công ty đang khơi mào một làn sóng đổi mới mới, hy vọng tạo ra một thế giới nơi AI nói ngôn ngữ của bạn, bất kể bạn đến từ đâu.

Nguồn: Sưu tầm

Tin tức AI

Xem tất cả