Mistral phát hành Voxtral, mô hình AI âm thanh mã nguồn mở đầu tiên của hãng
Tin tức AI - 15/07/2025 22:14:44
Startup Mistral của Pháp đã tham gia vào cuộc đua âm thanh với Voxtral, mô hình mở đầu tiên của hãng, nhằm thách thức sự thống trị của các hệ thống doanh nghiệp đóng bằng các lựa chọn thay thế mã nguồn mở.
Khi các hệ thống AI ngày càng trở nên mạnh mẽ hơn, giọng nói nhanh chóng trở thành cách mặc định để chúng ta giao tiếp với máy móc. Startup AI của Pháp Mistral đã tham gia vào cuộc đua âm thanh với mô hình mở đầu tiên của mình, nhằm thách thức sự thống trị của các hệ thống doanh nghiệp đóng bằng các lựa chọn thay thế mã nguồn mở.
Vào thứ Ba, Mistral đã công bố phát hành Voxtral, dòng mô hình âm thanh đầu tiên của hãng dành cho doanh nghiệp.
Công ty đang quảng bá Voxtral là mô hình mở đầu tiên có khả năng triển khai “trí tuệ giọng nói thực sự hữu ích trong sản xuất.”
Nói cách khác, các nhà phát triển sẽ không còn phải lựa chọn giữa một hệ thống mở, giá rẻ nhưng kém hiệu quả trong việc sao chép và không thực sự hiểu những gì được nói, với một hệ thống hoạt động tốt nhưng bị đóng, khiến nhà phát triển phải trả chi phí cao hơn và ít quyền kiểm soát triển khai hơn.
Đối với doanh nghiệp, điều đó có nghĩa là Voxtral cung cấp một giải pháp thay thế phải chăng mà công ty tuyên bố có giá “chưa bằng một nửa” so với các giải pháp tương đương.
Mistral cho biết Voxtral có thể sao chép tối đa 30 phút âm thanh. Nhờ nền tảng LLM, Mistral Small 3.1, nó có thể hiểu tới 40 phút, cho phép người dùng đặt câu hỏi về nội dung âm thanh, tạo bản tóm tắt hoặc biến lệnh thoại thành các hành động trong thời gian thực như gọi API hoặc chạy các hàm. Voxtral cũng đa ngôn ngữ, với khả năng sao chép và hiểu các ngôn ngữ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Hindi, tiếng Đức, tiếng Hà Lan và tiếng Ý.
Công ty đang cung cấp hai biến thể của “mô hình hiểu giọng nói” của mình. Thứ nhất, Voxtral Small, có 24 tỷ tham số cho các triển khai quy mô sản xuất và cạnh tranh với ElevenLabs Scribe, GPT-4o-mini và Gemini 2.5 Flash.
Thứ hai, Voxtral Mini, có 3 tỷ tham số cho các triển khai cục bộ và biên. Ngoài ra còn có một phiên bản API nhanh, cực kỳ rẻ, tinh gọn của mô hình 3 tỷ tham số mang tên Voxtral Mini Transcribe, được tối ưu hóa cho các trường hợp sử dụng chỉ sao chép và hứa hẹn sẽ vượt trội hơn OpenAI Whisper với giá chưa bằng một nửa.
Người dùng có thể dùng thử Voxtral miễn phí bằng cách tải API trên Hugging Face hoặc thử nghiệm các mô hình trong chatbot Le Chat của Mistral. Theo công ty, việc tích hợp API vào các ứng dụng có giá từ 0,001 USD mỗi phút.
Sự ra mắt này diễn ra một tháng sau khi Mistral công bố Magistral, dòng mô hình suy luận đầu tiên của hãng hoạt động bằng cách giải quyết vấn đề từng bước để cải thiện độ tin cậy.
Mistral, một trong những công ty AI hàng đầu châu Âu, nổi tiếng với việc ủng hộ các mô hình AI mã nguồn mở. Đầu tháng này, TechCrunch đưa tin rằng công ty đang đàm phán để huy động tới 1 tỷ USD vốn cổ phần từ các nhà đầu tư như quỹ MGX của Abu Dhabi.