Các doanh nghiệp Nhật Bản triển khai LLM nhẹ tsuzumi 2 trên một GPU duy nhất, đạt hiệu suất mô hình tiên tiến đồng thời cắt giảm chi phí hạ tầng và giải quyết các lo ngại về chủ quyền dữ liệu.
Việc triển khai AI trong doanh nghiệp đang đối mặt với một mâu thuẫn cơ bản: các tổ chức cần các mô hình ngôn ngữ tinh vi nhưng lại ngần ngại trước chi phí hạ tầng và mức tiêu thụ năng lượng của các hệ thống tiên tiến.
Việc ra mắt gần đây của NTT Inc. đối với tsuzumi 2, một mô hình ngôn ngữ lớn (LLM) nhẹ chạy trên một GPU duy nhất, cho thấy cách các doanh nghiệp đang giải quyết hạn chế này—với các triển khai ban đầu cho thấy hiệu suất sánh ngang với các mô hình lớn hơn nhưng với một phần nhỏ chi phí vận hành.
Trường hợp kinh doanh rất đơn giản. Các mô hình ngôn ngữ lớn truyền thống đòi hỏi hàng chục hoặc hàng trăm GPU, tạo ra các rào cản về tiêu thụ điện và chi phí vận hành khiến việc triển khai AI trở nên không thực tế đối với nhiều tổ chức.
Đối với các doanh nghiệp hoạt động ở các thị trường có hạ tầng điện hạn chế hoặc ngân sách vận hành eo hẹp, những yêu cầu này loại bỏ AI như một lựa chọn khả thi. Thông cáo báo chí của công ty minh họa các cân nhắc thực tế thúc đẩy việc áp dụng LLM nhẹ với việc triển khai của Đại học Tokyo Online.
Trường đại học vận hành một nền tảng tại chỗ, giữ dữ liệu sinh viên và nhân viên trong mạng lưới khuôn viên của mình—một yêu cầu về chủ quyền dữ liệu phổ biến trong các tổ chức giáo dục và các ngành công nghiệp được quản lý.
Sau khi xác nhận rằng tsuzumi 2 xử lý việc hiểu ngữ cảnh phức tạp và xử lý tài liệu dài ở mức sẵn sàng sản xuất, trường đại học đã triển khai nó để nâng cao Hỏi & Đáp khóa học, hỗ trợ tạo tài liệu giảng dạy và hướng dẫn sinh viên cá nhân hóa.
Hoạt động bằng một GPU duy nhất có nghĩa là trường đại học tránh được cả chi phí vốn cho các cụm GPU và chi phí điện liên tục. Quan trọng hơn, việc triển khai tại chỗ giải quyết các lo ngại về quyền riêng tư dữ liệu, vốn ngăn cản nhiều tổ chức giáo dục sử dụng các dịch vụ AI dựa trên đám mây xử lý thông tin sinh viên nhạy cảm.
Đánh giá nội bộ của NTT về việc xử lý các yêu cầu hệ thống tài chính cho thấy tsuzumi 2 sánh ngang hoặc vượt trội so với các mô hình bên ngoài hàng đầu mặc dù yêu cầu hạ tầng nhỏ hơn đáng kể. Tỷ lệ hiệu suất trên tài nguyên này quyết định tính khả thi của việc áp dụng AI cho các doanh nghiệp nơi tổng chi phí sở hữu thúc đẩy các quyết định.
Mô hình này mang lại những gì NTT mô tả là “kết quả hàng đầu thế giới trong số các mô hình có kích thước tương đương” về hiệu suất ngôn ngữ tiếng Nhật, với sức mạnh đặc biệt trong các lĩnh vực kinh doanh ưu tiên kiến thức, phân tích, tuân thủ hướng dẫn và an toàn.
Đối với các doanh nghiệp hoạt động chủ yếu ở thị trường Nhật Bản, việc tối ưu hóa ngôn ngữ này giúp giảm nhu cầu triển khai các mô hình đa ngôn ngữ lớn hơn, vốn đòi hỏi nhiều tài nguyên tính toán hơn đáng kể.
Kiến thức được tăng cường trong các lĩnh vực tài chính, y tế và công cộng—được phát triển dựa trên nhu cầu của khách hàng—cho phép triển khai chuyên biệt theo từng miền mà không cần tinh chỉnh sâu rộng.
Các khả năng RAG (Retrieval-Augmented Generation) và tinh chỉnh của mô hình cho phép phát triển hiệu quả các ứng dụng chuyên biệt cho các doanh nghiệp có cơ sở kiến thức độc quyền hoặc thuật ngữ chuyên ngành mà các mô hình chung thường hoạt động kém hiệu quả.
Ngoài các cân nhắc về chi phí, chủ quyền dữ liệu thúc đẩy việc áp dụng LLM nhẹ trên các ngành công nghiệp được quản lý. Các tổ chức xử lý thông tin mật phải đối mặt với rủi ro khi xử lý dữ liệu thông qua các dịch vụ AI bên ngoài chịu sự điều chỉnh của luật pháp nước ngoài.
Trên thực tế, NTT định vị tsuzumi 2 là một “mô hình thuần túy nội địa” được phát triển từ đầu tại Nhật Bản, hoạt động tại chỗ hoặc trên các đám mây riêng. Điều này giải quyết các mối lo ngại phổ biến trên khắp các thị trường Châu Á-Thái Bình Dương về nơi lưu trú dữ liệu, tuân thủ quy định và bảo mật thông tin.
Mối quan hệ đối tác của FUJIFILM Business Innovation với NTT DOCOMO BUSINESS chứng minh cách các doanh nghiệp kết hợp các mô hình nhẹ với hạ tầng dữ liệu hiện có. Công nghệ REiLI của FUJIFILM chuyển đổi dữ liệu doanh nghiệp phi cấu trúc—hợp đồng, đề xuất, văn bản và hình ảnh hỗn hợp—thành thông tin có cấu trúc.
Việc tích hợp các khả năng tạo sinh của tsuzumi 2 cho phép phân tích tài liệu nâng cao mà không cần truyền thông tin doanh nghiệp nhạy cảm đến các nhà cung cấp AI bên ngoài. Cách tiếp cận kiến trúc này—kết hợp các mô hình nhẹ với xử lý dữ liệu tại chỗ—đại diện cho một chiến lược AI doanh nghiệp thực tế, cân bằng các yêu cầu về khả năng với các hạn chế về bảo mật, tuân thủ và chi phí.
tsuzumi 2 bao gồm hỗ trợ đa phương thức tích hợp sẵn để xử lý văn bản, hình ảnh và giọng nói trong các ứng dụng doanh nghiệp. Điều này quan trọng đối với các quy trình làm việc kinh doanh yêu cầu AI xử lý nhiều loại dữ liệu mà không cần triển khai các mô hình chuyên biệt riêng biệt.
Kiểm soát chất lượng sản xuất, hoạt động dịch vụ khách hàng và quy trình xử lý tài liệu thường liên quan đến văn bản, hình ảnh và đôi khi là đầu vào giọng nói. Các mô hình đơn lẻ xử lý cả ba loại này giúp giảm độ phức tạp tích hợp so với việc quản lý nhiều hệ thống chuyên biệt với các yêu cầu vận hành khác nhau.
Cách tiếp cận nhẹ của NTT tương phản với các chiến lược của các hyperscaler (nhà cung cấp dịch vụ đám mây lớn) nhấn mạnh các mô hình khổng lồ với khả năng rộng lớn. Đối với các doanh nghiệp có ngân sách AI đáng kể và đội ngũ kỹ thuật tiên tiến, các mô hình tiên tiến từ OpenAI, Anthropic và Google mang lại hiệu suất vượt trội.
Tuy nhiên, cách tiếp cận này loại trừ các tổ chức thiếu những tài nguyên này—một phần đáng kể của thị trường doanh nghiệp, đặc biệt là ở các khu vực Châu Á-Thái Bình Dương với chất lượng hạ tầng khác nhau. Các cân nhắc khu vực rất quan trọng.
Độ tin cậy của điện, kết nối internet, tính sẵn có của trung tâm dữ liệu và khung pháp lý khác nhau đáng kể giữa các thị trường. Các mô hình nhẹ cho phép triển khai tại chỗ phù hợp với những biến thể này tốt hơn so với các phương pháp yêu cầu quyền truy cập hạ tầng đám mây nhất quán.
Các tổ chức đánh giá việc triển khai LLM nhẹ nên xem xét một số yếu tố:
Chuyên môn hóa theo lĩnh vực: Kiến thức được tăng cường của tsuzumi 2 trong các lĩnh vực tài chính, y tế và công cộng giải quyết các miền cụ thể, nhưng các tổ chức trong các ngành khác nên đánh giá liệu kiến thức miền có sẵn có đáp ứng yêu cầu của họ hay không.
Cân nhắc về ngôn ngữ: Việc tối ưu hóa để xử lý ngôn ngữ tiếng Nhật mang lại lợi ích cho các hoạt động tại thị trường Nhật Bản nhưng có thể không phù hợp với các doanh nghiệp đa ngôn ngữ yêu cầu hiệu suất xuyên ngôn ngữ nhất quán.
Độ phức tạp tích hợp: Việc triển khai tại chỗ yêu cầu các khả năng kỹ thuật nội bộ để cài đặt, bảo trì và cập nhật. Các tổ chức thiếu các khả năng này có thể thấy các lựa chọn thay thế dựa trên đám mây đơn giản hơn về mặt vận hành mặc dù chi phí cao hơn.
Đánh đổi hiệu suất: Mặc dù tsuzumi 2 sánh ngang với các mô hình lớn hơn trong các miền cụ thể, các mô hình tiên tiến có thể hoạt động tốt hơn trong các trường hợp ngoại lệ hoặc ứng dụng mới. Các tổ chức nên đánh giá liệu hiệu suất chuyên biệt theo miền có đủ hay không hay liệu các khả năng rộng hơn có biện minh cho chi phí hạ tầng cao hơn hay không.
Việc triển khai tsuzumi 2 của NTT chứng minh rằng việc triển khai AI tinh vi không yêu cầu hạ tầng siêu lớn—ít nhất là đối với các tổ chức có yêu cầu phù hợp với khả năng của mô hình nhẹ. Các doanh nghiệp sớm áp dụng cho thấy giá trị kinh doanh thực tế: giảm chi phí vận hành, cải thiện chủ quyền dữ liệu và hiệu suất sẵn sàng sản xuất cho các miền cụ thể.
Khi các doanh nghiệp định hướng việc áp dụng AI, sự căng thẳng giữa các yêu cầu về khả năng và các ràng buộc vận hành ngày càng thúc đẩy nhu cầu về các giải pháp hiệu quả, chuyên biệt thay vì các hệ thống đa năng đòi hỏi hạ tầng rộng lớn.
Đối với các tổ chức đánh giá chiến lược triển khai AI, câu hỏi không phải là liệu các mô hình nhẹ có “tốt hơn” các hệ thống tiên tiến hay không—mà là liệu chúng có đủ cho các yêu cầu kinh doanh cụ thể trong khi giải quyết các hạn chế về chi phí, bảo mật và vận hành khiến các cách tiếp cận thay thế trở nên không thực tế hay không.
Câu trả lời, như việc triển khai của Đại học Tokyo Online và FUJIFILM Business Innovation chứng minh, ngày càng là có.