CALM: Thiết kế mô hình mới có thể khắc phục chi phí AI doanh nghiệp cao
Tin tức AI - 05/11/2025 23:20:27
Các nhà lãnh đạo doanh nghiệp đang vật lộn với chi phí cao khi triển khai các mô hình AI có thể tìm thấy giải pháp nhờ một thiết kế kiến trúc mới.
Các nhà lãnh đạo doanh nghiệp đang vật lộn với chi phí cao khi triển khai các mô hình AI có thể tìm thấy giải pháp nhờ một thiết kế kiến trúc mới.
Mặc dù khả năng của AI tạo sinh rất hấp dẫn, nhưng yêu cầu tính toán khổng lồ của chúng cho cả quá trình huấn luyện và suy luận dẫn đến chi phí cấm kỵ và những lo ngại về môi trường ngày càng tăng. Trọng tâm của sự kém hiệu quả này là “nút thắt cổ chai cơ bản” của các mô hình, một quy trình tự hồi quy tạo ra văn bản tuần tự, từng token một.
Đối với các doanh nghiệp xử lý luồng dữ liệu khổng lồ, từ mạng IoT đến thị trường tài chính, hạn chế này khiến việc tạo ra phân tích dạng dài vừa chậm vừa gặp thách thức về kinh tế. Tuy nhiên, một bài nghiên cứu mới từ Tencent AI và Đại học Thanh Hoa đề xuất một giải pháp thay thế.
Nghiên cứu giới thiệu các Mô hình Ngôn ngữ Tự Hồi Quy Liên Tục (CALM). Phương pháp này tái thiết kế quy trình tạo để dự đoán một vectơ liên tục thay vì một token rời rạc.
Một bộ mã hóa tự động (autoencoder) độ trung thực cao “nén một khối K token thành một vectơ liên tục duy nhất,” mang lại băng thông ngữ nghĩa cao hơn nhiều.
Thay vì xử lý các từ như “the”, “cat”, “sat” trong ba bước, mô hình nén chúng thành một. Thiết kế này trực tiếp “giảm số bước tạo sinh,” giải quyết gánh nặng tính toán.
Kết quả thử nghiệm cho thấy sự đánh đổi tốt hơn giữa hiệu suất và tính toán. Một mô hình AI CALM nhóm bốn token mang lại hiệu suất “tương đương với các mô hình cơ sở rời rạc mạnh mẽ, nhưng với chi phí tính toán thấp hơn đáng kể” cho một doanh nghiệp.
Ví dụ, một mô hình CALM yêu cầu ít hơn 44% FLOPs huấn luyện và ít hơn 34% FLOPs suy luận so với một mô hình Transformer cơ sở có khả năng tương tự. Điều này cho thấy khả năng tiết kiệm cả chi phí vốn ban đầu cho việc huấn luyện và chi phí vận hành định kỳ cho suy luận.
Việc chuyển từ một từ vựng rời rạc, hữu hạn sang một không gian vectơ liên tục, vô hạn đã phá vỡ bộ công cụ LLM tiêu chuẩn. Các nhà nghiên cứu đã phải phát triển một “khung làm việc không khả năng” toàn diện để làm cho mô hình mới khả thi.
Để huấn luyện, mô hình không thể sử dụng lớp softmax tiêu chuẩn hoặc ước lượng khả năng cực đại (maximum likelihood estimation). Để giải quyết vấn đề này, nhóm nghiên cứu đã sử dụng một mục tiêu “không khả năng” với Energy Transformer, nhằm thưởng cho mô hình vì những dự đoán chính xác mà không cần tính toán xác suất rõ ràng.
Phương pháp huấn luyện mới này cũng yêu cầu một chỉ số đánh giá mới. Các điểm chuẩn tiêu chuẩn như Perplexity không thể áp dụng vì chúng dựa vào các khả năng mà mô hình không còn tính toán.
Nhóm nghiên cứu đã đề xuất BrierLM, một chỉ số mới dựa trên điểm Brier (Brier score) có thể được ước tính hoàn toàn từ các mẫu mô hình. Xác thực đã xác nhận BrierLM là một giải pháp thay thế đáng tin cậy, cho thấy “hệ số tương quan hạng Spearman là -0,991” với các chỉ số mất mát truyền thống.
Cuối cùng, khung làm việc khôi phục khả năng tạo sinh có kiểm soát, một tính năng quan trọng cho việc sử dụng trong doanh nghiệp. Lấy mẫu nhiệt độ tiêu chuẩn là không thể nếu không có phân phối xác suất. Bài báo giới thiệu một “thuật toán lấy mẫu không khả năng” mới, bao gồm một phương pháp xấp xỉ theo lô thực tế, để quản lý sự đánh đổi giữa độ chính xác và tính đa dạng của đầu ra.
Nghiên cứu này mang đến cái nhìn thoáng qua về một tương lai nơi AI tạo sinh không chỉ được định nghĩa bằng số lượng tham số ngày càng lớn, mà còn bởi hiệu quả kiến trúc.
Con đường mở rộng quy mô mô hình hiện tại đang gặp phải giới hạn của hiệu suất giảm dần và chi phí tăng vọt. Khung làm việc CALM thiết lập một “trục thiết kế mới cho việc mở rộng LLM: tăng băng thông ngữ nghĩa của mỗi bước tạo sinh”.
Mặc dù đây là một khung nghiên cứu chứ không phải là một sản phẩm có sẵn, nó chỉ ra một con đường mạnh mẽ và có thể mở rộng để hướng tới các mô hình ngôn ngữ cực kỳ hiệu quả. Khi đánh giá lộ trình của nhà cung cấp, các nhà lãnh đạo công nghệ nên nhìn xa hơn kích thước mô hình và bắt đầu hỏi về hiệu quả kiến trúc.
Khả năng giảm FLOPs trên mỗi token được tạo ra sẽ trở thành một lợi thế cạnh tranh mang tính định hình, cho phép AI được triển khai một cách kinh tế và bền vững hơn trên toàn doanh nghiệp để giảm chi phí—từ trung tâm dữ liệu đến các ứng dụng biên (edge applications) nặng dữ liệu.