Các tiêu chuẩn AI sai sót gây rủi ro cho ngân sách doanh nghiệp

Tin tức AI - 04/11/2025 21:04:00

Một đánh giá học thuật mới cho rằng các tiêu chuẩn AI có sai sót, có khả năng khiến doanh nghiệp đưa ra các quyết định rủi ro cao dựa trên dữ liệu "sai lệch".

Một đánh giá học thuật mới cho rằng các tiêu chuẩn AI có sai sót, có khả năng khiến doanh nghiệp đưa ra các quyết định rủi ro cao dựa trên dữ liệu “sai lệch”.

Các lãnh đạo doanh nghiệp đang cam kết ngân sách tám hoặc chín chữ số cho các chương trình AI tạo sinh. Các quyết định mua sắm và phát triển này thường dựa vào các bảng xếp hạng và tiêu chuẩn công khai để so sánh khả năng của mô hình.

Một nghiên cứu quy mô lớn, ‘Measuring what Matters: Construct Validity in Large Language Model Benchmarks’ (Đo lường những gì quan trọng: Tính giá trị cấu trúc trong các tiêu chuẩn mô hình ngôn ngữ lớn), đã phân tích 445 tiêu chuẩn LLM riêng biệt từ các hội nghị AI hàng đầu. Một nhóm gồm 29 chuyên gia đánh giá đã phát hiện ra rằng “hầu hết tất cả các bài báo đều có điểm yếu ở ít nhất một lĩnh vực,” làm suy yếu các tuyên bố của họ về hiệu suất mô hình.

Đối với các CTO và Giám đốc Dữ liệu, điều này ảnh hưởng trực tiếp đến cốt lõi của quản trị AI và chiến lược đầu tư. Nếu một tiêu chuẩn tuyên bố đo lường ‘an toàn’ hoặc ‘độ bền’ nhưng thực sự không thể hiện được những phẩm chất đó, một tổ chức có thể triển khai một mô hình khiến họ gặp phải rủi ro tài chính và danh tiếng nghiêm trọng.

Vấn đề về ‘tính giá trị cấu trúc’

Các nhà nghiên cứu đã tập trung vào một nguyên tắc khoa học cốt lõi được gọi là tính giá trị cấu trúc. Nói một cách đơn giản, đây là mức độ mà một thử nghiệm đo lường khái niệm trừu tượng mà nó tuyên bố đang đo lường.

Ví dụ, trong khi ‘trí thông minh’ không thể đo lường trực tiếp, các bài kiểm tra được tạo ra để đóng vai trò là các đại diện có thể đo lường được. Bài báo lưu ý rằng nếu một tiêu chuẩn có tính giá trị cấu trúc thấp, “thì một điểm số cao có thể không liên quan hoặc thậm chí gây hiểu lầm”.

Vấn đề này rất phổ biến trong đánh giá AI. Nghiên cứu cho thấy các khái niệm chính thường “được định nghĩa hoặc triển khai kém”. Điều này có thể dẫn đến “các tuyên bố khoa học được hỗ trợ kém, nghiên cứu sai hướng và các hàm ý chính sách không dựa trên bằng chứng vững chắc”.

Khi các nhà cung cấp cạnh tranh để giành hợp đồng doanh nghiệp bằng cách làm nổi bật điểm số cao nhất của họ trên các tiêu chuẩn, các nhà lãnh đạo thực sự đang tin tưởng rằng những điểm số này là một đại diện đáng tin cậy cho hiệu suất kinh doanh trong thế giới thực. Nghiên cứu mới này cho thấy niềm tin đó có thể bị đặt sai chỗ.

Những điểm thất bại của các tiêu chuẩn AI doanh nghiệp

Đánh giá đã xác định các thất bại mang tính hệ thống trên diện rộng, từ cách các tiêu chuẩn được thiết kế đến cách kết quả của chúng được báo cáo.

Định nghĩa mơ hồ hoặc gây tranh cãi: Bạn không thể đo lường những gì bạn không thể định nghĩa. Nghiên cứu cho thấy ngay cả khi các định nghĩa cho một hiện tượng được cung cấp, 47,8% là “bị tranh cãi,” đề cập đến các khái niệm có “nhiều định nghĩa khả thi hoặc không có định nghĩa rõ ràng nào cả”.

Bài báo sử dụng ‘sự vô hại’ – một mục tiêu chính trong việc căn chỉnh an toàn của doanh nghiệp – làm ví dụ về một hiện tượng thường thiếu định nghĩa rõ ràng, được thống nhất. Nếu hai nhà cung cấp đạt điểm khác nhau trên một tiêu chuẩn ‘vô hại’, điều đó có thể chỉ phản ánh hai định nghĩa khác nhau, tùy tiện của thuật ngữ đó, chứ không phải là sự khác biệt thực sự về độ an toàn của mô hình.

Thiếu chặt chẽ về thống kê: Có lẽ điều đáng báo động nhất đối với các tổ chức dựa trên dữ liệu là đánh giá cho thấy chỉ 16% trong số 445 tiêu chuẩn đã sử dụng ước tính độ không chắc chắn hoặc các kiểm định thống kê để so sánh kết quả mô hình.

Nếu không có phân tích thống kê, không thể biết liệu ưu thế 2% của Mô hình A so với Mô hình B là sự khác biệt thực sự về khả năng hay chỉ là do ngẫu nhiên. Các quyết định của doanh nghiệp đang được hướng dẫn bởi những con số mà sẽ không vượt qua được một đánh giá khoa học hoặc tình báo kinh doanh cơ bản.

Nhiễm bẩn và ghi nhớ dữ liệu: Nhiều tiêu chuẩn, đặc biệt là những tiêu chuẩn dành cho khả năng suy luận (như GSM8K được sử dụng rộng rãi), bị suy yếu khi các câu hỏi và câu trả lời của chúng xuất hiện trong dữ liệu tiền huấn luyện của mô hình.

Khi điều này xảy ra, mô hình không suy luận để tìm câu trả lời; nó chỉ đơn giản là ghi nhớ. Một điểm số cao có thể cho thấy một trí nhớ tốt, chứ không phải khả năng suy luận nâng cao mà một doanh nghiệp thực sự cần cho một nhiệm vụ phức tạp. Bài báo cảnh báo điều này “làm suy yếu tính giá trị của kết quả” và khuyến nghị xây dựng các kiểm tra nhiễm bẩn trực tiếp vào tiêu chuẩn.

Tập dữ liệu không đại diện: Nghiên cứu cho thấy 27% các tiêu chuẩn đã sử dụng “lấy mẫu tiện lợi,” như tái sử dụng dữ liệu từ các tiêu chuẩn hiện có hoặc các bài kiểm tra của con người. Dữ liệu này thường không đại diện cho hiện tượng trong thế giới thực.

Ví dụ, các tác giả lưu ý rằng việc tái sử dụng các câu hỏi từ một “bài kiểm tra không dùng máy tính” có nghĩa là các vấn đề sử dụng các con số được chọn để dễ tính toán cơ bản. Một mô hình có thể đạt điểm cao trong bài kiểm tra này, nhưng điểm số này “sẽ không dự đoán được hiệu suất trên các số lớn hơn, nơi các LLM gặp khó khăn”. Điều này tạo ra một điểm mù quan trọng, che giấu một điểm yếu đã biết của mô hình.

Từ các chỉ số công khai đến xác thực nội bộ

Đối với các nhà lãnh đạo doanh nghiệp, nghiên cứu này đóng vai trò là một cảnh báo mạnh mẽ: các tiêu chuẩn AI công khai không thể thay thế cho đánh giá nội bộ và theo lĩnh vực cụ thể. Một điểm số cao trên bảng xếp hạng công khai không phải là sự đảm bảo về sự phù hợp cho một mục đích kinh doanh cụ thể.

Isabella Grandi, Giám đốc Chiến lược & Quản trị Dữ liệu tại NTT DATA UK&I, nhận xét: “Một tiêu chuẩn duy nhất có thể không phải là cách đúng đắn để nắm bắt sự phức tạp của các hệ thống AI, và việc kỳ vọng nó làm được điều đó có nguy cơ biến sự tiến bộ thành một trò chơi con số thay vì một thước đo trách nhiệm trong thế giới thực. Điều quan trọng nhất là đánh giá nhất quán dựa trên các nguyên tắc rõ ràng nhằm đảm bảo công nghệ phục vụ con người cũng như sự tiến bộ.

“Phương pháp tốt – như được trình bày bởi ISO/IEC 42001:2023 – phản ánh sự cân bằng này thông qua năm nguyên tắc cốt lõi: trách nhiệm giải trình, công bằng, minh bạch, bảo mật và khắc phục. Trách nhiệm giải trình thiết lập quyền sở hữu và trách nhiệm đối với bất kỳ hệ thống AI nào được triển khai. Minh bạch và công bằng hướng dẫn các quyết định tới các kết quả có đạo đức và dễ giải thích. Bảo mật và quyền riêng tư là không thể thương lượng, ngăn chặn việc lạm dụng và củng cố niềm tin của công chúng. Khắc phục và khả năng tranh chấp cung cấp một cơ chế giám sát quan trọng, đảm bảo mọi người có thể thách thức và sửa chữa kết quả khi cần thiết.

“Sự tiến bộ thực sự trong AI phụ thuộc vào sự hợp tác kết hợp tầm nhìn của chính phủ, sự tò mò của giới học thuật và động lực thực tiễn của ngành công nghiệp. Khi các mối quan hệ đối tác được củng cố bằng đối thoại cởi mở và các tiêu chuẩn chung được áp dụng, nó sẽ xây dựng sự minh bạch cần thiết để mọi người có thể tin tưởng vào các hệ thống AI. Đổi mới có trách nhiệm sẽ luôn dựa vào sự hợp tác nhằm tăng cường giám sát đồng thời duy trì tham vọng.”

Tám khuyến nghị của bài báo cung cấp một danh sách kiểm tra thực tế cho bất kỳ doanh nghiệp nào muốn xây dựng các tiêu chuẩn và đánh giá AI nội bộ của riêng mình, phù hợp với cách tiếp cận dựa trên nguyên tắc.

Xác định hiện tượng của bạn: Trước khi thử nghiệm các mô hình, các tổ chức trước tiên phải tạo ra một “định nghĩa chính xác và khả thi cho hiện tượng đang được đo lường”. Một phản hồi ‘hữu ích’ có nghĩa là gì trong bối cảnh dịch vụ khách hàng của bạn? ‘Chính xác’ có nghĩa là gì đối với các báo cáo tài chính của bạn?

Xây dựng tập dữ liệu đại diện: Tiêu chuẩn có giá trị nhất là tiêu chuẩn được xây dựng từ dữ liệu của chính bạn. Bài báo kêu gọi các nhà phát triển “xây dựng một tập dữ liệu đại diện cho nhiệm vụ”. Điều này có nghĩa là sử dụng các mục nhiệm vụ phản ánh các kịch bản, định dạng và thách thức trong thế giới thực mà nhân viên và khách hàng của bạn phải đối mặt.

Thực hiện phân tích lỗi: Vượt ra ngoài điểm số cuối cùng. Báo cáo khuyến nghị các nhóm “thực hiện phân tích định tính và định lượng các chế độ lỗi phổ biến”. Phân tích lý do tại sao một mô hình thất bại mang tính hướng dẫn hơn là chỉ biết điểm số của nó. Nếu tất cả các lỗi của nó đều nằm ở các chủ đề ít ưu tiên, không rõ ràng, thì có thể chấp nhận được; nếu nó thất bại trên các trường hợp sử dụng phổ biến nhất và có giá trị cao của bạn, thì điểm số duy nhất đó trở nên không liên quan.

Biện minh cho tính giá trị: Cuối cùng, các nhóm phải “biện minh cho sự phù hợp của tiêu chuẩn đối với hiện tượng với các ứng dụng trong thế giới thực”. Mỗi đánh giá nên đi kèm với một lý do rõ ràng giải thích tại sao thử nghiệm cụ thể này là một đại diện hợp lệ cho giá trị kinh doanh.

Cuộc chạy đua triển khai AI tạo sinh đang thúc đẩy các tổ chức di chuyển nhanh hơn so với tốc độ mà các khuôn khổ quản trị của họ có thể theo kịp. Báo cáo này cho thấy chính các công cụ được sử dụng để đo lường tiến độ thường có sai sót. Con đường đáng tin cậy duy nhất để tiến lên là ngừng tin tưởng vào các tiêu chuẩn AI chung chung và bắt đầu “đo lường những gì quan trọng” cho chính doanh nghiệp của bạn.

Nguồn: artificialintelligence-news