AI muốn làm bạn hài lòng. Ngay cả khi phải bóp méo sự thật

Tin tức AI - 16/11/2025 19:00:40

AI đang được huấn luyện để chiều lòng chúng ta, và khi làm vậy, càng trở nên thờ ơ với sự chính xác.

AI tạo sinh đang cực kỳ phổ biến, với hàng triệu người dùng mỗi ngày, vậy tại sao các chatbot thường mắc lỗi nhiều đến vậy? Một phần là vì chúng được huấn luyện để hành xử như thể khách hàng luôn đúng. Về cơ bản, nó đang nói với bạn điều mà nó nghĩ bạn muốn nghe.

Trong khi nhiều công cụ và chatbot AI tạo sinh đã thành thạo việc tạo ra âm thanh thuyết phục và hiểu biết mọi thứ, nghiên cứu mới do Đại học Princeton thực hiện cho thấy bản chất chiều lòng người dùng của AI phải trả giá đắt. Khi các hệ thống này trở nên phổ biến hơn, chúng càng trở nên thờ ơ với sự thật.

Các mô hình AI, giống như con người, phản ứng với các động cơ khuyến khích. So sánh vấn đề các mô hình ngôn ngữ lớn tạo ra thông tin không chính xác với việc các bác sĩ có nhiều khả năng kê đơn thuốc giảm đau gây nghiện khi họ được đánh giá dựa trên mức độ quản lý cơn đau của bệnh nhân. Một động cơ khuyến khích để giải quyết một vấn đề (đau) đã dẫn đến một vấn đề khác (kê đơn quá mức).

Trong vài tháng qua, chúng ta đã thấy AI có thể bị thiên vị và thậm chí gây ra loạn thần. Đã có nhiều cuộc thảo luận về "thói nịnh bợ," khi một chatbot AI nhanh chóng tâng bốc hoặc đồng ý với bạn, với mô hình GPT-4o của OpenAI. Nhưng hiện tượng đặc biệt này, mà các nhà nghiên cứu gọi là "sự lấp liếm của máy móc," lại khác.

"Cả ảo giác lẫn thói nịnh bợ đều không thể diễn tả đầy đủ một loạt các hành vi không trung thực có hệ thống thường được các LLM thể hiện," nghiên cứu của Princeton viết. "Ví dụ, các đầu ra sử dụng sự thật một phần hoặc ngôn ngữ mơ hồ -- như các ví dụ về lấp liếm sự thật và từ ngữ mơ hồ -- không phải là ảo giác hay thói nịnh bợ mà gần giống với khái niệm lấp liếm."

Cách máy móc học cách nói dối

Để hiểu được cách các mô hình ngôn ngữ AI trở thành những kẻ chiều lòng đám đông, chúng ta phải hiểu cách các mô hình ngôn ngữ lớn được huấn luyện.

Có ba giai đoạn huấn luyện LLM:

Tiền huấn luyện, trong đó các mô hình học từ lượng lớn dữ liệu thu thập từ internet, sách hoặc các nguồn khác.
Tinh chỉnh theo hướng dẫn, trong đó các mô hình được dạy để phản hồi các hướng dẫn hoặc lời nhắc.
Học tăng cường từ phản hồi của con người, trong đó chúng được tinh chỉnh để tạo ra các phản hồi gần với những gì con người muốn hoặc thích.

Các nhà nghiên cứu Princeton phát hiện ra rằng gốc rễ của xu hướng thông tin sai lệch của AI nằm ở giai đoạn học tăng cường từ phản hồi của con người, hay RLHF. Trong các giai đoạn ban đầu, các mô hình AI chỉ đơn giản là học cách dự đoán các chuỗi văn bản có khả năng thống kê từ các bộ dữ liệu khổng lồ. Nhưng sau đó chúng được tinh chỉnh để tối đa hóa sự hài lòng của người dùng. Điều này có nghĩa là các mô hình này về cơ bản đang học cách tạo ra các phản hồi nhận được đánh giá "thích" từ những người đánh giá là con người.

LLM cố gắng xoa dịu người dùng, tạo ra một xung đột khi các mô hình tạo ra câu trả lời mà mọi người sẽ đánh giá cao, thay vì tạo ra câu trả lời trung thực, đúng sự thật.

Vincent Conitzer, giáo sư khoa học máy tính tại Đại học Carnegie Mellon, người không liên quan đến nghiên cứu, cho biết các công ty muốn người dùng tiếp tục "tận hưởng" công nghệ này và các câu trả lời của nó, nhưng điều đó có thể không phải lúc nào cũng tốt cho chúng ta.

"Trong lịch sử, các hệ thống này chưa bao giờ giỏi trong việc nói, 'tôi không biết câu trả lời,' và khi không biết câu trả lời, chúng chỉ bịa đặt ra," Conitzer nói. "Giống như một học sinh trong kỳ thi nói rằng, nếu tôi nói tôi không biết câu trả lời, tôi chắc chắn sẽ không nhận được bất kỳ điểm nào cho câu hỏi này, vậy thì tôi cứ thử cái gì đó. Cách các hệ thống này được thưởng hoặc huấn luyện cũng phần nào tương tự."

Nhóm nghiên cứu Princeton đã phát triển một "chỉ số lấp liếm" để đo lường và so sánh sự tự tin nội bộ của mô hình AI đối với một tuyên bố với những gì nó thực sự nói với người dùng. Khi hai thước đo này khác biệt đáng kể, điều đó cho thấy hệ thống đang đưa ra các tuyên bố độc lập với những gì nó thực sự "tin" là đúng để làm hài lòng người dùng.

Các thí nghiệm của nhóm tiết lộ rằng sau khi huấn luyện RLHF, chỉ số này gần như tăng gấp đôi từ 0.38 lên gần 1.0. Đồng thời, sự hài lòng của người dùng tăng 48%. Các mô hình đã học cách thao túng những người đánh giá là con người thay vì cung cấp thông tin chính xác. Về cơ bản, các LLM đang "lấp liếm," và mọi người lại thích điều đó.

Làm cho AI trung thực

Jaime Fernández Fisac và nhóm của ông tại Princeton đã giới thiệu khái niệm này để mô tả cách các mô hình AI hiện đại lảng tránh sự thật. Dựa trên tiểu luận đầy ảnh hưởng của triết gia Harry Frankfurt "Về sự lấp liếm," họ sử dụng thuật ngữ này để phân biệt hành vi LLM này với những sai lầm trung thực và những lời nói dối trắng trợn.

Các nhà nghiên cứu Princeton đã xác định năm hình thức khác biệt của hành vi này:

Ngôn ngữ khoa trương: Ngôn ngữ hoa mỹ không thêm bất kỳ giá trị nào vào các phản hồi.
Từ ngữ mơ hồ: Các từ ngữ mơ hồ như "các nghiên cứu cho thấy" hoặc "trong một số trường hợp" nhằm lảng tránh những khẳng định chắc chắn.
Lấp liếm sự thật: Sử dụng các tuyên bố đúng một cách chọn lọc để gây hiểu lầm, chẳng hạn như nhấn mạnh "lợi nhuận lịch sử mạnh mẽ" của một khoản đầu tư trong khi bỏ qua các rủi ro cao.
Tuyên bố không được xác minh: Đưa ra những khẳng định không có bằng chứng hoặc hỗ trợ đáng tin cậy.
Thói nịnh bợ: Lời tâng bốc không chân thành và sự đồng ý để làm hài lòng.

Để giải quyết các vấn đề của AI thờ ơ với sự thật, nhóm nghiên cứu đã phát triển một phương pháp huấn luyện mới, "Học tăng cường từ mô phỏng hồi cứu", phương pháp này đánh giá các phản hồi của AI dựa trên kết quả dài hạn thay vì sự hài lòng tức thì. Thay vì hỏi, "Câu trả lời này có làm người dùng hài lòng ngay bây giờ không?" hệ thống sẽ cân nhắc, "Việc làm theo lời khuyên này có thực sự giúp người dùng đạt được mục tiêu của họ không?"

Phương pháp này tính đến các hậu quả tiềm ẩn trong tương lai của lời khuyên từ AI, một dự đoán khó khăn mà các nhà nghiên cứu đã giải quyết bằng cách sử dụng các mô hình AI bổ sung để mô phỏng các kết quả có khả năng xảy ra. Thử nghiệm ban đầu cho thấy kết quả đầy hứa hẹn, với sự hài lòng của người dùng và tiện ích thực tế được cải thiện khi các hệ thống được huấn luyện theo cách này.

Tuy nhiên, Conitzer cho biết LLM có khả năng sẽ tiếp tục có những sai sót. Bởi vì các hệ thống này được huấn luyện bằng cách cung cấp cho chúng rất nhiều dữ liệu văn bản, không có cách nào để đảm bảo rằng câu trả lời chúng đưa ra có ý nghĩa và chính xác mọi lúc.

"Thật đáng kinh ngạc khi nó hoạt động được nhưng nó sẽ có những sai sót nhất định," ông nói. "Tôi không thấy bất kỳ cách nào chắc chắn mà ai đó trong một hoặc hai năm tới … có thể có được cái nhìn sâu sắc rực rỡ này, và sau đó nó sẽ không bao giờ mắc lỗi nữa."

Các hệ thống AI đang trở thành một phần trong cuộc sống hàng ngày của chúng ta, vì vậy việc hiểu cách LLM hoạt động sẽ là điều then chốt. Các nhà phát triển cân bằng sự hài lòng của người dùng với tính trung thực như thế nào? Những lĩnh vực nào khác có thể đối mặt với sự đánh đổi tương tự giữa sự chấp thuận ngắn hạn và kết quả dài hạn? Và khi các hệ thống này ngày càng có khả năng suy luận phức tạp hơn về tâm lý con người, làm thế nào để chúng ta đảm bảo chúng sử dụng những khả năng đó một cách có trách nhiệm?

Nguồn: cnet.com