Kẻ thù bên trong: AI như một bề mặt tấn công

Tin tức AI - 05/11/2025 21:59:10

Các vectơ tấn công của trợ lý AI có nghĩa là các doanh nghiệp nên thận trọng khi triển khai thế hệ AI tác nhân tiếp theo: vectơ tấn công mới.

Hội đồng quản trị đang thúc đẩy các mô hình ngôn ngữ lớn và trợ lý AI mang lại lợi ích về năng suất. Tuy nhiên, chính những tính năng khiến AI trở nên hữu ích – duyệt các trang web trực tiếp, ghi nhớ ngữ cảnh người dùng và kết nối với các ứng dụng kinh doanh – cũng mở rộng bề mặt tấn công mạng.

Các nhà nghiên cứu của Tenable đã công bố một loạt lỗ hổng và cuộc tấn công dưới tiêu đề “HackedGPT”, cho thấy cách thức tiêm prompt gián tiếp và các kỹ thuật liên quan có thể cho phép rò rỉ dữ liệu và duy trì phần mềm độc hại. Một số vấn đề đã được khắc phục, trong khi những vấn đề khác được cho là vẫn có thể bị khai thác vào thời điểm Tenable công bố, theo một thông báo được công bố bởi công ty.

Loại bỏ các rủi ro vốn có từ hoạt động của trợ lý AI đòi hỏi phải có quản trị, kiểm soát và phương pháp vận hành coi AI như một người dùng hoặc thiết bị, đến mức công nghệ này phải chịu sự kiểm toán và giám sát chặt chẽ.

Nghiên cứu của Tenable cho thấy những thất bại có thể biến trợ lý AI thành các vấn đề bảo mật. Tiêm prompt gián tiếp ẩn các hướng dẫn trong nội dung web mà trợ lý đọc khi duyệt, những hướng dẫn này kích hoạt quyền truy cập dữ liệu mà người dùng không bao giờ mong muốn. Một vectơ khác liên quan đến việc sử dụng một truy vấn front-end để gieo các hướng dẫn độc hại.

Tác động kinh doanh là rõ ràng, bao gồm nhu cầu phản ứng sự cố, xem xét pháp lý và quy định, cũng như các bước được thực hiện để giảm thiệt hại về uy tín.

Đã có nghiên cứu cho thấy trợ lý có thể rò rỉ thông tin cá nhân hoặc nhạy cảm thông qua các kỹ thuật tiêm, và các nhà cung cấp AI cũng như chuyên gia an ninh mạng phải vá các lỗ hổng khi chúng xuất hiện.

Mô hình này quen thuộc với bất kỳ ai trong ngành công nghệ: khi các tính năng mở rộng, thì các chế độ lỗi cũng vậy. Coi trợ lý AI như các ứng dụng trực tiếp, hướng ra internet – chứ không phải là động lực tăng năng suất – có thể cải thiện khả năng phục hồi.

Cách quản lý trợ lý AI, trên thực tế

1) Thiết lập một hệ thống đăng ký AI

Kiểm kê mọi mô hình, trợ lý hoặc tác nhân đang được sử dụng – trong đám mây công cộng, tại chỗ và phần mềm dưới dạng dịch vụ, phù hợp với Sách hướng dẫn NIST AI RMF. Ghi lại chủ sở hữu, mục đích, khả năng (duyệt web, kết nối API) và các miền dữ liệu được truy cập. Ngay cả khi không có danh sách tài sản AI này, “tác nhân bóng tối” vẫn có thể tồn tại với các đặc quyền mà không ai theo dõi. AI bóng tối – từng được các công ty như Microsoft khuyến khích, những người đã khuyến khích người dùng triển khai giấy phép Copilot cá nhân tại nơi làm việc – là một mối đe dọa đáng kể.

2) Tách biệt danh tính cho con người, dịch vụ và tác nhân

Quản lý danh tính và quyền truy cập thường gộp chung các tài khoản người dùng, tài khoản dịch vụ và thiết bị tự động hóa. Các trợ lý truy cập trang web, gọi công cụ và ghi dữ liệu cần có danh tính riêng biệt và phải tuân thủ các chính sách không tin cậy với quyền tối thiểu. Việc lập bản đồ các chuỗi tác nhân-tác nhân (ai đã yêu cầu ai làm gì, trên dữ liệu nào và khi nào) là một dấu vết tối thiểu có thể đảm bảo mức độ trách nhiệm giải trình nhất định. Điều đáng chú ý là AI tác nhân dễ bị ảnh hưởng bởi đầu ra và hành động ‘sáng tạo’, nhưng không giống như nhân viên con người, chúng không bị ràng buộc bởi các chính sách kỷ luật.

3) Hạn chế các tính năng rủi ro theo ngữ cảnh

Đặt chế độ duyệt web và các hành động độc lập của trợ lý AI là chọn tham gia (opt-in) theo từng trường hợp sử dụng. Đối với các trợ lý hướng đến khách hàng, đặt thời gian lưu giữ ngắn trừ khi có lý do mạnh mẽ và cơ sở pháp lý khác. Đối với kỹ thuật nội bộ, sử dụng trợ lý AI nhưng chỉ trong các dự án riêng biệt với việc ghi nhật ký nghiêm ngặt. Áp dụng phòng ngừa mất dữ liệu cho lưu lượng truy cập kết nối nếu trợ lý có thể tiếp cận kho lưu trữ tệp, tin nhắn hoặc e-mail. Các vấn đề về plugin và kết nối trước đây chứng minh cách tích hợp làm tăng mức độ phơi nhiễm.

4) Giám sát như bất kỳ ứng dụng hướng internet nào

Ghi lại các hành động của trợ lý và các lệnh gọi công cụ dưới dạng nhật ký có cấu trúc.
Cảnh báo về các bất thường: tăng đột biến bất ngờ trong việc duyệt đến các miền không quen thuộc; cố gắng tóm tắt các khối mã không rõ ràng; các đợt ghi bộ nhớ bất thường; hoặc truy cập kết nối ngoài giới hạn chính sách.
Kết hợp kiểm tra tiêm (injection tests) vào các kiểm tra trước khi sản xuất.

5) Xây dựng năng lực con người

Đào tạo các nhà phát triển, kỹ sư đám mây và nhà phân tích để nhận biết các triệu chứng tiêm. Khuyến khích người dùng báo cáo hành vi bất thường (ví dụ: một trợ lý bất ngờ tóm tắt nội dung từ một trang web mà họ không mở). Đặt chế độ bình thường để cách ly một trợ lý, xóa bộ nhớ và xoay vòng thông tin xác thực của nó sau các sự kiện đáng ngờ. Khoảng cách kỹ năng là có thật; nếu không nâng cao kỹ năng, việc quản trị sẽ chậm hơn so với việc áp dụng.

Điểm ra quyết định cho các nhà lãnh đạo CNTT và đám mây

Câu hỏi	Tại sao nó quan trọng
Những trợ lý nào có thể duyệt web hoặc ghi dữ liệu?	Duyệt web và bộ nhớ là các đường dẫn tiêm và duy trì phổ biến; hạn chế theo từng trường hợp sử dụng.
Các tác nhân có danh tính riêng biệt và ủy quyền có thể kiểm toán không?	Ngăn chặn khoảng trống “ai đã làm gì?” khi các hướng dẫn được gieo gián tiếp.
Có một hệ thống đăng ký các hệ thống AI với chủ sở hữu, phạm vi và thời gian lưu giữ không?	Hỗ trợ quản trị, điều chỉnh kiểm soát và hiển thị ngân sách.
Các kết nối và plugin được quản lý như thế nào?	Các tích hợp của bên thứ ba có lịch sử các vấn đề bảo mật; áp dụng nguyên tắc đặc quyền tối thiểu và DLP.
Chúng ta có kiểm tra các vectơ 0-click và 1-click trước khi đưa vào hoạt động không?	Nghiên cứu công khai cho thấy cả hai đều khả thi thông qua các liên kết hoặc nội dung được tạo thủ công.
Các nhà cung cấp có vá lỗi kịp thời và công bố các bản sửa lỗi không?	Tốc độ phát triển tính năng có nghĩa là các vấn đề mới sẽ xuất hiện; xác minh khả năng phản hồi.

Rủi ro, khả năng hiển thị chi phí và yếu tố con người

Chi phí ẩn: các trợ lý duyệt web hoặc duy trì bộ nhớ tiêu thụ tài nguyên điện toán, lưu trữ và băng thông ra theo những cách mà nhóm tài chính và những người giám sát việc sử dụng Xaas theo chu kỳ có thể chưa mô hình hóa. Một hệ thống đăng ký và đo lường sẽ giảm bất ngờ.
Khoảng trống quản trị: các khung kiểm toán và tuân thủ được xây dựng cho người dùng con người sẽ không tự động ghi lại việc ủy quyền tác nhân-tác nhân. Điều chỉnh các biện pháp kiểm soát theo các rủi ro OWASP LLM và các danh mục NIST AI RMF.
Rủi ro bảo mật: tiêm prompt gián tiếp có thể vô hình đối với người dùng, được truyền từ phương tiện, định dạng văn bản hoặc mã, như nghiên cứu đã chỉ ra.
Khoảng cách kỹ năng: nhiều nhóm chưa kết hợp các thực hành AI/ML và an ninh mạng. Đầu tư vào đào tạo bao gồm mô hình hóa mối đe dọa trợ lý và kiểm tra tiêm.
Tư thế phát triển: dự kiến sẽ có một loạt các lỗi và bản sửa lỗi mới. Việc OpenAI khắc phục một lỗ hổng zero-click vào cuối năm 2025 là một lời nhắc nhở rằng tư thế của nhà cung cấp thay đổi nhanh chóng và cần được xác minh.

Điểm mấu chốt

Bài học cho các nhà điều hành rất đơn giản: coi trợ lý AI là các ứng dụng mạnh mẽ, được nối mạng với vòng đời riêng và có xu hướng vừa là đối tượng bị tấn công vừa thực hiện các hành động không thể đoán trước. Đặt một hệ thống đăng ký vào vị trí, tách biệt danh tính, hạn chế các tính năng rủi ro theo mặc định, ghi lại mọi thứ có ý nghĩa và diễn tập phòng ngừa.

Với những rào chắn này, AI tác nhân có nhiều khả năng mang lại hiệu quả và khả năng phục hồi có thể đo lường được – mà không âm thầm trở thành vectơ xâm nhập mới nhất của bạn.

Nguồn: artificialintelligence-news