Các vectơ tấn công của trợ lý AI có nghĩa là các doanh nghiệp nên thận trọng khi triển khai thế hệ AI tác nhân tiếp theo: vectơ tấn công mới.
Hội đồng quản trị đang thúc đẩy các mô hình ngôn ngữ lớn và trợ lý AI mang lại lợi ích về năng suất. Tuy nhiên, chính những tính năng khiến AI trở nên hữu ích – duyệt các trang web trực tiếp, ghi nhớ ngữ cảnh người dùng và kết nối với các ứng dụng kinh doanh – cũng mở rộng bề mặt tấn công mạng.
Các nhà nghiên cứu của Tenable đã công bố một loạt lỗ hổng và cuộc tấn công dưới tiêu đề “HackedGPT”, cho thấy cách thức tiêm prompt gián tiếp và các kỹ thuật liên quan có thể cho phép rò rỉ dữ liệu và duy trì phần mềm độc hại. Một số vấn đề đã được khắc phục, trong khi những vấn đề khác được cho là vẫn có thể bị khai thác vào thời điểm Tenable công bố, theo một thông báo được công bố bởi công ty.
Loại bỏ các rủi ro vốn có từ hoạt động của trợ lý AI đòi hỏi phải có quản trị, kiểm soát và phương pháp vận hành coi AI như một người dùng hoặc thiết bị, đến mức công nghệ này phải chịu sự kiểm toán và giám sát chặt chẽ.
Nghiên cứu của Tenable cho thấy những thất bại có thể biến trợ lý AI thành các vấn đề bảo mật. Tiêm prompt gián tiếp ẩn các hướng dẫn trong nội dung web mà trợ lý đọc khi duyệt, những hướng dẫn này kích hoạt quyền truy cập dữ liệu mà người dùng không bao giờ mong muốn. Một vectơ khác liên quan đến việc sử dụng một truy vấn front-end để gieo các hướng dẫn độc hại.
Tác động kinh doanh là rõ ràng, bao gồm nhu cầu phản ứng sự cố, xem xét pháp lý và quy định, cũng như các bước được thực hiện để giảm thiệt hại về uy tín.
Đã có nghiên cứu cho thấy trợ lý có thể rò rỉ thông tin cá nhân hoặc nhạy cảm thông qua các kỹ thuật tiêm, và các nhà cung cấp AI cũng như chuyên gia an ninh mạng phải vá các lỗ hổng khi chúng xuất hiện.
Mô hình này quen thuộc với bất kỳ ai trong ngành công nghệ: khi các tính năng mở rộng, thì các chế độ lỗi cũng vậy. Coi trợ lý AI như các ứng dụng trực tiếp, hướng ra internet – chứ không phải là động lực tăng năng suất – có thể cải thiện khả năng phục hồi.
Kiểm kê mọi mô hình, trợ lý hoặc tác nhân đang được sử dụng – trong đám mây công cộng, tại chỗ và phần mềm dưới dạng dịch vụ, phù hợp với Sách hướng dẫn NIST AI RMF. Ghi lại chủ sở hữu, mục đích, khả năng (duyệt web, kết nối API) và các miền dữ liệu được truy cập. Ngay cả khi không có danh sách tài sản AI này, “tác nhân bóng tối” vẫn có thể tồn tại với các đặc quyền mà không ai theo dõi. AI bóng tối – từng được các công ty như Microsoft khuyến khích, những người đã khuyến khích người dùng triển khai giấy phép Copilot cá nhân tại nơi làm việc – là một mối đe dọa đáng kể.
Quản lý danh tính và quyền truy cập thường gộp chung các tài khoản người dùng, tài khoản dịch vụ và thiết bị tự động hóa. Các trợ lý truy cập trang web, gọi công cụ và ghi dữ liệu cần có danh tính riêng biệt và phải tuân thủ các chính sách không tin cậy với quyền tối thiểu. Việc lập bản đồ các chuỗi tác nhân-tác nhân (ai đã yêu cầu ai làm gì, trên dữ liệu nào và khi nào) là một dấu vết tối thiểu có thể đảm bảo mức độ trách nhiệm giải trình nhất định. Điều đáng chú ý là AI tác nhân dễ bị ảnh hưởng bởi đầu ra và hành động ‘sáng tạo’, nhưng không giống như nhân viên con người, chúng không bị ràng buộc bởi các chính sách kỷ luật.
Đặt chế độ duyệt web và các hành động độc lập của trợ lý AI là chọn tham gia (opt-in) theo từng trường hợp sử dụng. Đối với các trợ lý hướng đến khách hàng, đặt thời gian lưu giữ ngắn trừ khi có lý do mạnh mẽ và cơ sở pháp lý khác. Đối với kỹ thuật nội bộ, sử dụng trợ lý AI nhưng chỉ trong các dự án riêng biệt với việc ghi nhật ký nghiêm ngặt. Áp dụng phòng ngừa mất dữ liệu cho lưu lượng truy cập kết nối nếu trợ lý có thể tiếp cận kho lưu trữ tệp, tin nhắn hoặc e-mail. Các vấn đề về plugin và kết nối trước đây chứng minh cách tích hợp làm tăng mức độ phơi nhiễm.
Đào tạo các nhà phát triển, kỹ sư đám mây và nhà phân tích để nhận biết các triệu chứng tiêm. Khuyến khích người dùng báo cáo hành vi bất thường (ví dụ: một trợ lý bất ngờ tóm tắt nội dung từ một trang web mà họ không mở). Đặt chế độ bình thường để cách ly một trợ lý, xóa bộ nhớ và xoay vòng thông tin xác thực của nó sau các sự kiện đáng ngờ. Khoảng cách kỹ năng là có thật; nếu không nâng cao kỹ năng, việc quản trị sẽ chậm hơn so với việc áp dụng.
| Câu hỏi | Tại sao nó quan trọng |
|---|---|
| Những trợ lý nào có thể duyệt web hoặc ghi dữ liệu? | Duyệt web và bộ nhớ là các đường dẫn tiêm và duy trì phổ biến; hạn chế theo từng trường hợp sử dụng. |
| Các tác nhân có danh tính riêng biệt và ủy quyền có thể kiểm toán không? | Ngăn chặn khoảng trống “ai đã làm gì?” khi các hướng dẫn được gieo gián tiếp. |
| Có một hệ thống đăng ký các hệ thống AI với chủ sở hữu, phạm vi và thời gian lưu giữ không? | Hỗ trợ quản trị, điều chỉnh kiểm soát và hiển thị ngân sách. |
| Các kết nối và plugin được quản lý như thế nào? | Các tích hợp của bên thứ ba có lịch sử các vấn đề bảo mật; áp dụng nguyên tắc đặc quyền tối thiểu và DLP. |
| Chúng ta có kiểm tra các vectơ 0-click và 1-click trước khi đưa vào hoạt động không? | Nghiên cứu công khai cho thấy cả hai đều khả thi thông qua các liên kết hoặc nội dung được tạo thủ công. |
| Các nhà cung cấp có vá lỗi kịp thời và công bố các bản sửa lỗi không? | Tốc độ phát triển tính năng có nghĩa là các vấn đề mới sẽ xuất hiện; xác minh khả năng phản hồi. |
Bài học cho các nhà điều hành rất đơn giản: coi trợ lý AI là các ứng dụng mạnh mẽ, được nối mạng với vòng đời riêng và có xu hướng vừa là đối tượng bị tấn công vừa thực hiện các hành động không thể đoán trước. Đặt một hệ thống đăng ký vào vị trí, tách biệt danh tính, hạn chế các tính năng rủi ro theo mặc định, ghi lại mọi thứ có ý nghĩa và diễn tập phòng ngừa.
Với những rào chắn này, AI tác nhân có nhiều khả năng mang lại hiệu quả và khả năng phục hồi có thể đo lường được – mà không âm thầm trở thành vectơ xâm nhập mới nhất của bạn.