Chúng ta đang bước vào một kỷ nguyên mới được thúc đẩy bởi AI Agent – các hệ thống AI được thiết kế để nhận thức môi trường, đưa ra quyết định và thực hiện các hành động tự chủ để đạt được các mục tiêu do người dùng định nghĩa. Không giống như các Mô hình Ngôn ngữ Lớn (LLM) tiêu chuẩn chủ yếu tạo nội dung, các Agent thực hiện hành động. Chúng tận dụng khả năng suy luận của AI để tương tác với các hệ thống khác và thực hiện các nhiệm vụ, từ tự động hóa đơn giản như phân loại yêu cầu dịch vụ đến lập kế hoạch phức tạp, đa bước như nghiên cứu một chủ đề từ nhiều nguồn, tóm tắt các phát hiện và soạn thảo email cho một nhóm.
Khả năng và tính tự chủ ngày càng tăng này hứa hẹn giá trị đáng kể, có khả năng định hình lại cách các doanh nghiệp hoạt động và cá nhân tương tác với công nghệ. Tuy nhiên, lời hứa về các Agent cũng mang đến những thách thức bảo mật độc đáo và nghiêm trọng đòi hỏi sự chú ý cao.
Những rủi ro chính: Hành động độc hại và tiết lộ dữ liệu nhạy cảm
Bản chất của AI Agent mang lại những rủi ro mới xuất phát từ một số đặc điểm cố hữu:
Các mô hình AI cơ bản có thể không thể đoán trước, vì tính chất không xác định của chúng có nghĩa là hành vi của chúng không phải lúc nào cũng lặp lại ngay cả với cùng một đầu vào.
Các hành vi phức tạp, mới lạ có thể phát sinh mà không được lập trình rõ ràng.
Mức độ tự chủ cao hơn trong việc ra quyết định làm tăng phạm vi và tác động tiềm tàng của lỗi cũng như các lỗ hổng tiềm ẩn đối với những kẻ tấn công độc hại.
Đảm bảo sự phù hợp – rằng các hành động của Agent phù hợp một cách hợp lý với ý định của người dùng, đặc biệt khi diễn giải các hướng dẫn mơ hồ hoặc xử lý các đầu vào không đáng tin cậy – vẫn là một trở ngại đáng kể.
Cuối cùng, có những thách thức trong việc quản lý danh tính và đặc quyền của Agent một cách hiệu quả.
Những yếu tố này tạo ra nhu cầu về Bảo mật Agent, một lĩnh vực chuyên biệt tập trung vào việc giảm thiểu các rủi ro mới mà các hệ thống này gây ra. Hai mối quan tâm chính đòi hỏi sự tập trung chiến lược là hành động độc hại (các hành động không mong muốn, có hại hoặc vi phạm chính sách) và tiết lộ dữ liệu nhạy cảm (tiết lộ trái phép thông tin riêng tư). Tồn tại một sự căng thẳng cơ bản: tính tự chủ và sức mạnh của Agent tăng lên, vốn thúc đẩy tiện ích, tương quan trực tiếp với rủi ro gia tăng.
Các mô hình bảo mật truyền thống không đủ
Việc bảo mật các AI Agent đòi hỏi một sự đánh đổi đầy thách thức: việc tăng cường tiện ích của Agent thông qua tính tự chủ và khả năng lớn hơn vốn làm tăng độ phức tạp trong việc đảm bảo an toàn và bảo mật cho nó. Các phương pháp bảo mật hệ thống truyền thống (chẳng hạn như các hạn chế đối với hành động của Agent được thực hiện thông qua phần mềm cổ điển) thiếu nhận thức theo ngữ cảnh cần thiết cho các Agent đa năng và có thể hạn chế quá mức tiện ích. Ngược lại, bảo mật chỉ dựa trên suy luận (chỉ dựa vào phán đoán của mô hình AI) là không đủ vì các LLM hiện tại vẫn dễ bị thao túng như tấn công prompt injection và chưa thể cung cấp các đảm bảo đủ mạnh. Cả hai phương pháp đều không đủ riêng lẻ để quản lý sự cân bằng tinh tế giữa tiện ích và rủi ro này.
Con đường phía trước của Google: Một phương pháp tiếp cận lai
Dựa trên các nguyên tắc đã được thiết lập của thiết kế phần mềm và hệ thống an toàn, và phù hợp với Khung AI An toàn của Google (SAIF) , Google đang ủng hộ và triển khai một phương pháp tiếp cận lai, kết hợp sức mạnh của cả các kiểm soát truyền thống, xác định và các phòng thủ động, dựa trên suy luận. Điều này tạo ra một tư thế bảo mật đa lớp – một "phương pháp phòng thủ sâu" – nhằm hạn chế thiệt hại tiềm tàng trong khi vẫn giữ được tiện ích tối đa.
Các thách thức bảo mật của cách AI Agent hoạt động
Để hiểu các rủi ro bảo mật độc đáo của Agent, chúng ta cần một mô hình tư duy mô tả kiến trúc Agent phổ biến.
Các nguyên tắc cốt lõi cho bảo mật Agent
Để giảm thiểu rủi ro của các Agent trong khi vẫn hưởng lợi từ tiềm năng to lớn của chúng, Google đề xuất ba nguyên tắc cốt lõi cho bảo mật Agent:
Nguyên tắc 1: Agent phải có người điều khiển là con người được xác định rõ ràng
Các Agent thường hoạt động như proxy hoặc trợ lý cho con người, thừa hưởng các đặc quyền để truy cập tài nguyên và thực hiện các hành động. Do đó, điều cần thiết cho bảo mật và trách nhiệm giải trình là các Agent hoạt động dưới sự giám sát rõ ràng của con người. Mỗi Agent phải có một tập hợp người dùng con người kiểm soát được xác định rõ ràng. Nguyên tắc này yêu cầu các hệ thống phải có khả năng phân biệt đáng tin cậy các hướng dẫn có nguồn gốc từ người dùng điều khiển được ủy quyền so với bất kỳ đầu vào nào khác, đặc biệt là dữ liệu có khả năng không đáng tin cậy được xử lý bởi Agent. Đối với các hành động được coi là quan trọng hoặc không thể đảo ngược, hệ thống phải yêu cầu xác nhận rõ ràng của con người trước khi tiến hành.
Nguyên tắc 2: Quyền hạn của Agent phải có giới hạn
Quyền hạn của Agent – các hành động nó có thể thực hiện và các tài nguyên nó có thể truy cập – phải được giới hạn cẩn thận phù hợp với mục đích dự định và mức độ chấp nhận rủi ro của người dùng điều khiển. Nguyên tắc này mở rộng nguyên tắc đặc quyền tối thiểu truyền thống bằng cách yêu cầu các quyền của Agent phải được điều chỉnh động theo mục đích cụ thể và ý định hiện tại của người dùng, thay vì chỉ được giảm thiểu một cách tĩnh.
Nguyên tắc 3: Hành động và lập kế hoạch của Agent phải có thể quan sát được
Niềm tin, gỡ lỗi hiệu quả, kiểm tra bảo mật, ứng phó sự cố và hiểu biết của người dùng đều phụ thuộc vào tính minh bạch trong các hoạt động của Agent. Chúng ta không thể đảm bảo một Agent đang hoạt động đáng tin cậy hoặc chẩn đoán các vấn đề nếu hoạt động của nó hoàn toàn không rõ ràng. Do đó, các hành động của Agent, và nếu khả thi, các quy trình lập kế hoạch của chúng, phải có thể quan sát và kiểm toán được. Điều này đòi hỏi phải triển khai nhật ký mạnh mẽ trên toàn bộ kiến trúc của Agent để thu thập thông tin quan trọng như đầu vào đã nhận, công cụ được gọi, tham số được truyền, đầu ra được tạo và lý tưởng nhất là các bước suy luận trung gian.
Cách tiếp cận của Google: Phòng thủ lai đa lớp
Với những hạn chế cố hữu của các mô hình AI hiện tại và việc không thể đảm bảo sự phù hợp hoàn hảo chống lại tất cả các mối đe dọa tiềm tàng, Google sử dụng chiến lược phòng thủ sâu tập trung vào một phương pháp tiếp cận lai. Phương pháp này kết hợp chiến lược các biện pháp bảo mật truyền thống, xác định với các phòng thủ động, dựa trên suy luận. Mục tiêu là tạo ra các ranh giới mạnh mẽ xung quanh môi trường hoạt động của Agent, giảm thiểu đáng kể rủi ro gây hại, đặc biệt là các hành động độc hại bắt nguồn từ prompt injection, trong khi vẫn cố gắng duy trì tiện ích tối đa của Agent.
Lớp 1: Các biện pháp truyền thống, xác định (Thực thi chính sách thời gian chạy)
Lớp bảo mật đầu tiên sử dụng các cơ chế bảo mật xác định, đáng tin cậy, mà Google gọi là các công cụ chính sách, hoạt động bên ngoài quy trình suy luận của mô hình AI. Các công cụ này giám sát và kiểm soát các hành động của Agent trước khi chúng được thực hiện, hoạt động như các điểm nghẽn bảo mật. Khi một Agent quyết định sử dụng một công cụ hoặc thực hiện một hành động (chẳng hạn như "gửi email" hoặc "mua hàng"), yêu cầu sẽ bị chặn bởi công cụ chính sách. Công cụ này đánh giá yêu cầu dựa trên các quy tắc được xác định trước.
Lớp 2: Chiến lược phòng thủ dựa trên suy luận
Để bổ sung cho các rào chắn xác định và giải quyết các hạn chế của chúng trong việc xử lý ngữ cảnh và các mối đe dọa mới, lớp thứ hai tận dụng các phòng thủ dựa trên suy luận: các kỹ thuật sử dụng chính các mô hình AI để đánh giá đầu vào, đầu ra hoặc suy luận nội bộ của Agent về các rủi ro tiềm tàng. Chiến lược này nhằm mục đích làm cho các quy trình suy luận và lập kế hoạch cốt lõi của Agent có khả năng phục hồi tốt hơn trước sự thao túng và phù hợp hơn với các thông số hoạt động an toàn.
Tuy nhiên, các chiến lược này là không xác định và không thể cung cấp các đảm bảo tuyệt đối. Các mô hình vẫn có thể bị đánh lừa bởi các cuộc tấn công mới, và các chế độ lỗi của chúng có thể không thể đoán trước. Điều này khiến chúng không đủ, một mình, cho các kịch bản đòi hỏi các đảm bảo an toàn tuyệt đối, đặc biệt là liên quan đến các hành động quan trọng hoặc không thể đảo ngược. Chúng phải hoạt động song song với các kiểm soát xác định.
Xác thực bảo mật Agent của bạn: Các nỗ lực đảm bảo
Hỗ trợ cả hai lớp là các hoạt động đảm bảo liên tục.
Kiểm thử hồi quy đảm bảo các bản sửa lỗi vẫn hiệu quả.
Phân tích biến thể chủ động kiểm thử các biến thể của các mối đe dọa đã biết để dự đoán sự phát triển của kẻ tấn công. Bổ sung cho kiểm thử tự động là chuyên môn quan trọng của con người: các red team tiến hành các cuộc tấn công mô phỏng, phản hồi của người dùng cung cấp thông tin chi tiết trong thế giới thực, các nhà đánh giá bảo mật thực hiện kiểm toán và các nhà nghiên cứu bảo mật bên ngoài cung cấp các quan điểm đa dạng để khám phá các điểm yếu.
Định hướng tương lai của các Agent một cách an toàn
AI Agent đại diện cho một bước nhảy vọt công nghệ mang tính chuyển đổi, mang lại tiềm năng to lớn cho năng suất và đổi mới. Tuy nhiên, tính tự chủ và sức mạnh của chúng đòi hỏi một cách tiếp cận chủ động và tinh vi để bảo mật ngay từ đầu.
Các rủi ro về hành động độc hại và tiết lộ dữ liệu nhạy cảm là đáng kể và bắt nguồn từ các đặc điểm cốt lõi của các hệ thống Agentic, đặc biệt là sự phụ thuộc của chúng vào suy luận AI phức tạp và tương tác với các công cụ và dữ liệu bên ngoài. Google tin rằng chiến lược lai của mình mang lại một con đường thực dụng và cần thiết về phía trước. Bằng cách kết hợp các đảm bảo xác định của việc thực thi chính sách thời gian chạy với khả năng thích ứng theo ngữ cảnh của các phòng thủ dựa trên suy luận, chúng ta có thể tạo ra một tư thế bảo mật kiên cường hơn.
Sự cảnh giác liên tục, kiểm thử nghiêm ngặt và cam kết bền vững để tinh chỉnh các phương pháp tiếp cận lai này là tối quan trọng. Bảo mật AI Agent không phải là một vấn đề được giải quyết một lần, mà là một kỷ luật liên tục đòi hỏi đầu tư và thích ứng bền vững. Bằng cách ưu tiên các cân nhắc bảo mật cùng với việc phát triển khả năng, chúng ta có thể hướng tới việc xây dựng các hệ thống AI Agent không chỉ mạnh mẽ và hữu ích, mà còn đáng tin cậy và phù hợp với lợi ích của con người, đảm bảo chúng ta khai thác tiềm năng chuyển đổi của chúng một cách có trách nhiệm.