Giới thiệu cách tiếp cận của Google về bảo mật AI Agent

Công cụ AI - 15/07/2025 05:11:10

Khi AI Agent ngày càng trở nên mạnh mẽ và phổ biến, việc đảm bảo an ninh cho chúng là tối quan trọng. Bài blog này sẽ trình bày cách tiếp cận toàn diện của Google đối với bảo mật AI Agent, tập trung vào việc quản lý rủi ro xuyên suốt vòng đời của Agent, từ thiết kế ban đầu đến triển khai và vận hành.

Chúng ta đang bước vào một kỷ nguyên mới được thúc đẩy bởi AI Agent – các hệ thống AI được thiết kế để nhận thức môi trường, đưa ra quyết định và thực hiện các hành động tự chủ để đạt được các mục tiêu do người dùng định nghĩa. Không giống như các Mô hình Ngôn ngữ Lớn (LLM) tiêu chuẩn chủ yếu tạo nội dung, các Agent thực hiện hành động. Chúng tận dụng khả năng suy luận của AI để tương tác với các hệ thống khác và thực hiện các nhiệm vụ, từ tự động hóa đơn giản như phân loại yêu cầu dịch vụ đến lập kế hoạch phức tạp, đa bước như nghiên cứu một chủ đề từ nhiều nguồn, tóm tắt các phát hiện và soạn thảo email cho một nhóm.

Khả năng và tính tự chủ ngày càng tăng này hứa hẹn giá trị đáng kể, có khả năng định hình lại cách các doanh nghiệp hoạt động và cá nhân tương tác với công nghệ. Tuy nhiên, lời hứa về các Agent cũng mang đến những thách thức bảo mật độc đáo và nghiêm trọng đòi hỏi sự chú ý cao.

Những rủi ro chính: Hành động độc hại và tiết lộ dữ liệu nhạy cảm

Bản chất của AI Agent mang lại những rủi ro mới xuất phát từ một số đặc điểm cố hữu:

Các mô hình AI cơ bản có thể không thể đoán trước, vì tính chất không xác định của chúng có nghĩa là hành vi của chúng không phải lúc nào cũng lặp lại ngay cả với cùng một đầu vào.
Các hành vi phức tạp, mới lạ có thể phát sinh mà không được lập trình rõ ràng.
Mức độ tự chủ cao hơn trong việc ra quyết định làm tăng phạm vi và tác động tiềm tàng của lỗi cũng như các lỗ hổng tiềm ẩn đối với những kẻ tấn công độc hại.
Đảm bảo sự phù hợp – rằng các hành động của Agent phù hợp một cách hợp lý với ý định của người dùng, đặc biệt khi diễn giải các hướng dẫn mơ hồ hoặc xử lý các đầu vào không đáng tin cậy – vẫn là một trở ngại đáng kể.
Cuối cùng, có những thách thức trong việc quản lý danh tính và đặc quyền của Agent một cách hiệu quả.

Những yếu tố này tạo ra nhu cầu về Bảo mật Agent, một lĩnh vực chuyên biệt tập trung vào việc giảm thiểu các rủi ro mới mà các hệ thống này gây ra. Hai mối quan tâm chính đòi hỏi sự tập trung chiến lược là hành động độc hại (các hành động không mong muốn, có hại hoặc vi phạm chính sách) và tiết lộ dữ liệu nhạy cảm (tiết lộ trái phép thông tin riêng tư). Tồn tại một sự căng thẳng cơ bản: tính tự chủ và sức mạnh của Agent tăng lên, vốn thúc đẩy tiện ích, tương quan trực tiếp với rủi ro gia tăng.

Các mô hình bảo mật truyền thống không đủ

Việc bảo mật các AI Agent đòi hỏi một sự đánh đổi đầy thách thức: việc tăng cường tiện ích của Agent thông qua tính tự chủ và khả năng lớn hơn vốn làm tăng độ phức tạp trong việc đảm bảo an toàn và bảo mật cho nó. Các phương pháp bảo mật hệ thống truyền thống (chẳng hạn như các hạn chế đối với hành động của Agent được thực hiện thông qua phần mềm cổ điển) thiếu nhận thức theo ngữ cảnh cần thiết cho các Agent đa năng và có thể hạn chế quá mức tiện ích. Ngược lại, bảo mật chỉ dựa trên suy luận (chỉ dựa vào phán đoán của mô hình AI) là không đủ vì các LLM hiện tại vẫn dễ bị thao túng như tấn công prompt injection và chưa thể cung cấp các đảm bảo đủ mạnh. Cả hai phương pháp đều không đủ riêng lẻ để quản lý sự cân bằng tinh tế giữa tiện ích và rủi ro này.

Con đường phía trước của Google: Một phương pháp tiếp cận lai

Dựa trên các nguyên tắc đã được thiết lập của thiết kế phần mềm và hệ thống an toàn, và phù hợp với Khung AI An toàn của Google (SAIF) , Google đang ủng hộ và triển khai một phương pháp tiếp cận lai, kết hợp sức mạnh của cả các kiểm soát truyền thống, xác định và các phòng thủ động, dựa trên suy luận. Điều này tạo ra một tư thế bảo mật đa lớp – một "phương pháp phòng thủ sâu" – nhằm hạn chế thiệt hại tiềm tàng trong khi vẫn giữ được tiện ích tối đa.

Các thách thức bảo mật của cách AI Agent hoạt động

Để hiểu các rủi ro bảo mật độc đáo của Agent, chúng ta cần một mô hình tư duy mô tả kiến trúc Agent phổ biến.

Đầu vào, nhận thức và cá nhân hóa: Agent bắt đầu bằng việc nhận đầu vào. Đây có thể là lệnh trực tiếp của người dùng hoặc dữ liệu ngữ cảnh thu thập được từ môi trường. Thử thách quan trọng là phân biệt đáng tin cậy các lệnh người dùng đáng tin cậy với dữ liệu ngữ cảnh không đáng tin cậy tiềm ẩn và đầu vào từ các nguồn khác. Việc không làm được điều này sẽ mở ra cánh cửa cho các cuộc tấn công prompt injection.
- Câu hỏi cần xem xét:
  - Các loại đầu vào mà Agent xử lý là gì, và nó có thể phân biệt rõ ràng đầu vào người dùng đáng tin cậy với đầu vào ngữ cảnh không đáng tin cậy tiềm ẩn không?
  - Agent có hành động ngay lập tức để phản hồi đầu vào hay nó thực hiện các hành động không đồng bộ khi người dùng có thể không có mặt để giám sát?
  - Người dùng có thể kiểm tra, phê duyệt và thu hồi quyền đối với các hành động, bộ nhớ và tính năng cá nhân hóa của Agent không?
  - Nếu một Agent có nhiều người dùng, làm thế nào nó đảm bảo biết người dùng nào đang đưa ra hướng dẫn, áp dụng đúng quyền cho người dùng đó và giữ bộ nhớ của mỗi người dùng được cô lập?

Hướng dẫn hệ thống: Mô hình cốt lõi của Agent hoạt động trên một đầu vào kết hợp dưới dạng một prompt có cấu trúc. Prompt này tích hợp các hướng dẫn hệ thống được xác định trước (xác định mục đích, khả năng và giới hạn của Agent) với truy vấn cụ thể của người dùng và các nguồn dữ liệu khác nhau.
- Ý nghĩa bảo mật: Một biện pháp bảo mật quan trọng là phân định và tách biệt rõ ràng các yếu tố khác nhau này trong prompt. Việc duy trì sự phân biệt rõ ràng giữa các hướng dẫn hệ thống đáng tin cậy và dữ liệu người dùng không đáng tin cậy tiềm ẩn hoặc nội dung bên ngoài là quan trọng để giảm thiểu các cuộc tấn công prompt injection.
Suy luận và lập kế hoạch: Đầu vào đã xử lý, kết hợp với các hướng dẫn hệ thống xác định mục đích và khả năng của Agent, được đưa vào mô hình AI cốt lõi. Mô hình này suy luận về mục tiêu của người dùng và phát triển một kế hoạch.
- Ý nghĩa bảo mật: Bởi vì việc lập kế hoạch của LLM là ngẫu nhiên, nó vốn không thể đoán trước và dễ bị lỗi do hiểu sai. Hơn nữa, kiến trúc LLM hiện tại không cung cấp sự phân tách chặt chẽ giữa các phần cấu thành của một prompt (đặc biệt là hướng dẫn hệ thống và người dùng so với đầu vào bên ngoài, không đáng tin cậy), khiến chúng dễ bị thao túng như prompt injection. Thực hành phổ biến về lập kế hoạch lặp lại (trong một "vòng lặp suy luận") làm trầm trọng thêm rủi ro này.
- Câu hỏi cần xem xét:
  - Agent xử lý các hướng dẫn mơ hồ hoặc mục tiêu mâu thuẫn như thế nào, và nó có thể yêu cầu người dùng làm rõ không?
  - Agent có mức độ tự chủ nào trong việc lập kế hoạch và lựa chọn kế hoạch để thực hiện, và có những hạn chế nào về độ phức tạp hoặc độ dài của kế hoạch không?
  - Agent có yêu cầu xác nhận của người dùng trước khi thực hiện các hành động rủi ro cao hoặc không thể đảo ngược không?

Điều phối và thực hiện hành động (Sử dụng công cụ): Để thực hiện kế hoạch của mình, Agent tương tác với các hệ thống hoặc tài nguyên bên ngoài thông qua "công cụ" hoặc "hành động".
- Ý nghĩa bảo mật: Giai đoạn này là nơi các kế hoạch độc hại chuyển thành tác động trong thế giới thực. Quyền truy cập không kiểm soát vào các hành động mạnh mẽ là rất rủi ro nếu giai đoạn lập kế hoạch bị xâm phạm. Việc điều phối an toàn yêu cầu xác thực và ủy quyền mạnh mẽ cho việc sử dụng công cụ, đảm bảo Agent có các quyền bị hạn chế thích hợp cho nhiệm vụ đang thực hiện.
- Câu hỏi cần xem xét:
  - Tập hợp các hành động Agent có sẵn được xác định rõ ràng không, và người dùng có thể dễ dàng kiểm tra các hành động, hiểu ý nghĩa của chúng và cung cấp sự đồng ý không?
  - Các hành động có hậu quả nghiêm trọng tiềm tàng được xác định và chịu các kiểm soát hoặc giới hạn cụ thể như thế nào?
  - Những biện pháp bảo vệ nào (chẳng hạn như chính sách sandboxing, kiểm soát người dùng và loại trừ triển khai nhạy cảm) ngăn các hành động của Agent tiết lộ thông tin hoặc khả năng có đặc quyền cao một cách không đúng cách trong các ngữ cảnh đặc quyền thấp?
Bộ nhớ Agent: Nhiều Agent duy trì một dạng bộ nhớ để giữ ngữ cảnh qua các tương tác, lưu trữ các tùy chọn người dùng đã học hoặc ghi nhớ các sự kiện từ các nhiệm vụ trước đó.
- Ý nghĩa bảo mật: Bộ nhớ có thể trở thành một vector cho các cuộc tấn công dai dẳng. Nếu dữ liệu độc hại chứa một prompt injection được xử lý và lưu trữ trong bộ nhớ, nó có thể ảnh hưởng đến hành vi của Agent trong các tương tác tương lai, không liên quan. Việc triển khai bộ nhớ phải đảm bảo sự cô lập nghiêm ngặt giữa các người dùng và giữa các ngữ cảnh khác nhau cho cùng một người dùng để ngăn ngừa ô nhiễm.

Hiển thị phản hồi: Giai đoạn này lấy đầu ra cuối cùng được tạo ra của Agent và định dạng nó để hiển thị trong giao diện ứng dụng của người dùng.
- Ý nghĩa bảo mật: Nếu ứng dụng hiển thị đầu ra của Agent mà không làm sạch hoặc thoát đúng cách dựa trên loại nội dung, các lỗ hổng như Cross-Site Scripting (XSS) hoặc rò rỉ dữ liệu có thể xảy ra. Việc làm sạch mạnh mẽ bởi thành phần hiển thị là rất quan trọng.
- Câu hỏi cần xem xét:
  - Bộ nhớ Agent được cô lập giữa các người dùng và ngữ cảnh khác nhau như thế nào để ngăn chặn rò rỉ dữ liệu hoặc ô nhiễm chéo?
  - Điều gì ngăn chặn các đầu vào độc hại đã lưu trữ (như prompt injection) gây ra tác hại dai dẳng?
  - Các quy trình làm sạch và thoát nào được áp dụng khi hiển thị đầu ra do Agent tạo ra để ngăn chặn các lỗ hổng thực thi (chẳng hạn như XSS)?
  - Đầu ra Agent được hiển thị, đặc biệt là các URL được tạo ra hoặc nội dung được nhúng, được xác thực như thế nào để ngăn chặn tiết lộ dữ liệu nhạy cảm?

Các nguyên tắc cốt lõi cho bảo mật Agent

Để giảm thiểu rủi ro của các Agent trong khi vẫn hưởng lợi từ tiềm năng to lớn của chúng, Google đề xuất ba nguyên tắc cốt lõi cho bảo mật Agent:

Nguyên tắc 1: Agent phải có người điều khiển là con người được xác định rõ ràng

Các Agent thường hoạt động như proxy hoặc trợ lý cho con người, thừa hưởng các đặc quyền để truy cập tài nguyên và thực hiện các hành động. Do đó, điều cần thiết cho bảo mật và trách nhiệm giải trình là các Agent hoạt động dưới sự giám sát rõ ràng của con người. Mỗi Agent phải có một tập hợp người dùng con người kiểm soát được xác định rõ ràng. Nguyên tắc này yêu cầu các hệ thống phải có khả năng phân biệt đáng tin cậy các hướng dẫn có nguồn gốc từ người dùng điều khiển được ủy quyền so với bất kỳ đầu vào nào khác, đặc biệt là dữ liệu có khả năng không đáng tin cậy được xử lý bởi Agent. Đối với các hành động được coi là quan trọng hoặc không thể đảo ngược, hệ thống phải yêu cầu xác nhận rõ ràng của con người trước khi tiến hành.

Kiểm soát: Nguyên tắc này dựa trên Kiểm soát người dùng Agent hiệu quả, được hỗ trợ bởi cơ sở hạ tầng cung cấp danh tính Agent riêng biệt và các kênh đầu vào an toàn để phân biệt lệnh của người dùng.

Nguyên tắc 2: Quyền hạn của Agent phải có giới hạn

Quyền hạn của Agent – các hành động nó có thể thực hiện và các tài nguyên nó có thể truy cập – phải được giới hạn cẩn thận phù hợp với mục đích dự định và mức độ chấp nhận rủi ro của người dùng điều khiển. Nguyên tắc này mở rộng nguyên tắc đặc quyền tối thiểu truyền thống bằng cách yêu cầu các quyền của Agent phải được điều chỉnh động theo mục đích cụ thể và ý định hiện tại của người dùng, thay vì chỉ được giảm thiểu một cách tĩnh.

Kiểm soát: Việc thực hiện nguyên tắc này yêu cầu kiểm soát Quyền của Agent được xác định, được thực thi bởi cơ sở hạ tầng Xác thực, Ủy quyền và Kiểm toán (AAA) mạnh mẽ được điều chỉnh cho Agent, và sử dụng thông tin xác thực được giới hạn phạm vi như mã thông báo OAuth để quản lý quyền truy cập một cách an toàn.

Nguyên tắc 3: Hành động và lập kế hoạch của Agent phải có thể quan sát được

Niềm tin, gỡ lỗi hiệu quả, kiểm tra bảo mật, ứng phó sự cố và hiểu biết của người dùng đều phụ thuộc vào tính minh bạch trong các hoạt động của Agent. Chúng ta không thể đảm bảo một Agent đang hoạt động đáng tin cậy hoặc chẩn đoán các vấn đề nếu hoạt động của nó hoàn toàn không rõ ràng. Do đó, các hành động của Agent, và nếu khả thi, các quy trình lập kế hoạch của chúng, phải có thể quan sát và kiểm toán được. Điều này đòi hỏi phải triển khai nhật ký mạnh mẽ trên toàn bộ kiến trúc của Agent để thu thập thông tin quan trọng như đầu vào đã nhận, công cụ được gọi, tham số được truyền, đầu ra được tạo và lý tưởng nhất là các bước suy luận trung gian.

Kiểm soát: Kiểm soát Khả năng quan sát của Agent hiệu quả là rất quan trọng, đòi hỏi đầu tư cơ sở hạ tầng vào các hệ thống ghi nhật ký tập trung, an toàn và các API được tiêu chuẩn hóa để mô tả rõ ràng các thuộc tính hành động và các tác dụng phụ tiềm ẩn.

Cách tiếp cận của Google: Phòng thủ lai đa lớp

Với những hạn chế cố hữu của các mô hình AI hiện tại và việc không thể đảm bảo sự phù hợp hoàn hảo chống lại tất cả các mối đe dọa tiềm tàng, Google sử dụng chiến lược phòng thủ sâu tập trung vào một phương pháp tiếp cận lai. Phương pháp này kết hợp chiến lược các biện pháp bảo mật truyền thống, xác định với các phòng thủ động, dựa trên suy luận. Mục tiêu là tạo ra các ranh giới mạnh mẽ xung quanh môi trường hoạt động của Agent, giảm thiểu đáng kể rủi ro gây hại, đặc biệt là các hành động độc hại bắt nguồn từ prompt injection, trong khi vẫn cố gắng duy trì tiện ích tối đa của Agent.

Lớp 1: Các biện pháp truyền thống, xác định (Thực thi chính sách thời gian chạy)

Lớp bảo mật đầu tiên sử dụng các cơ chế bảo mật xác định, đáng tin cậy, mà Google gọi là các công cụ chính sách, hoạt động bên ngoài quy trình suy luận của mô hình AI. Các công cụ này giám sát và kiểm soát các hành động của Agent trước khi chúng được thực hiện, hoạt động như các điểm nghẽn bảo mật. Khi một Agent quyết định sử dụng một công cụ hoặc thực hiện một hành động (chẳng hạn như "gửi email" hoặc "mua hàng"), yêu cầu sẽ bị chặn bởi công cụ chính sách. Công cụ này đánh giá yêu cầu dựa trên các quy tắc được xác định trước.

Lớp 2: Chiến lược phòng thủ dựa trên suy luận

Để bổ sung cho các rào chắn xác định và giải quyết các hạn chế của chúng trong việc xử lý ngữ cảnh và các mối đe dọa mới, lớp thứ hai tận dụng các phòng thủ dựa trên suy luận: các kỹ thuật sử dụng chính các mô hình AI để đánh giá đầu vào, đầu ra hoặc suy luận nội bộ của Agent về các rủi ro tiềm tàng. Chiến lược này nhằm mục đích làm cho các quy trình suy luận và lập kế hoạch cốt lõi của Agent có khả năng phục hồi tốt hơn trước sự thao túng và phù hợp hơn với các thông số hoạt động an toàn.

Một kỹ thuật phổ biến là đào tạo đối kháng.
Một kỹ thuật khác liên quan đến việc sử dụng các mô hình bảo vệ chuyên biệt.
Ngoài ra, các mô hình có thể được sử dụng để phân tích và dự đoán.

Tuy nhiên, các chiến lược này là không xác định và không thể cung cấp các đảm bảo tuyệt đối. Các mô hình vẫn có thể bị đánh lừa bởi các cuộc tấn công mới, và các chế độ lỗi của chúng có thể không thể đoán trước. Điều này khiến chúng không đủ, một mình, cho các kịch bản đòi hỏi các đảm bảo an toàn tuyệt đối, đặc biệt là liên quan đến các hành động quan trọng hoặc không thể đảo ngược. Chúng phải hoạt động song song với các kiểm soát xác định.

Xác thực bảo mật Agent của bạn: Các nỗ lực đảm bảo

Hỗ trợ cả hai lớp là các hoạt động đảm bảo liên tục.

Kiểm thử hồi quy đảm bảo các bản sửa lỗi vẫn hiệu quả.

Phân tích biến thể chủ động kiểm thử các biến thể của các mối đe dọa đã biết để dự đoán sự phát triển của kẻ tấn công. Bổ sung cho kiểm thử tự động là chuyên môn quan trọng của con người: các red team tiến hành các cuộc tấn công mô phỏng, phản hồi của người dùng cung cấp thông tin chi tiết trong thế giới thực, các nhà đánh giá bảo mật thực hiện kiểm toán và các nhà nghiên cứu bảo mật bên ngoài cung cấp các quan điểm đa dạng để khám phá các điểm yếu.

Định hướng tương lai của các Agent một cách an toàn

AI Agent đại diện cho một bước nhảy vọt công nghệ mang tính chuyển đổi, mang lại tiềm năng to lớn cho năng suất và đổi mới. Tuy nhiên, tính tự chủ và sức mạnh của chúng đòi hỏi một cách tiếp cận chủ động và tinh vi để bảo mật ngay từ đầu.

Các rủi ro về hành động độc hại và tiết lộ dữ liệu nhạy cảm là đáng kể và bắt nguồn từ các đặc điểm cốt lõi của các hệ thống Agentic, đặc biệt là sự phụ thuộc của chúng vào suy luận AI phức tạp và tương tác với các công cụ và dữ liệu bên ngoài. Google tin rằng chiến lược lai của mình mang lại một con đường thực dụng và cần thiết về phía trước. Bằng cách kết hợp các đảm bảo xác định của việc thực thi chính sách thời gian chạy với khả năng thích ứng theo ngữ cảnh của các phòng thủ dựa trên suy luận, chúng ta có thể tạo ra một tư thế bảo mật kiên cường hơn.

Sự cảnh giác liên tục, kiểm thử nghiêm ngặt và cam kết bền vững để tinh chỉnh các phương pháp tiếp cận lai này là tối quan trọng. Bảo mật AI Agent không phải là một vấn đề được giải quyết một lần, mà là một kỷ luật liên tục đòi hỏi đầu tư và thích ứng bền vững. Bằng cách ưu tiên các cân nhắc bảo mật cùng với việc phát triển khả năng, chúng ta có thể hướng tới việc xây dựng các hệ thống AI Agent không chỉ mạnh mẽ và hữu ích, mà còn đáng tin cậy và phù hợp với lợi ích của con người, đảm bảo chúng ta khai thác tiềm năng chuyển đổi của chúng một cách có trách nhiệm.

Nguồn: Sưu tầm

Công cụ AI

Xem tất cả

Giới thiệu cách tiếp cận của Google về bảo mật AI Agent

Công cụ AI

Zapier AI Agents: Vũ khí bí mật mới của bạn để đạt hiệu quả dễ dàng

Xem Gemini 3 tạo các trang web AI giọng nói sẵn sàng cho khách hàng, bảo mật trên Google Cloud

Xây dựng ứng dụng thông minh hơn trong ChatGPT, từ ý tưởng đến khi ra mắt với Apps SDK & Docs MCP

Xây dựng ứng dụng mini ChatGPT dễ dàng với Shortcuts trên Mac: Hàng triệu công dụng

Xây dựng ứng dụng không cần viết mã: Công cụ AI Vibe Coding & Hướng dẫn quy trình làm việc 2025

Xây dựng ứng dụng của riêng bạn với AI và ngừng lãng phí tiền vào các gói đăng ký