Đột phá học đối kháng cho phép bảo mật AI theo thời gian thực

Tin tức AI - 25/11/2025 21:12:05

Khả năng thực hiện học đối kháng cho bảo mật AI theo thời gian thực mang lại lợi thế quyết định so với các cơ chế phòng thủ tĩnh.

Khả năng thực hiện học đối kháng cho bảo mật AI theo thời gian thực mang lại lợi thế quyết định so với các cơ chế phòng thủ tĩnh.

Sự xuất hiện của các cuộc tấn công do AI điều khiển – sử dụng khả năng học tăng cường (RL) và Mô hình ngôn ngữ lớn (LLM) – đã tạo ra một loại hình “vibe hacking” và các mối đe dọa thích ứng, biến đổi nhanh hơn khả năng phản ứng của đội ngũ con người. Điều này đại diện cho rủi ro về quản trị và vận hành đối với các nhà lãnh đạo doanh nghiệp mà chính sách đơn thuần không thể giảm thiểu.

Hiện nay, những kẻ tấn công sử dụng suy luận đa bước và tạo mã tự động để vượt qua các hệ thống phòng thủ đã thiết lập. Do đó, ngành công nghiệp đang chứng kiến một sự dịch chuyển cần thiết hướng tới “phòng thủ tự trị” (tức là các hệ thống có khả năng học hỏi, dự đoán và phản ứng thông minh mà không cần sự can thiệp của con người).

Tuy nhiên, việc chuyển đổi sang các mô hình phòng thủ tinh vi này trong lịch sử đã gặp phải một giới hạn vận hành khó khăn: độ trễ.

Áp dụng học đối kháng, nơi các mô hình đe dọa và phòng thủ được huấn luyện liên tục đối đầu với nhau, cung cấp một phương pháp để chống lại các mối đe dọa bảo mật AI độc hại. Tuy nhiên, việc triển khai các kiến trúc dựa trên transformer cần thiết vào môi trường sản xuất trực tiếp lại tạo ra một nút thắt cổ chai.

Abe Starosta, Giám đốc Nghiên cứu Ứng dụng chính tại Microsoft NEXT.ai, cho biết: “Học đối kháng chỉ hoạt động hiệu quả trong môi trường sản xuất khi độ trễ, thông lượng và độ chính xác cùng được tối ưu hóa. 

Chi phí tính toán liên quan đến việc chạy các mô hình dày đặc này trước đây buộc các nhà lãnh đạo phải lựa chọn giữa phát hiện độ chính xác cao (chậm) và các phương pháp heuristic thông lượng cao (ít chính xác hơn).

Sự hợp tác kỹ thuật giữa MicrosoftNVIDIA cho thấy cách tăng tốc phần cứng và tối ưu hóa cấp độ kernel loại bỏ rào cản này, giúp khả năng phòng thủ đối kháng theo thời gian thực trở nên khả thi ở quy mô doanh nghiệp.

Để vận hành các mô hình transformer cho lưu lượng trực tiếp, các nhóm kỹ thuật đã phải giải quyết những hạn chế cố hữu của suy luận dựa trên CPU. Các đơn vị xử lý tiêu chuẩn gặp khó khăn trong việc xử lý khối lượng và tốc độ của các tác vụ sản xuất khi phải gánh chịu các mạng thần kinh phức tạp.

Trong các thử nghiệm cơ sở do các nhóm nghiên cứu thực hiện, một thiết lập dựa trên CPU cho thấy độ trễ đầu cuối là 1239.67ms với thông lượng chỉ 0.81 yêu cầu/giây. Đối với một tổ chức tài chính hoặc nền tảng thương mại điện tử toàn cầu, độ trễ một giây trên mỗi yêu cầu là không thể chấp nhận được về mặt vận hành.

Bằng cách chuyển sang kiến trúc tăng tốc GPU (cụ thể là sử dụng các đơn vị NVIDIA H100), độ trễ cơ sở đã giảm xuống còn 17.8ms. Tuy nhiên, việc nâng cấp phần cứng đơn thuần vẫn không đủ để đáp ứng các yêu cầu nghiêm ngặt của bảo mật AI theo thời gian thực.

Thông qua việc tối ưu hóa hơn nữa công cụ suy luận và các quy trình mã hóa (tokenization), các nhóm đã đạt được độ trễ đầu cuối cuối cùng là 7.67ms—tăng tốc hiệu suất gấp 160 lần so với mức cơ sở của CPU. Mức giảm này giúp hệ thống nằm trong ngưỡng chấp nhận được cho phân tích lưu lượng truy cập nội tuyến, cho phép triển khai các mô hình phát hiện với độ chính xác hơn 95 phần trăm trên các tiêu chuẩn học đối kháng.

Một trở ngại vận hành được xác định trong dự án này mang lại cái nhìn sâu sắc có giá trị cho các CTO giám sát việc tích hợp AI. Mặc dù bản thân mô hình phân loại đòi hỏi tính toán nặng nề, nhưng quy trình tiền xử lý dữ liệu – cụ thể là mã hóa (tokenization) – lại nổi lên như một nút thắt cổ chai thứ cấp.

Các kỹ thuật mã hóa (tokenization) tiêu chuẩn, thường dựa vào phân đoạn khoảng trắng, được thiết kế cho xử lý ngôn ngữ tự nhiên (ví dụ: bài viết và tài liệu). Chúng tỏ ra không phù hợp với dữ liệu an ninh mạng, vốn bao gồm các chuỗi yêu cầu được đóng gói chặt chẽ và các tải trọng do máy tạo ra, thiếu các điểm ngắt tự nhiên.

Để giải quyết vấn đề này, các nhóm kỹ thuật đã phát triển một bộ mã hóa (tokeniser) dành riêng cho miền. Bằng cách tích hợp các điểm phân đoạn dành riêng cho bảo mật được điều chỉnh theo các sắc thái cấu trúc của dữ liệu máy, họ đã cho phép song song hóa với mức độ chi tiết cao hơn. Phương pháp tùy chỉnh này cho bảo mật đã giảm độ trễ mã hóa (tokenization) 3.5 lần, làm nổi bật rằng các thành phần AI có sẵn thường yêu cầu thiết kế lại riêng cho từng miền để hoạt động hiệu quả trong các môi trường chuyên biệt.

Để đạt được những kết quả này đòi hỏi một ngăn xếp suy luận gắn kết hơn là các nâng cấp riêng lẻ. Kiến trúc đã sử dụng NVIDIA Dynamo và Triton Inference Server để phục vụ, kết hợp với triển khai TensorRT của bộ phân loại mối đe dọa của Microsoft.

Quá trình tối ưu hóa bao gồm việc hợp nhất các hoạt động chính – như chuẩn hóa, nhúng và các hàm kích hoạt – thành các nhân CUDA tùy chỉnh duy nhất. Sự hợp nhất này giảm thiểu lưu lượng bộ nhớ và chi phí khởi chạy, những yếu tố thường xuyên làm giảm hiệu suất một cách âm thầm trong các ứng dụng giao dịch tần số cao hoặc bảo mật. TensorRT tự động hợp nhất các hoạt động chuẩn hóa vào các nhân trước đó, trong khi các nhà phát triển đã xây dựng các nhân tùy chỉnh cho cơ chế chú ý cửa sổ trượt.

Kết quả của các tối ưu hóa suy luận cụ thể này là sự giảm độ trễ truyền thẳng (forward-pass latency) từ 9.45ms xuống còn 3.39ms, một tốc độ tăng gấp 2.8 lần, đóng góp phần lớn vào việc giảm độ trễ được thấy trong các số liệu cuối cùng.

Rachel Allen, Giám đốc An ninh mạng tại NVIDIA, giải thích: “Bảo mật doanh nghiệp có nghĩa là phải phù hợp với khối lượng và tốc độ của dữ liệu an ninh mạng và thích ứng với tốc độ đổi mới của các đối thủ.

“Các mô hình phòng thủ cần độ trễ cực thấp để chạy ở tốc độ đường truyền và khả năng thích ứng để bảo vệ chống lại các mối đe dọa mới nhất. Sự kết hợp giữa học đối kháng với các mô hình phát hiện dựa trên transformer được tăng tốc bởi NVIDIA TensorRT đã làm được điều đó.”

Thành công này cho thấy một yêu cầu rộng lớn hơn đối với hạ tầng doanh nghiệp. Khi các tác nhân đe dọa tận dụng AI để biến đổi các cuộc tấn công theo thời gian thực, các cơ chế bảo mật phải có đủ năng lực tính toán để chạy các mô hình suy luận phức tạp mà không gây ra độ trễ.

Việc dựa vào tính toán CPU để phát hiện mối đe dọa nâng cao đang trở thành một điểm yếu. Giống như việc hiển thị đồ họa đã chuyển sang GPU, suy luận bảo mật thời gian thực đòi hỏi phần cứng chuyên dụng để duy trì thông lượng >130 yêu cầu/giây đồng thời đảm bảo phạm vi bao phủ mạnh mẽ.

Hơn nữa, các mô hình AI và bộ mã hóa (tokeniser) chung chung thường thất bại trên dữ liệu chuyên biệt. Các cuộc tấn công “vibe hacking” và các tải trọng phức tạp của các mối đe dọa hiện đại đòi hỏi các mô hình được huấn luyện đặc biệt trên các mẫu độc hại và phân đoạn đầu vào phản ánh thực tế dữ liệu máy.

Nhìn về phía trước, lộ trình cho bảo mật trong tương lai bao gồm việc huấn luyện các mô hình và kiến trúc đặc biệt cho khả năng chống chịu đối kháng, có thể sử dụng các kỹ thuật như lượng tử hóa để tăng cường tốc độ hơn nữa.

Bằng cách liên tục huấn luyện các mô hình đe dọa và phòng thủ song song, các tổ chức có thể xây dựng nền tảng bảo vệ AI theo thời gian thực có khả năng mở rộng theo sự phức tạp của các mối đe dọa bảo mật đang phát triển. Đột phá học đối kháng chứng minh rằng công nghệ để đạt được điều này – cân bằng độ trễ, thông lượng và độ chính xác – hiện có thể được triển khai ngay hôm nay.

Tin tức AI

Xem tất cả