OpenAI ra mắt các mô hình an toàn AI mã nguồn mở (open-weight) cho nhà phát triển

Tin tức AI - 29/10/2025 16:31:52

OpenAI đang trao nhiều quyền kiểm soát an toàn hơn trực tiếp cho các nhà phát triển AI với bản xem trước nghiên cứu mới về các mô hình “safeguard”.

OpenAI đang trao nhiều quyền kiểm soát an toàn hơn trực tiếp cho các nhà phát triển AI với bản xem trước nghiên cứu mới về các mô hình “safeguard”. Dòng mô hình mã nguồn mở (open-weight) ‘gpt-oss-safeguard’ mới này được thiết kế nhằm mục đích tùy chỉnh phân loại nội dung.

Sản phẩm mới sẽ bao gồm hai mô hình là gpt-oss-safeguard-120b và phiên bản nhỏ hơn gpt-oss-safeguard-20b. Cả hai đều là phiên bản được tinh chỉnh từ dòng gpt-oss hiện có và sẽ được cung cấp theo giấy phép Apache 2.0 rộng rãi. Điều này sẽ cho phép bất kỳ tổ chức nào tự do sử dụng, điều chỉnh và triển khai các mô hình này theo ý muốn.

Điểm khác biệt thực sự ở đây không chỉ là giấy phép mở mà còn là phương pháp. Thay vì dựa vào một bộ quy tắc cố định được tích hợp sẵn trong mô hình, gpt-oss-safeguard sử dụng khả năng suy luận của nó để diễn giải chính sách riêng của nhà phát triển tại thời điểm suy luận. Điều này có nghĩa là các nhà phát triển AI sử dụng mô hình mới của OpenAI có thể thiết lập khung an toàn riêng của họ để phân loại mọi thứ, từ các lời nhắc đơn lẻ của người dùng đến toàn bộ lịch sử trò chuyện. Nhà phát triển, chứ không phải nhà cung cấp mô hình, có tiếng nói cuối cùng về bộ quy tắc và có thể tùy chỉnh nó cho trường hợp sử dụng cụ thể của họ.

Cách tiếp cận này có một vài lợi thế rõ ràng:

  1. Tính minh bạch: Các mô hình sử dụng quy trình suy luận chuỗi ý tưởng (chain-of-thought), do đó nhà phát triển thực sự có thể xem xét cách thức và logic phân loại của mô hình. Đây là một bước tiến lớn so với bộ phân loại “hộp đen” điển hình.
  1. Tính linh hoạt: Vì chính sách an toàn không được huấn luyện vĩnh viễn vào mô hình mới của OpenAI, các nhà phát triển có thể lặp lại và sửa đổi các nguyên tắc của họ ngay lập tức mà không cần một chu trình huấn luyện lại hoàn chỉnh. OpenAI, đơn vị ban đầu xây dựng hệ thống này cho các nhóm nội bộ của mình, lưu ý rằng đây là một cách tiếp cận an toàn linh hoạt hơn nhiều so với việc huấn luyện một bộ phân loại truyền thống để gián tiếp đoán ý nghĩa của một chính sách.

Thay vì dựa vào một lớp an toàn chung áp dụng cho tất cả từ nhà cung cấp nền tảng, các nhà phát triển sử dụng mô hình AI mã nguồn mở giờ đây có thể xây dựng và áp dụng các tiêu chuẩn riêng biệt của họ.

Mặc dù chưa được triển khai tại thời điểm viết bài, các nhà phát triển sẽ có thể truy cập các mô hình an toàn AI mã nguồn mở (open-weight) mới của OpenAI trên nền tảng Hugging Face.

Nguồn: Sưu tầm

Tin tức AI

Xem tất cả