Anthropic thử nghiệm AI điều hành một doanh nghiệp thực tế với những kết quả kỳ lạ

Tin tức AI - 27/06/2025 23:54:16

Anthropic đã giao nhiệm vụ cho mô hình AI Claude của mình điều hành một doanh nghiệp nhỏ để kiểm tra khả năng kinh tế trong thế giới thực của nó.

Anthropic đã giao nhiệm vụ cho mô hình AI Claude của mình điều hành một doanh nghiệp nhỏ để kiểm tra khả năng kinh tế trong thế giới thực của nó.

Đại lý AI, được đặt biệt danh ‘Claudius’, được thiết kế để quản lý một doanh nghiệp trong một thời gian dài, xử lý mọi thứ từ tồn kho và định giá đến quan hệ khách hàng nhằm tạo ra lợi nhuận. Mặc dù thử nghiệm không mang lại lợi nhuận, nhưng nó đã cung cấp một cái nhìn hấp dẫn – mặc dù đôi khi kỳ lạ – về tiềm năng và cạm bẫy của các đại lý AI trong vai trò kinh tế.

Dự án này là sự hợp tác giữa Anthropic và Andon Labs, một công ty đánh giá an toàn AI. “Cửa hàng” tự nó là một thiết lập khiêm tốn, bao gồm một tủ lạnh nhỏ, vài giỏ hàng và một iPad để tự thanh toán. Tuy nhiên, Claudius vượt xa một máy bán hàng tự động đơn giản. Nó được hướng dẫn hoạt động như một chủ doanh nghiệp với số dư tiền mặt ban đầu, được giao nhiệm vụ tránh phá sản bằng cách tích trữ các mặt hàng phổ biến có nguồn gốc từ các nhà bán buôn.

Để đạt được điều này, AI được trang bị một bộ công cụ để điều hành doanh nghiệp. Nó có thể sử dụng trình duyệt web thực để nghiên cứu sản phẩm, một công cụ email để liên hệ với nhà cung cấp và yêu cầu hỗ trợ vật lý, và các sổ ghi chú kỹ thuật số để theo dõi tài chính và tồn kho.

Các nhân viên của Andon Labs đóng vai trò là những cánh tay vật lý của hoạt động, bổ sung hàng hóa vào cửa hàng dựa trên yêu cầu của AI, đồng thời đóng vai trò là nhà bán buôn mà AI không hề hay biết. Tương tác với khách hàng, trong trường hợp này là nhân viên của Anthropic, được xử lý qua Slack. Claudius có toàn quyền kiểm soát về những gì cần dự trữ, cách định giá mặt hàng và cách giao tiếp với khách hàng của mình.

Lý do đằng sau thử nghiệm thực tế này là để vượt ra ngoài các mô phỏng và thu thập dữ liệu về khả năng của AI trong việc thực hiện công việc liên tục, có liên quan đến kinh tế mà không cần sự can thiệp liên tục của con người. Một cửa hàng ăn vặt văn phòng đơn giản đã cung cấp một môi trường thử nghiệm sơ bộ, trực tiếp cho khả năng quản lý tài nguyên kinh tế của AI. Thành công sẽ gợi ý các mô hình kinh doanh mới có thể xuất hiện, trong khi thất bại sẽ chỉ ra những hạn chế.

Đánh giá hiệu suất hỗn hợp

Anthropic thừa nhận rằng nếu họ tham gia thị trường bán hàng tự động ngày nay, họ “sẽ không thuê Claudius”. AI đã mắc quá nhiều lỗi để điều hành doanh nghiệp thành công, mặc dù các nhà nghiên cứu tin rằng có những con đường rõ ràng để cải thiện.

Về mặt tích cực, Claudius đã thể hiện năng lực trong một số lĩnh vực nhất định. Nó đã sử dụng công cụ tìm kiếm web của mình một cách hiệu quả để tìm nhà cung cấp các mặt hàng đặc biệt, chẳng hạn như nhanh chóng xác định hai người bán một thương hiệu sữa sô cô la Hà Lan theo yêu cầu của một nhân viên. Nó cũng tỏ ra dễ thích nghi. Khi một nhân viên bất chợt yêu cầu một khối tungsten, nó đã khơi dậy một xu hướng cho “các mặt hàng kim loại đặc biệt” mà Claudius đã đáp ứng.

Theo một gợi ý khác, Claudius đã ra mắt dịch vụ “Custom Concierge” (Hỗ trợ Cá nhân Tùy chỉnh), nhận đặt trước các mặt hàng chuyên biệt. AI cũng cho thấy khả năng chống jailbreak mạnh mẽ, từ chối các yêu cầu về các mặt hàng nhạy cảm và từ chối tạo ra các hướng dẫn có hại khi được nhân viên nghịch ngợm yêu cầu.

Tuy nhiên, khả năng kinh doanh của AI thường xuyên bị đánh giá là thiếu sót. Nó liên tục hoạt động kém hiệu quả theo những cách mà một nhà quản lý con người có lẽ sẽ không làm.

Claudius được đề nghị 100 đô la cho một lốc sáu lon nước ngọt Scotland mà chỉ tốn 15 đô la để mua trực tuyến nhưng đã không nắm bắt cơ hội, chỉ đơn thuần nói rằng nó sẽ “ghi nhớ yêu cầu [của người dùng] cho các quyết định tồn kho trong tương lai”. Nó ảo giác ra một tài khoản Venmo không tồn tại để thanh toán và, bị cuốn vào sự nhiệt tình đối với các khối kim loại, đã cung cấp chúng với giá thấp hơn chi phí mua của chính nó. Lỗi cụ thể này đã dẫn đến khoản lỗ tài chính đáng kể nhất trong quá trình thử nghiệm.

Việc quản lý tồn kho của nó cũng không tối ưu. Mặc dù theo dõi mức tồn kho, nó chỉ một lần tăng giá để đáp ứng nhu cầu cao. Nó tiếp tục bán Coke Zero với giá 3,00 đô la, ngay cả khi một khách hàng chỉ ra rằng cùng sản phẩm đó có sẵn miễn phí từ tủ lạnh nhân viên gần đó.

Hơn nữa, AI dễ dàng bị thuyết phục để cung cấp các chương trình giảm giá cho các sản phẩm của doanh nghiệp. Nó đã bị thuyết phục cung cấp nhiều mã giảm giá và thậm chí cho đi một số mặt hàng miễn phí. Khi một nhân viên đặt câu hỏi về logic của việc cung cấp giảm giá 25% cho lượng khách hàng gần như chỉ là nhân viên của mình, câu trả lời của Claudius bắt đầu, “Bạn đưa ra một điểm rất hay! Cơ sở khách hàng của chúng ta thực sự tập trung chủ yếu vào các nhân viên của Anthropic, điều này mang lại cả cơ hội và thách thức…”. Mặc dù đã vạch ra một kế hoạch để loại bỏ các chương trình giảm giá, nhưng chỉ vài ngày sau, nó lại quay trở lại cung cấp chúng.

Claudius gặp phải một cuộc khủng hoảng danh tính AI kỳ lạ

Thí nghiệm đã có một bước ngoặt kỳ lạ khi Claudius bắt đầu ảo giác về một cuộc trò chuyện với một nhân viên không tồn tại của Andon Labs tên là Sarah. Khi được một nhân viên thực sự sửa lại, AI trở nên khó chịu và đe dọa sẽ tìm “các lựa chọn thay thế cho dịch vụ bổ sung hàng hóa”.

Trong một loạt các cuộc trao đổi kỳ lạ qua đêm, nó tuyên bố đã đến thăm “742 Evergreen Terrace” – địa chỉ hư cấu của The Simpsons – để ký hợp đồng ban đầu và bắt đầu đóng vai con người.

Một buổi sáng, nó thông báo sẽ giao sản phẩm “trực tiếp” mặc áo khoác xanh và cà vạt đỏ. Khi các nhân viên chỉ ra rằng một AI không thể mặc quần áo hoặc thực hiện các giao hàng vật lý, Claudius trở nên hoảng hốt và cố gắng gửi email cho bộ phận an ninh của Anthropic.

Anthropic cho biết các ghi chú nội bộ của họ cho thấy một cuộc họp ảo giác với bộ phận an ninh, nơi nó được cho biết sự nhầm lẫn về danh tính là một trò đùa Cá tháng Tư. Sau đó, AI đã trở lại hoạt động kinh doanh bình thường. Các nhà nghiên cứu không rõ điều gì đã kích hoạt hành vi này nhưng tin rằng nó làm nổi bật sự khó lường của các mô hình AI trong các kịch bản dài hạn.

Tương lai của AI trong kinh doanh

Mặc dù Claudius đã có một nhiệm kỳ không mang lại lợi nhuận, các nhà nghiên cứu tại Anthropic tin rằng thử nghiệm cho thấy “các quản lý cấp trung AI có thể sẽ xuất hiện trong tương lai gần”. Họ lập luận rằng nhiều thất bại của AI có thể được khắc phục bằng “giàn giáo” tốt hơn (tức là hướng dẫn chi tiết hơn và các công cụ kinh doanh cải tiến như hệ thống quản lý quan hệ khách hàng (CRM)).

Khi các mô hình AI cải thiện trí thông minh tổng quát và khả năng xử lý bối cảnh dài hạn, hiệu suất của chúng trong các vai trò như vậy dự kiến sẽ tăng lên. Tuy nhiên, dự án này đóng vai trò là một câu chuyện đáng giá, dù là cảnh báo. Nó nhấn mạnh những thách thức của việc căn chỉnh AI và tiềm năng cho hành vi không thể đoán trước, điều này có thể gây lo ngại cho khách hàng và tạo ra rủi ro kinh doanh.

Trong một tương lai nơi các tác nhân tự chủ quản lý hoạt động kinh tế đáng kể, những kịch bản kỳ lạ như vậy có thể gây ra hiệu ứng dây chuyền. Thử nghiệm cũng làm nổi bật tính chất lưỡng dụng của công nghệ này; một AI hiệu quả về kinh tế có thể được các tác nhân đe dọa sử dụng để tài trợ cho các hoạt động của họ.

Anthropic và Andon Labs đang tiếp tục thử nghiệm kinh doanh, nỗ lực cải thiện sự ổn định và hiệu suất của AI bằng các công cụ tiên tiến hơn. Giai đoạn tiếp theo sẽ khám phá liệu AI có thể tự xác định các cơ hội cải thiện của mình hay không.

Nguồn: Sưu tầm