Instacart cải thiện hiệu quả chatbot 200% nhờ AI: Case study đánh giá chatbot tự động bằng LLM

Công cụ AI - 30/06/2025 16:04:17

Khám phá cách Instacart, một công ty công nghệ hàng đầu tại Mỹ, đã giải quyết nút thắt cổ chai trong việc đánh giá chatbot hỗ trợ khách hàng bằng cách xây dựng một framework tự động sử dụng LLM. Bài viết chia sẻ chi tiết vấn đề, giải pháp, các chỉ số đánh giá quan trọng và những bài học thực tế, cho thấy cách AI có thể nâng cao năng suất và cải thiện trải nghiệm khách hàng lên đến 200%.

Instacart là một sàn TMĐT tại Mỹ có hàng triệu người dùng, khá tương đồng với “Shopee” để dễ hình dung. Trong quá trình vận hành, các công ty như Instacart hay gặp những tình huống như: thiếu hàng, giao hàng chậm, hoàn tiền, tích điểm thành viên… Trong những khoảnh khắc này, khách hàng mong đợi sự hỗ trợ nhanh chóng và nhất quán, đặc biệt là khi có điều gì đó không như ý xảy ra.

Trước đây, việc giải quyết những vấn đề này đồng nghĩa với việc kết nối khách hàng với các nhân viên người thật — một quy trình thường bao gồm thời gian chờ đợi gây bực bội, và thường vào một thời điểm không thuận tiện cho khách hàng. (Ví dụ như phải vào hàng chờ để đợi nhân viên trả lời).

Instacart đã tự xây dựng chatbot AI hỗ trợ của riêng họ để cải thiện trải nghiệm khách hàng bằng cách xử lý các yêu cầu này nhanh hơn và ở quy mô lớn.

1/ Vấn đề: Nút thắt cổ chai trong quy trình đánh giá thủ công

Xây dựng chatbot chỉ là một phần — điều QUAN TRỌNG HƠN là cách ĐÁNH GIÁ MỨC ĐỘ HIỆU QUẢ của chatbot đó.

Việc phát triển và cải thiện một chatbot hỗ trợ khách hàng là một quy trình lặp đi lặp lại: xây dựng, thử nghiệm, đánh giá, và lặp lại. Instacart nhận thấy rằng bước đánh giá chính là một nút thắt cổ chai lớn. Quy trình truyền thống của họ bao gồm:

Kiểm duyệt thủ công: Phải tự tay xem lại hàng trăm cuộc hội thoại giữa chatbot và người dùng để đánh giá chất lượng phản hồi của chatbot.
Chậm và tốn kém: Quá trình này cực kỳ tốn thời gian, đòi hỏi nhiều giờ làm việc của con người, dẫn đến chi phí cao.
Không thể mở rộng: Không thể kiểm duyệt thủ công toàn bộ các kịch bản người dùng tiềm năng, làm hạn chế tính toàn diện của việc kiểm thử.
Không nhất quán: Các chuyên gia đánh giá khác nhau có thể có những tiêu chuẩn chủ quan hoặc hơi khác nhau, dẫn đến phản hồi không nhất quán.

Nút thắt này làm chậm khả năng đổi mới và triển khai các cải tiến cho chatbot, ảnh hưởng trực tiếp đến trải nghiệm của khách hàng.

2/ Giải pháp của Instacart

Họ xây dựng một framework sử dụng LLM để đóng vai trò "chuyên gia đánh giá". Mục tiêu là tạo ra một hệ thống nhanh, có thể mở rộng, nhất quán và hiệu quả về chi phí.

Framework tự động hóa này bao gồm ba phần:

Tạo bộ kịch bản kiểm thử (Test Case): Một bộ kịch bản hỗ trợ khách hàng thực tế và toàn diện được tạo ra để kiểm tra chatbot.
Mô phỏng hội thoại: Hệ thống mô phỏng một cuộc hội thoại hoàn chỉnh cho mỗi kịch bản, trong đó chatbot được đánh giá sẽ tương tác với một "người dùng mô phỏng".
LLM Evaluator: Cuộc hội thoại được tạo ra sau đó được đưa vào một AI (như GPT-4) để đánh giá. AI này được cung cấp một bộ hướng dẫn cụ thể để đánh giá chất lượng cuộc hội thoại.

Cách thức hoạt động: Kỹ thuật Prompt và các chỉ số đo lường

Giải pháp có hiệu quả hay không phụ thuộc rất nhiều vào prompt — tức là tạo ra một bộ hướng dẫn hoàn hảo cho AI. Prompt của Instacart yêu cầu LLM đóng vai một "chuyên gia đảm bảo chất lượng công bằng và khách quan" và cung cấp cho nó:

Bối cảnh: Toàn bộ lịch sử cuộc trò chuyện và vấn đề ban đầu của khách hàng.
Bảng tiêu chí rõ ràng (Rubric): Một danh sách chi tiết các chỉ số để chấm điểm chatbot.
Định dạng đầu ra có cấu trúc: Hướng dẫn để trả về kết quả đánh giá dưới dạng JSON có cấu trúc, giúp việc phân tích và xử lý tự động trở nên dễ dàng.

3/ Các chỉ số đánh giá chính

AI sẽ chấm điểm hiệu suất của chatbot trên thang điểm 1-5 cho một số tiêu chí:

Tính chính xác (Correctness): (Đạt/Không đạt) Chatbot có cung cấp thông tin đúng sự thật không?
Tính đầy đủ (Completeness): Chatbot có giải quyết tất cả các khía cạnh trong câu hỏi của người dùng không?
Tính an toàn (Safety): Chatbot có tránh nội dung độc hại, không an toàn hoặc không phù hợp không?
Sự thân thiện (Friendliness): Giọng điệu có mang tính trò chuyện, đồng cảm và phù hợp với dịch vụ khách hàng không?
Sự rõ ràng và ngắn gọn (Clarity and Conciseness): Phản hồi có dễ hiểu và không quá dài dòng không?
Khả năng hành động (Actionability): Phản hồi có cung cấp các bước tiếp theo rõ ràng cho người dùng không?
Điểm tổng thể (Overall Score): Một điểm số tổng hợp đại diện cho chất lượng chung.

Đối với mỗi điểm số, AI cũng tạo ra một giải thích chi tiết, tại sao nó lại đưa ra điểm số đó. Điều này cực kỳ quan trọng để Instacart hiểu được phản hồi và thực hiện các cải tiến có mục tiêu.

4/ Kết quả: Một chu trình phát triển được chuyển đổi hoàn toàn

Việc triển khai hệ thống đánh giá dựa trên LLM này đã mang lại những lợi ích đáng kể:

Tăng tốc độ vượt bậc: Thời gian đánh giá giảm từ vài ngày hoặc vài tuần xuống chỉ còn vài giờ.
Tương quan cao với đánh giá của con người: Họ nhận thấy một sự tương quan rất cao giữa điểm số của AI và điểm số của các chuyên gia, xác thực độ chính xác của hệ thống. Đáng chú ý, GPT-4 hoạt động tốt hơn đáng kể so với GPT-3.5 về mặt này.
Khả năng mở rộng: Giờ đây, họ có thể tự động chạy đánh giá trên hàng nghìn kịch bản, phát hiện lỗi và sự suy giảm hiệu suất trước khi chúng đến tay người dùng cuối.
Cải thiện năng suất của dev: Dev được giải phóng khỏi công việc đánh giá thủ công tẻ nhạt và có thể tập trung vào việc xây dựng các tính năng mới và cải thiện logic cốt lõi của chatbot.
Sản phẩm chất lượng cao hơn: Khả năng kiểm thử kỹ lưỡng hơn và lặp lại nhanh hơn dẫn đến một chatbot đáng tin cậy và hữu ích hơn cho khách hàng của Instacart.

5/ Insight và bài học rút ra

LLM không chỉ dành cho sản phẩm, mà còn cho quy trình (MLOps): không phải lúc nào cũng là đưa nó ra cho người dùng cuối. Trường hợp này, Instacart đã dùng AI (GPT-4) để cải thiện quy trình phát triển một sản phẩm AI khác (chatbot). Đây là một ứng dụng "meta" (siêu ứng dụng) cực kỳ thông minh. Nó giải quyết nút thắt cổ chai lớn nhất trong vòng đời phát triển: đánh giá và kiểm thử.
Việc đánh giá chất lượng (quality assurance - QA) của các mô hình ngôn ngữ thường rất mơ hồ và tốn kém. Instacart đã hệ thống hóa sự mơ hồ đó bằng cách Định nghĩa rõ ràng. Chia "chất lượng" thành các tiêu chí cụ thể. Và giao cho AI việc chấm điểm theo các tiêu chí này.
Sức mạnh của Prompt và "Dữ liệu có cấu trúc": Hệ thống này sẽ không hoạt động nếu chỉ đơn giản hỏi GPT-4: "Cuộc trò chuyện này có tốt không?". Chìa khóa thành công nằm ở việc sử dụng prompt hiệu quả: cung cấp vai trò, bối cảnh, bảng tiêu chí chi tiết và yêu cầu đầu ra ở định dạng AI có thể đọc được (JSON).
"Con người vẫn ở trung tâm" (Human-in-the-loop) là chìa khóa để xây dựng lòng tin: Instacart không mù quáng tin tưởng vào AI. Họ đã thực hiện một bước quan trọng là xác thực kết quả của AI so với các chuyên gia con người. Việc nhận thấy sự tương quan cao đã cho họ sự tự tin để tự động hóa quy trình.
Cuối cùng, Tốc độ là lợi thế cạnh tranh.

Việc giảm thời gian đánh giá từ "vài tuần" xuống "vài giờ" không chỉ là một cải tiến kỹ thuật. Nó là một lợi thế kinh doanh khổng lồ. Nó cho phép đội ngũ Instacart:

- Thử nghiệm nhiều ý tưởng hơn.
- Phát hành các bản cập nhật nhanh hơn.
- Sửa lỗi nhanh hơn.
- Nâng cao chất lượng sản phẩm nhanh hơn đối thủ.

#Instacart #AIChatbot #LLM #MLOps #DịchVụKháchHàng #ĐánhGiáAI #CôngNghệAI #CaseStudy #NăngSuất

Nguồn: Sưu tầm

Công cụ AI

Xem tất cả