AI đa phương thức ERNIE của Baidu vượt trội hơn GPT và Gemini trong các điểm chuẩn

Tin tức AI - 12/11/2025 23:09:44

Mô hình ERNIE mới nhất của Baidu, một AI đa phương thức siêu hiệu quả, đang vượt qua GPT và Gemini trên một số điểm chuẩn quan trọng.

Mô hình ERNIE mới nhất của Baidu, một AI đa phương thức siêu hiệu quả, đang vượt qua GPT và Gemini trên các điểm chuẩn quan trọng và nhắm mục tiêu vào dữ liệu doanh nghiệp thường bị bỏ qua bởi các mô hình chỉ tập trung vào văn bản.

Đối với nhiều doanh nghiệp, những hiểu biết giá trị bị khóa trong các sơ đồ kỹ thuật, nguồn cấp dữ liệu video từ nhà máy, hình ảnh quét y tế và bảng điều khiển hậu cần. Mô hình mới của Baidu, ERNIE-4.5-VL-28B-A3B-Thinking, được thiết kế để lấp đầy khoảng trống này.

Điều thú vị đối với các kiến trúc sư doanh nghiệp không chỉ là khả năng đa phương thức của nó mà còn là kiến trúc của nó. Nó được mô tả là một mô hình “nhẹ”, chỉ kích hoạt ba tỷ tham số trong quá trình hoạt động. Cách tiếp cận này nhắm đến chi phí suy luận cao thường làm đình trệ các dự án mở rộng AI. Baidu đang đặt cược vào hiệu quả như một con đường để được chấp nhận, đào tạo hệ thống này làm nền tảng cho các “tác nhân đa phương thức” có thể suy luận và hành động, chứ không chỉ nhận thức.

Khả năng phân tích dữ liệu hình ảnh phức tạp được hỗ trợ bởi các điểm chuẩn AI

Mô hình AI đa phương thức ERNIE của Baidu vượt trội trong việc xử lý dữ liệu dày đặc, không phải văn bản. Ví dụ, nó có thể diễn giải biểu đồ “Peak Time Reminder” để tìm giờ thăm quan tối ưu, một nhiệm vụ phản ánh những thách thức về lập kế hoạch tài nguyên trong logistics hoặc bán lẻ.

ERNIE 4.5 cũng cho thấy khả năng trong các lĩnh vực kỹ thuật, như giải một sơ đồ mạch cầu bằng cách áp dụng định luật Ohm và Kirchhoff. Đối với các bộ phận R&D và kỹ thuật, một trợ lý tương lai có thể xác thực thiết kế hoặc giải thích các sơ đồ phức tạp cho nhân viên mới.

Khả năng này được hỗ trợ bởi các điểm chuẩn của Baidu, cho thấy ERNIE-4.5-VL-28B-A3B-Thinking vượt trội hơn các đối thủ cạnh tranh như GPT-5-High và Gemini 2.5 Pro trong một số thử nghiệm quan trọng:

  • MathVista: ERNIE (82.5) so với Gemini (82.3) và GPT (81.3)
  • ChartQA: ERNIE (87.1) so với Gemini (76.3) và GPT (78.2)
  • VLMs Are Blind: ERNIE (77.3) so với Gemini (76.5) và GPT (69.6)

Đương nhiên, cần lưu ý rằng các điểm chuẩn AI chỉ là một hướng dẫn nhưng có thể có sai sót. Luôn thực hiện các thử nghiệm nội bộ phù hợp với nhu cầu của bạn trước khi triển khai bất kỳ mô hình AI nào cho các ứng dụng quan trọng.

Baidu chuyển từ nhận thức sang tự động hóa với mô hình AI ERNIE mới nhất của mình

Trở ngại chính đối với AI doanh nghiệp là chuyển từ nhận thức (“đây là gì?”) sang tự động hóa (“bây giờ thì sao?”). ERNIE 4.5 tuyên bố giải quyết vấn đề này bằng cách tích hợp nhận diện hình ảnh với khả năng sử dụng công cụ.

Yêu cầu AI đa phương thức tìm tất cả những người mặc vest trong một hình ảnh và trả về tọa độ của họ dưới định dạng JSON là có thể thực hiện được. Mô hình tạo ra dữ liệu có cấu trúc, một chức năng dễ dàng chuyển giao cho dây chuyền sản xuất để kiểm tra trực quan hoặc cho một hệ thống kiểm tra hình ảnh tại chỗ để tuân thủ các quy định an toàn.

Mô hình cũng quản lý các công cụ bên ngoài và có thể tự động phóng to một bức ảnh để đọc văn bản nhỏ. Nếu gặp một vật thể không xác định, nó có thể kích hoạt tìm kiếm hình ảnh để xác định. Điều này đại diện cho một dạng AI ít thụ động hơn, có thể cung cấp năng lượng cho một tác nhân không chỉ gắn cờ lỗi trung tâm dữ liệu mà còn phóng to mã, tìm kiếm cơ sở kiến thức nội bộ và đề xuất cách khắc phục.

Khai thác trí tuệ kinh doanh với AI đa phương thức

Mô hình AI ERNIE mới nhất của Baidu cũng nhắm mục tiêu vào các kho lưu trữ video của công ty, từ các buổi đào tạo và họp cho đến cảnh quay an ninh. Nó có thể trích xuất tất cả phụ đề trên màn hình và ánh xạ chúng đến các dấu thời gian chính xác.

Nó cũng thể hiện nhận thức về thời gian, tìm kiếm các cảnh cụ thể (như những cảnh “quay trên cầu”) bằng cách phân tích các tín hiệu hình ảnh. Mục tiêu cuối cùng rõ ràng là làm cho các thư viện video khổng lồ có thể tìm kiếm được, cho phép nhân viên tìm thấy chính xác thời điểm một chủ đề cụ thể được thảo luận trong một hội thảo trực tuyến kéo dài hai giờ mà họ có thể đã lơ đãng vài lần.

Baidu cung cấp hướng dẫn triển khai cho nhiều cách tiếp cận, bao gồm transformers, vLLM và FastDeploy. Tuy nhiên, yêu cầu về phần cứng là một rào cản lớn. Một triển khai một thẻ cần 80GB bộ nhớ GPU. Đây không phải là công cụ để thử nghiệm thông thường, mà là dành cho các tổ chức có cơ sở hạ tầng AI hiện có và hiệu suất cao.

Đối với những người có phần cứng, bộ công cụ ERNIEKit của Baidu cho phép tinh chỉnh trên dữ liệu độc quyền; một điều cần thiết cho hầu hết các trường hợp sử dụng giá trị cao. Baidu đang cung cấp mô hình AI ERNIE mới nhất của mình với giấy phép Apache 2.0 cho phép sử dụng thương mại, điều này rất cần thiết cho việc áp dụng.

Thị trường cuối cùng đang chuyển dịch sang AI đa phương thức có thể nhìn, đọc và hành động trong một bối cảnh kinh doanh cụ thể, và các điểm chuẩn cho thấy nó đang làm được điều đó với khả năng ấn tượng. Nhiệm vụ trước mắt là xác định các công việc suy luận hình ảnh có giá trị cao trong hoạt động của riêng bạn và cân nhắc chúng với chi phí phần cứng và quản trị đáng kể.

Tin tức AI

Xem tất cả