Các doanh nghiệp APAC di chuyển hạ tầng AI ra biên khi chi phí suy luận tăng

Tin tức AI - 24/11/2025 19:00:00

Lợi tức đầu tư AI (ROI) ở APAC giảm sút vì suy luận trên hạ tầng tập trung tốn kém. Việc di chuyển suy luận đến gần người dùng hơn giúp giảm độ trễ và chi phí.

Chi tiêu cho AI ở khu vực Châu Á – Thái Bình Dương tiếp tục tăng, nhưng nhiều công ty vẫn gặp khó khăn trong việc thu được giá trị từ các dự án AI của họ. Phần lớn điều này là do hạ tầng hỗ trợ AI, vì hầu hết các hệ thống không được xây dựng để chạy suy luận với tốc độ hoặc quy mô mà các ứng dụng thực tế yêu cầu. Các nghiên cứu trong ngành chỉ ra rằng nhiều dự án không đạt được mục tiêu ROI ngay cả sau khi đầu tư lớn vào các công cụ GenAI do vấn đề này.

Khoảng cách này cho thấy mức độ ảnh hưởng của hạ tầng AI đến hiệu suất, chi phí và khả năng mở rộng các triển khai thực tế trong khu vực.

Akamai đang cố gắng giải quyết thách thức này với Inference Cloud, được xây dựng cùng NVIDIA và được cung cấp sức mạnh bởi các GPU Blackwell mới nhất. Ý tưởng rất đơn giản: nếu hầu hết các ứng dụng AI cần đưa ra quyết định trong thời gian thực, thì những quyết định đó nên được thực hiện gần người dùng hơn là ở các trung tâm dữ liệu xa xôi. Akamai tuyên bố, sự thay đổi đó có thể giúp các công ty quản lý chi phí, giảm độ trễ và hỗ trợ các dịch vụ AI phụ thuộc vào phản ứng trong tích tắc.

Jay Jenkins, CTO của Cloud Computing tại Akamai, đã giải thích với AI News lý do tại sao thời điểm này đang buộc các doanh nghiệp phải suy nghĩ lại về cách họ triển khai AI và tại sao suy luận, chứ không phải đào tạo, đã trở thành nút thắt cổ chai thực sự.

Tại sao các dự án AI gặp khó khăn nếu không có hạ tầng phù hợp

Jenkins nói rằng khoảng cách giữa thử nghiệm và triển khai quy mô đầy đủ rộng hơn nhiều so với những gì nhiều tổ chức mong đợi. Ông nói: “Nhiều sáng kiến AI không mang lại giá trị kinh doanh như mong đợi vì các doanh nghiệp thường đánh giá thấp khoảng cách giữa thử nghiệm và sản xuất”. Ngay cả khi có sự quan tâm lớn đến GenAI, các khoản chi phí hạ tầng lớn, độ trễ cao và khó khăn trong việc chạy mô hình ở quy mô lớn thường cản trở tiến độ.

Hầu hết các công ty vẫn dựa vào đám mây tập trung và các cụm GPU lớn. Nhưng khi việc sử dụng tăng lên, các thiết lập này trở nên quá tốn kém, đặc biệt ở các khu vực xa các trung tâm đám mây lớn. Độ trễ cũng trở thành một vấn đề lớn khi các mô hình phải chạy nhiều bước suy luận trên khoảng cách dài. Jenkins nói: “AI chỉ mạnh mẽ bằng hạ tầng và kiến trúc mà nó chạy trên đó”, đồng thời thêm rằng độ trễ thường làm suy yếu trải nghiệm người dùng và giá trị mà doanh nghiệp hy vọng mang lại. Ông cũng chỉ ra các thiết lập đa đám mây, các quy tắc dữ liệu phức tạp và nhu cầu tuân thủ ngày càng tăng là những trở ngại phổ biến làm chậm quá trình chuyển từ các dự án thử nghiệm sang sản xuất.

Tại sao suy luận giờ đây đòi hỏi nhiều sự chú ý hơn so với đào tạo

Trên khắp Châu Á – Thái Bình Dương, việc áp dụng AI đang chuyển từ các dự án thử nghiệm nhỏ sang triển khai thực tế trong các ứng dụng và dịch vụ. Jenkins lưu ý rằng khi điều này xảy ra, suy luận hàng ngày – chứ không phải chu kỳ đào tạo không thường xuyên – mới là thứ tiêu tốn hầu hết sức mạnh tính toán. Với việc nhiều tổ chức đang triển khai các mô hình ngôn ngữ, thị giác và đa phương thức ở nhiều thị trường, nhu cầu về suy luận nhanh và đáng tin cậy đang tăng nhanh hơn dự kiến. Đây là lý do tại sao suy luận đã trở thành yếu tố hạn chế chính trong khu vực. Các mô hình giờ đây cần hoạt động trong các ngôn ngữ, quy định và môi trường dữ liệu khác nhau, thường là trong thời gian thực. Điều đó tạo áp lực rất lớn lên các hệ thống tập trung vốn không được thiết kế cho mức độ phản hồi này.

Làm thế nào hạ tầng biên cải thiện hiệu suất và chi phí AI

Jenkins nói rằng việc di chuyển suy luận đến gần người dùng, thiết bị hoặc tác nhân có thể định hình lại phương trình chi phí. Làm như vậy rút ngắn khoảng cách mà dữ liệu phải di chuyển và cho phép các mô hình phản ứng nhanh hơn. Nó cũng tránh được chi phí định tuyến khối lượng dữ liệu khổng lồ giữa các trung tâm đám mây lớn.

Các hệ thống AI vật lý – robot, máy móc tự hành hoặc công cụ thành phố thông minh – phụ thuộc vào các quyết định được đưa ra trong mili giây. Khi suy luận chạy từ xa, các hệ thống này không hoạt động như mong đợi.

Việc tiết kiệm từ các triển khai cục bộ hơn cũng có thể đáng kể. Jenkins cho biết phân tích của Akamai cho thấy các doanh nghiệp ở Ấn Độ và Việt Nam giảm đáng kể chi phí chạy các mô hình tạo ảnh khi khối lượng công việc được đặt ở biên, thay vì các đám mây tập trung. Việc sử dụng GPU tốt hơn và phí thoát dữ liệu thấp hơn đóng vai trò quan trọng trong những khoản tiết kiệm đó.

Nơi AI dựa trên biên đang thu hút sự chú ý

Nhu cầu ban đầu đối với suy luận biên mạnh nhất từ các ngành công nghiệp mà ngay cả những sự chậm trễ nhỏ cũng có thể ảnh hưởng đến doanh thu, an toàn hoặc mức độ tương tác của người dùng. Bán lẻ và thương mại điện tử là những người áp dụng sớm nhất vì người mua sắm thường từ bỏ những trải nghiệm chậm chạp. Các đề xuất được cá nhân hóa, tìm kiếm và công cụ mua sắm đa phương thức đều hoạt động tốt hơn khi suy luận được cục bộ và nhanh chóng.

Tài chính là một lĩnh vực khác mà độ trễ ảnh hưởng trực tiếp đến giá trị. Jenkins nói rằng các khối lượng công việc như kiểm tra gian lận, phê duyệt thanh toán và tính điểm giao dịch đều dựa vào chuỗi các quyết định AI nên diễn ra trong mili giây. Việc chạy suy luận gần nơi dữ liệu được tạo ra giúp các công ty tài chính di chuyển nhanh hơn và giữ dữ liệu trong phạm vi quy định.

Tại sao quan hệ đối tác đám mây và GPU giờ đây quan trọng hơn

Khi khối lượng công việc AI tăng lên, các công ty cần hạ tầng có thể đáp ứng. Jenkins nói rằng điều này đã thúc đẩy các nhà cung cấp đám mây và nhà sản xuất GPU hợp tác chặt chẽ hơn. Công việc của Akamai với NVIDIA là một ví dụ, với GPU, DPU và phần mềm AI được triển khai ở hàng nghìn địa điểm biên.

Ý tưởng là xây dựng một “mạng lưới phân phối AI” trải rộng suy luận trên nhiều địa điểm thay vì tập trung mọi thứ vào một vài khu vực. Điều này giúp cải thiện hiệu suất, nhưng nó cũng hỗ trợ tuân thủ. Jenkins lưu ý rằng gần một nửa số tổ chức lớn ở APAC gặp khó khăn với các quy tắc dữ liệu khác nhau giữa các thị trường, điều này làm cho việc xử lý cục bộ trở nên quan trọng hơn. Các quan hệ đối tác mới nổi hiện đang định hình giai đoạn tiếp theo của hạ tầng AI trong khu vực, đặc biệt đối với các khối lượng công việc phụ thuộc vào phản hồi độ trễ thấp.

Jenkins nói, bảo mật được tích hợp vào các hệ thống này ngay từ đầu. Kiểm soát Zero-trust, định tuyến nhận biết dữ liệu và các biện pháp bảo vệ chống gian lận và bot đang trở thành các phần tiêu chuẩn của các ngăn xếp công nghệ được cung cấp.

Hạ tầng cần thiết để hỗ trợ AI tác nhân và tự động hóa

Chạy các hệ thống tác nhân – những hệ thống đưa ra nhiều quyết định theo trình tự – cần hạ tầng có thể hoạt động ở tốc độ mili giây. Jenkins tin rằng sự đa dạng của khu vực khiến điều này khó khăn hơn nhưng không phải là không thể. Các quốc gia khác nhau rất nhiều về khả năng kết nối, quy tắc và sự sẵn sàng về kỹ thuật, vì vậy khối lượng công việc AI phải đủ linh hoạt để chạy ở nơi hợp lý nhất. Ông chỉ ra nghiên cứu cho thấy hầu hết các doanh nghiệp trong khu vực đã sử dụng đám mây công cộng trong sản xuất, nhưng nhiều người mong đợi sẽ dựa vào các dịch vụ biên vào năm 2027. Sự thay đổi đó sẽ đòi hỏi hạ tầng có thể giữ dữ liệu trong nước, định tuyến các tác vụ đến vị trí phù hợp gần nhất và tiếp tục hoạt động khi mạng không ổn định.

Những gì các công ty cần chuẩn bị cho tương lai

Khi suy luận chuyển sang biên, các công ty sẽ cần những cách thức mới để quản lý hoạt động. Jenkins nói rằng các tổ chức nên mong đợi một vòng đời AI phân tán hơn, nơi các mô hình được cập nhật trên nhiều địa điểm. Điều này đòi hỏi sự điều phối tốt hơn và khả năng hiển thị mạnh mẽ về hiệu suất, chi phí và lỗi trong các hệ thống lõi và biên.

Quản trị dữ liệu trở nên phức tạp hơn nhưng cũng dễ quản lý hơn khi việc xử lý vẫn ở cục bộ. Một nửa số doanh nghiệp lớn trong khu vực đã gặp khó khăn với sự khác biệt trong các quy định, vì vậy việc đặt suy luận gần nơi dữ liệu được tạo ra có thể giúp ích.

Bảo mật cũng cần được chú ý nhiều hơn. Mặc dù việc trải rộng suy luận ra biên có thể cải thiện khả năng phục hồi, nhưng nó cũng có nghĩa là mọi địa điểm phải được bảo mật. Các công ty cần bảo vệ API, đường ống dữ liệu và chống lại gian lận hoặc các cuộc tấn công bot. Jenkins lưu ý rằng nhiều tổ chức tài chính đã dựa vào các biện pháp kiểm soát của Akamai trong các lĩnh vực này.

Nguồn: artificialintelligence-news.com