Điều gì xảy ra khi các trung tâm dữ liệu AI hết không gian? Giải pháp mới của NVIDIA được giải thích

Tin tức AI - 25/08/2025 16:00:00

Công nghệ Spectrum-XGS mới của NVIDIA hứa hẹn kết nối các trung tâm dữ liệu AI trên khắp các lục địa. Nhưng liệu nó có thực sự giải quyết được vấn đề không gian?

Khi các trung tâm dữ liệu AI hết không gian, chúng phải đối mặt với một tình thế tiến thoái lưỡng nan tốn kém: xây dựng các cơ sở lớn hơn hoặc tìm cách để nhiều địa điểm có thể hoạt động cùng nhau một cách liền mạch. Công nghệ Ethernet Spectrum-XGS mới nhất của NVIDIA hứa hẹn giải quyết thách thức này bằng cách kết nối các trung tâm dữ liệu AI trên những khoảng cách rộng lớn thành cái mà công ty gọi là “siêu nhà máy AI quy mô giga.” 

Được công bố trước sự kiện Hot Chips 2025, đổi mới mạng này thể hiện câu trả lời của công ty cho một vấn đề ngày càng lớn, buộc ngành AI phải suy nghĩ lại về cách phân phối sức mạnh tính toán.

Vấn đề: Khi một tòa nhà không đủ

Khi các mô hình trí tuệ nhân tạo ngày càng trở nên tinh vi và đòi hỏi cao, chúng cần một sức mạnh tính toán khổng lồ mà thường vượt quá khả năng của bất kỳ một cơ sở nào. Các trung tâm dữ liệu AI truyền thống phải đối mặt với những hạn chế về dung lượng điện, không gian vật lý và khả năng làm mát. 

Khi các công ty cần thêm sức mạnh xử lý, họ thường phải xây dựng các cơ sở hoàn toàn mới — nhưng việc phối hợp công việc giữa các địa điểm riêng biệt đã gặp vấn đề do những hạn chế về mạng. Vấn đề nằm ở cơ sở hạ tầng Ethernet tiêu chuẩn, vốn gặp phải độ trễ cao, biến động hiệu suất không thể đoán trước (gọi là “jitter”), và tốc độ truyền dữ liệu không nhất quán khi kết nối các địa điểm xa. 

Những vấn đề này khiến các hệ thống AI khó phân phối hiệu quả các phép tính phức tạp qua nhiều địa điểm.

Giải pháp của NVIDIA: Công nghệ Scale-across

Ethernet Spectrum-XGS giới thiệu khả năng mà NVIDIA gọi là “scale-across” — một cách tiếp cận thứ ba đối với điện toán AI, bổ sung cho các chiến lược “scale-up” (làm cho các bộ xử lý riêng lẻ mạnh hơn) và “scale-out” (thêm nhiều bộ xử lý trong cùng một vị trí) hiện có.

Công nghệ này tích hợp vào nền tảng Ethernet Spectrum-X hiện có của NVIDIA và bao gồm một số đổi mới quan trọng:

  • Các thuật toán thích ứng với khoảng cách tự động điều chỉnh hành vi mạng dựa trên khoảng cách vật lý giữa các cơ sở
  • Kiểm soát tắc nghẽn nâng cao ngăn chặn tình trạng nghẽn dữ liệu trong quá trình truyền dẫn đường dài
  • Quản lý độ trễ chính xác để đảm bảo thời gian phản hồi có thể dự đoán được
  • Đo từ xa đầu cuối để giám sát và tối ưu hóa mạng theo thời gian thực

Theo thông báo của NVIDIA, những cải tiến này có thể “gần như tăng gấp đôi hiệu suất của Thư viện Giao tiếp Tập thể NVIDIA,” vốn xử lý việc giao tiếp giữa nhiều đơn vị xử lý đồ họa (GPU) và các nút tính toán.

Triển khai thực tế

CoreWeave, một công ty cơ sở hạ tầng đám mây chuyên về điện toán tăng tốc GPU, dự kiến sẽ là một trong những đơn vị đầu tiên áp dụng Ethernet Spectrum-XGS. 

“Với NVIDIA Spectrum-XGS, chúng tôi có thể kết nối các trung tâm dữ liệu của mình thành một siêu máy tính đơn lẻ, thống nhất, mang đến cho khách hàng của chúng tôi quyền truy cập vào AI quy mô giga sẽ thúc đẩy các đột phá trong mọi ngành công nghiệp,” Peter Salanki, đồng sáng lập và giám đốc công nghệ của CoreWeave, cho biết.

Việc triển khai này sẽ đóng vai trò là một trường hợp thử nghiệm thực tế xem liệu công nghệ có thể thực hiện lời hứa của mình trong điều kiện thực tế hay không.

Bối cảnh và ý nghĩa ngành

Thông báo này tiếp nối một loạt các bản phát hành tập trung vào mạng từ NVIDIA, bao gồm nền tảng Spectrum-X gốc và các bộ chuyển mạch quang tử silicon Quantum-X. Mô hình này cho thấy công ty nhận ra cơ sở hạ tầng mạng là một nút thắt cổ chai quan trọng trong phát triển AI.

“Cuộc cách mạng công nghiệp AI đã đến, và các nhà máy AI quy mô khổng lồ là cơ sở hạ tầng thiết yếu,” Jensen Huang, người sáng lập và CEO của NVIDIA, cho biết trong thông cáo báo chí. Mặc dù cách diễn đạt của Huang phản ánh góc độ tiếp thị của NVIDIA, thách thức cơ bản mà ông mô tả — nhu cầu về dung lượng tính toán lớn hơn — được công nhận trong toàn ngành AI.

Công nghệ này có khả năng tác động đến cách các trung tâm dữ liệu AI được lập kế hoạch và vận hành. Thay vì xây dựng các cơ sở đơn lẻ khổng lồ gây áp lực lên lưới điện địa phương và thị trường bất động sản, các công ty có thể phân phối cơ sở hạ tầng của họ trên nhiều địa điểm nhỏ hơn trong khi vẫn duy trì mức hiệu suất.

Các cân nhắc kỹ thuật và hạn chế

Tuy nhiên, một số yếu tố có thể ảnh hưởng đến hiệu quả thực tế của Ethernet Spectrum-XGS. Hiệu suất mạng trên khoảng cách xa vẫn bị giới hạn bởi các ràng buộc vật lý, bao gồm tốc độ ánh sáng và chất lượng của cơ sở hạ tầng internet cơ bản giữa các địa điểm. Sự thành công của công nghệ sẽ phần lớn phụ thuộc vào khả năng hoạt động tốt của nó trong những ràng buộc này.

Ngoài ra, sự phức tạp của việc quản lý các trung tâm dữ liệu AI phân tán không chỉ dừng lại ở mạng mà còn bao gồm đồng bộ hóa dữ liệu, khả năng chịu lỗi và tuân thủ quy định trên các khu vực pháp lý khác nhau — những thách thức mà chỉ riêng cải tiến mạng không thể giải quyết được.

Khả năng sẵn có và tác động thị trường

NVIDIA tuyên bố rằng Ethernet Spectrum-XGS “đã có sẵn” như một phần của nền tảng Spectrum-X, mặc dù giá cả và lịch trình triển khai cụ thể chưa được tiết lộ. Tỷ lệ chấp nhận công nghệ này có thể sẽ phụ thuộc vào hiệu quả chi phí so với các cách tiếp cận thay thế, chẳng hạn như xây dựng các cơ sở đơn lẻ lớn hơn hoặc sử dụng các giải pháp mạng hiện có.

Điểm mấu chốt đối với người tiêu dùng và doanh nghiệp là: nếu công nghệ của NVIDIA hoạt động như đã hứa, chúng ta có thể thấy các dịch vụ AI nhanh hơn, các ứng dụng mạnh mẽ hơn và có khả năng chi phí thấp hơn khi các công ty đạt được hiệu quả thông qua điện toán phân tán. Tuy nhiên, nếu công nghệ không thực hiện được trong điều kiện thực tế, các công ty AI sẽ tiếp tục đối mặt với sự lựa chọn đắt đỏ giữa việc xây dựng các cơ sở đơn lẻ ngày càng lớn hoặc chấp nhận sự thỏa hiệp về hiệu suất.

Việc triển khai sắp tới của CoreWeave sẽ đóng vai trò là thử nghiệm quan trọng đầu tiên về việc liệu việc kết nối các trung tâm dữ liệu AI trên khoảng cách xa có thực sự hoạt động ở quy mô lớn hay không. Kết quả có thể sẽ xác định liệu các công ty khác có làm theo hay vẫn giữ các cách tiếp cận truyền thống. Hiện tại, NVIDIA đã trình bày một tầm nhìn đầy tham vọng — nhưng ngành AI vẫn đang chờ xem liệu thực tế có đáp ứng lời hứa hay không.

Nguồn: Sưu tầm

Tin tức AI

Xem tất cả