Liệu bộ định tuyến trung tâm dữ liệu AI mới của Cisco có thể giải quyết nút thắt hạ tầng lớn nhất của ngành?

Tin tức AI - 09/10/2025 16:00:00

Bộ định tuyến AI 8223 mới của Cisco giải quyết vấn đề mở rộng quy mô đa trung tâm khi các trung tâm dữ liệu đạt giới hạn dung lượng. Nó so sánh thế nào với các giải pháp của Broadcom và Nvidia?

Cisco đã tham gia vào một cuộc đua ngày càng cạnh tranh để thống trị công nghệ kết nối liên trung tâm dữ liệu AI, trở thành nhà cung cấp lớn mới nhất ra mắt phần cứng định tuyến chuyên dụng để kết nối các khối lượng công việc AI phân tán trên nhiều cơ sở.

Ông lớn về mạng đã ra mắt hệ thống định tuyến 8223 vào ngày 8 tháng 10, giới thiệu cái mà họ tuyên bố là bộ định tuyến cố định 51.2 terabit mỗi giây đầu tiên trong ngành được thiết kế đặc biệt để liên kết các trung tâm dữ liệu chạy khối lượng công việc AI.

Nằm ở trung tâm của nó là chip Silicon One P200 mới, đại diện cho câu trả lời của Cisco đối với một thách thức ngày càng hạn chế ngành AI: điều gì sẽ xảy ra khi bạn hết không gian để phát triển.

Cuộc chiến ba bên giành quyền tối cao về mở rộng quy mô đa trung tâm?

Để dễ hình dung, Cisco không đơn độc trong việc nhận ra cơ hội này. Broadcom đã khai hỏa đầu tiên vào giữa tháng 8 với chip chuyển mạch/bộ định tuyến StrataDNX "Jericho 4" của mình, đã bắt đầu được thử nghiệm và cũng cung cấp băng thông tổng hợp 51.2 Tb/giây được hỗ trợ bởi bộ nhớ HBM để đệm gói sâu nhằm quản lý tắc nghẽn.

Hai tuần sau thông báo của Broadcom, Nvidia đã ra mắt mạng mở rộng quy mô đa trung tâm Spectrum-XGS—một cái tên khá "ngông" khi các chip ASIC chuyển mạch "Trident" và "Tomahawk" của Broadcom thuộc dòng StrataXGS.

Nvidia đã giành được CoreWeave làm khách hàng chủ chốt nhưng cung cấp ít chi tiết kỹ thuật về các chip ASIC Spectrum-XGS. Giờ đây, Cisco đang tung ra các thành phần của riêng mình cho thị trường mạng mở rộng quy mô đa trung tâm, thiết lập một cuộc cạnh tranh ba bên giữa các ông lớn về mạng.

Vấn đề: AI quá lớn để gói gọn trong một tòa nhà

Để hiểu tại sao nhiều nhà cung cấp đang đổ xô vào lĩnh vực này, hãy xem xét quy mô của hạ tầng AI hiện đại. Đào tạo các mô hình ngôn ngữ lớn hoặc vận hành các hệ thống AI phức tạp đòi hỏi hàng nghìn bộ xử lý hiệu năng cao làm việc đồng bộ, tạo ra lượng nhiệt khổng lồ và tiêu thụ lượng điện năng lớn.

Các trung tâm dữ liệu đang đạt đến giới hạn khắc nghiệt — không chỉ về không gian có sẵn, mà còn về lượng điện năng họ có thể cung cấp và làm mát.

"Tính toán AI đang vượt quá dung lượng của ngay cả trung tâm dữ liệu lớn nhất, thúc đẩy nhu cầu kết nối đáng tin cậy, an toàn giữa các trung tâm dữ liệu cách xa hàng trăm dặm," ông Martin Lund, Phó Chủ tịch điều hành của Nhóm phần cứng chung của Cisco, cho biết.

Ngành công nghiệp truyền thống đã giải quyết các thách thức về dung lượng thông qua hai cách tiếp cận: mở rộng theo chiều dọc (thêm nhiều khả năng cho các hệ thống riêng lẻ) hoặc mở rộng theo chiều ngang (kết nối nhiều hệ thống hơn trong cùng một cơ sở).

Nhưng cả hai chiến lược đều đang đạt đến giới hạn của chúng. Các trung tâm dữ liệu đang cạn kiệt không gian vật lý, lưới điện không thể cung cấp đủ điện, và hệ thống làm mát không thể tản nhiệt đủ nhanh.

Điều này buộc phải có một cách tiếp cận thứ ba: "mở rộng quy mô đa trung tâm", phân tán khối lượng công việc AI trên nhiều trung tâm dữ liệu có thể ở các thành phố hoặc thậm chí các bang khác nhau. Tuy nhiên, điều này tạo ra một vấn đề mới — các kết nối giữa các cơ sở này trở thành những nút thắt cổ chai quan trọng.

Tại sao bộ định tuyến truyền thống còn hạn chế

Khối lượng công việc AI hoạt động khác với lưu lượng truy cập trung tâm dữ liệu thông thường. Các đợt đào tạo tạo ra các mẫu lưu lượng truy cập lớn, đột biến — những khoảng thời gian di chuyển dữ liệu cường độ cao sau đó là sự yên tĩnh tương đối. Nếu mạng kết nối các trung tâm dữ liệu không thể hấp thụ những đợt tăng đột biến này, mọi thứ sẽ chậm lại, lãng phí tài nguyên tính toán đắt đỏ và quan trọng hơn là thời gian và tiền bạc.

Thiết bị định tuyến truyền thống không được thiết kế cho mục đích này. Hầu hết các bộ định tuyến ưu tiên tốc độ thô hoặc quản lý lưu lượng phức tạp, nhưng lại khó khăn trong việc cung cấp cả hai cùng lúc trong khi vẫn duy trì mức tiêu thụ điện năng hợp lý. Đối với các ứng dụng kết nối liên trung tâm dữ liệu AI, các tổ chức cần cả ba: tốc độ, bộ đệm thông minh và hiệu quả.

Giải pháp của Cisco: Hệ thống 8223

Hệ thống 8223 của Cisco đánh dấu sự khác biệt so với thiết bị định tuyến đa năng. Được đặt trong một khung gầm nhỏ gọn ba đơn vị rack, nó cung cấp 64 cổng kết nối 800-gigabit — hiện là mật độ cao nhất có sẵn trong một hệ thống định tuyến cố định. Quan trọng hơn, nó có thể xử lý hơn 20 tỷ gói mỗi giây và mở rộng lên đến ba Exabyte mỗi giây băng thông kết nối.

Tính năng nổi bật của hệ thống là khả năng đệm sâu, được kích hoạt bởi chip P200. Hãy coi bộ đệm như những khu vực lưu trữ tạm thời cho dữ liệu — giống như một hồ chứa thu nước trong những trận mưa lớn. Khi quá trình đào tạo AI tạo ra các đợt tăng đột biến lưu lượng truy cập, bộ đệm của 8223 sẽ hấp thụ lượng tăng đó, ngăn chặn tắc nghẽn mạng mà nếu không có nó sẽ làm chậm các cụm GPU đắt tiền đang nhàn rỗi chờ dữ liệu.

Hiệu quả năng lượng là một lợi thế quan trọng khác. Là một hệ thống 3RU, 8223 đạt được cái mà Cisco mô tả là "hiệu quả năng lượng giống như một switch" trong khi vẫn duy trì khả năng định tuyến — điều cực kỳ quan trọng khi các trung tâm dữ liệu đang phải vật lộn với ngân sách năng lượng.

Hệ thống cũng hỗ trợ quang học kết hợp 800G, cho phép kết nối trải dài lên đến 1.000 km giữa các cơ sở — điều cần thiết cho việc phân phối địa lý của hạ tầng AI.

Việc áp dụng trong ngành và các ứng dụng thực tế

Các nhà cung cấp dịch vụ hyperscale lớn đang triển khai công nghệ này. Microsoft, một trong những người đầu tiên áp dụng Silicon One , đã nhận thấy kiến trúc này có giá trị trong nhiều trường hợp sử dụng.

Dave Maltz, kỹ sư cấp cao và phó chủ tịch doanh nghiệp của Azure Networking tại Microsoft, lưu ý rằng "kiến trúc ASIC chung đã giúp chúng tôi dễ dàng mở rộng từ các trường hợp sử dụng ban đầu sang nhiều vai trò trong môi trường DC, WAN và AI/ML."

Alibaba Cloud có kế hoạch sử dụng P200 làm nền tảng để mở rộng kiến trúc eCore của mình. Dennis Cai, phó chủ tịch và người đứng đầu cơ sở hạ tầng mạng tại Alibaba Cloud, tuyên bố rằng chip "sẽ cho phép chúng tôi mở rộng vào mạng Core, thay thế các bộ định tuyến dựa trên khung gầm truyền thống bằng một cụm thiết bị chạy P200."

Lumen cũng đang nghiên cứu cách công nghệ này phù hợp với các kế hoạch hạ tầng mạng của mình. Dave Ward, giám đốc công nghệ và sản phẩm tại Lumen, cho biết công ty đang "nghiên cứu cách công nghệ Cisco 8223 mới có thể phù hợp với kế hoạch của chúng tôi nhằm nâng cao hiệu suất mạng và triển khai các dịch vụ vượt trội cho khách hàng của chúng tôi."

Khả năng lập trình: Đảm bảo khả năng đầu tư trong tương lai

Một khía cạnh thường bị bỏ qua của hạ tầng kết nối liên trung tâm dữ liệu AI là khả năng thích ứng. Các yêu cầu về mạng AI đang phát triển nhanh chóng, với các giao thức và tiêu chuẩn mới xuất hiện thường xuyên.

Phần cứng truyền thống thường yêu cầu thay thế hoặc nâng cấp đắt tiền để hỗ trợ các khả năng mới. Khả năng lập trình của P200 giải quyết thách thức này.

Các tổ chức có thể cập nhật chip silicon để hỗ trợ các giao thức mới nổi mà không cần thay thế phần cứng — điều quan trọng khi các hệ thống định tuyến riêng lẻ đại diện cho các khoản đầu tư vốn đáng kể và các tiêu chuẩn mạng AI vẫn đang thay đổi.

Các cân nhắc về bảo mật

Kết nối các trung tâm dữ liệu cách xa hàng trăm dặm gây ra những thách thức về bảo mật. 8223 bao gồm mã hóa tốc độ đường truyền sử dụng các thuật toán chống lại lượng tử, giải quyết các lo ngại về các mối đe dọa trong tương lai từ điện toán lượng tử. Việc tích hợp với các nền tảng quan sát của Cisco cung cấp khả năng giám sát mạng chi tiết để xác định và giải quyết các vấn đề nhanh chóng.

Liệu Cisco có thể cạnh tranh?

Với việc Broadcom và Nvidia đã khẳng định vị thế của mình trên thị trường mạng mở rộng quy mô đa trung tâm, Cisco phải đối mặt với sự cạnh tranh đã được thiết lập. Tuy nhiên, công ty có những lợi thế: sự hiện diện lâu đời trong các mạng doanh nghiệp và nhà cung cấp dịch vụ, danh mục sản phẩm Silicon One trưởng thành ra mắt vào năm 2019, và mối quan hệ với các nhà cung cấp dịch vụ hyperscale lớn đã sử dụng công nghệ của họ.

8223 ban đầu được xuất xưởng với hỗ trợ SONiC mã nguồn mở, với IOS XR dự kiến sẽ có sẵn trong tương lai. P200 sẽ có sẵn trên nhiều loại nền tảng, bao gồm các hệ thống module và danh mục Nexus.

Sự linh hoạt trong các tùy chọn triển khai này có thể mang tính quyết định khi các tổ chức tìm cách tránh khóa nhà cung cấp (vendor lock-in) trong khi xây dựng hạ tầng AI phân tán.

Liệu cách tiếp cận của Cisco có trở thành tiêu chuẩn công nghiệp cho kết nối liên trung tâm dữ liệu AI hay không vẫn còn phải xem, nhưng vấn đề cơ bản mà cả ba nhà cung cấp đang giải quyết — kết nối hạ tầng AI phân tán một cách hiệu quả — sẽ chỉ trở nên cấp bách hơn khi các hệ thống AI tiếp tục mở rộng vượt quá giới hạn của một cơ sở duy nhất.

Người chiến thắng thực sự cuối cùng có thể được xác định không chỉ bằng thông số kỹ thuật, mà còn bởi nhà cung cấp nào có thể mang lại hệ sinh thái phần mềm, hỗ trợ và khả năng tích hợp đầy đủ nhất xung quanh chip silicon của họ.

Nguồn: Sưu tầm