Bên trong kế hoạch của Huawei để hàng nghìn chip AI hoạt động như một máy tính duy nhất

Tin tức AI - 25/09/2025 16:23:08

Thông báo của Huawei về dòng sản phẩm SuperPod, các tiêu chuẩn kết nối và chính sách mã nguồn mở có thể thay đổi thế giới siêu máy tính hiệu năng cao (HPE) và siêu máy tính AI.

Hãy hình dung việc kết nối hàng nghìn chip AI mạnh mẽ nằm rải rác trong hàng chục tủ máy chủ và khiến chúng hoạt động cùng nhau như thể chúng là một máy tính khổng lồ, duy nhất. Đó chính xác là những gì Huawei đã trình diễn tại HUAWEI CONNECT 2025, nơi công ty đã công bố một đột phá trong kiến trúc hạ tầng AI có thể định hình lại cách thế giới xây dựng và mở rộng quy mô các hệ thống trí tuệ nhân tạo.

Thay vì các phương pháp truyền thống trong đó các máy chủ riêng lẻ hoạt động một cách độc lập, công nghệ SuperPoD mới của Huawei tạo ra cái mà các giám đốc điều hành của công ty mô tả là một cỗ máy logic duy nhất được tạo thành từ hàng nghìn đơn vị xử lý riêng biệt, cho phép chúng, hoặc nó, có thể “học, suy nghĩ và lý luận như một thể thống nhất.”

Những ý nghĩa này vượt xa các thông số kỹ thuật ấn tượng, đại diện cho một sự thay đổi trong cách thức tổ chức, mở rộng quy mô và triển khai sức mạnh tính toán AI trong các ngành công nghiệp.

Nền tảng kỹ thuật: UnifiedBus 2.0

Cốt lõi của phương pháp tiếp cận hạ tầng của Huawei là UnifiedBus (UB). Ông Yang Chaobin, Giám đốc Hội đồng quản trị và CEO của Nhóm Kinh doanh ICT của Huawei, giải thích rằng “Huawei đã phát triển kiến trúc SuperPoD đột phá dựa trên giao thức kết nối UnifiedBus của chúng tôi. Kiến trúc này kết nối sâu các máy chủ vật lý để chúng có thể học, suy nghĩ và lý luận như một máy chủ logic duy nhất.”

Các thông số kỹ thuật tiết lộ phạm vi của thành tựu này. Giao thức UnifiedBus giải quyết hai thách thức mà trong lịch sử đã hạn chế tính toán AI quy mô lớn: độ tin cậy của giao tiếp tầm xa và độ trễ băng thông. Các kết nối đồng truyền thống cung cấp băng thông cao nhưng chỉ trong khoảng cách ngắn, thường chỉ kết nối được khoảng hai tủ máy chủ.

Cáp quang hỗ trợ khoảng cách xa hơn nhưng lại gặp phải các vấn đề về độ tin cậy, vốn trở nên khó khăn hơn khi khoảng cách và quy mô tăng lên. Ông Eric Xu, Phó Chủ tịch và Chủ tịch Luân phiên của Huawei, cho biết rằng việc giải quyết các thách thức kết nối cơ bản này là điều cần thiết đối với chiến lược hạ tầng AI của công ty.

Ông Xu đã trình bày chi tiết các giải pháp đột phá theo mô hình OSI: “Chúng tôi đã xây dựng độ tin cậy vào mọi lớp của giao thức kết nối, từ lớp vật lý và lớp liên kết dữ liệu, cho đến các lớp mạng và truyền tải. Có khả năng phát hiện lỗi và chuyển mạch bảo vệ ở cấp độ 100 nano giây trên các đường quang, giúp mọi sự ngắt kết nối không liên tục hoặc lỗi của các mô-đun quang trở nên không thể nhận biết được ở lớp ứng dụng.”

Kiến trúc SuperPoD: Quy mô và hiệu suất

Atlas 950 SuperPoD đại diện cho việc triển khai hàng đầu của kiến trúc này, bao gồm tới 8.192 chip Ascend 950DT trong một cấu hình mà ông Xu mô tả là mang lại “8 EFLOPS ở FP8 và 16 EFLOPS ở FP4. Băng thông kết nối của nó sẽ là 16 PB/giây. Điều này có nghĩa là một Atlas 950 SuperPoD duy nhất sẽ có băng thông kết nối cao hơn 10 lần so với tổng băng thông internet đỉnh của toàn cầu.”

Các thông số kỹ thuật không chỉ là những cải tiến gia tăng. Atlas 950 SuperPoD chiếm 160 tủ máy chủ trong diện tích 1.000m2, với 128 tủ tính toán và 32 tủ truyền thông được liên kết bằng các kết nối quang hoàn toàn. Dung lượng bộ nhớ của hệ thống đạt 1.152 TB và duy trì độ trễ theo tuyên bố của Huawei là 2,1 micro giây trong toàn bộ hệ thống.

Trong giai đoạn sản xuất sau này sẽ là Atlas 960 SuperPoD, dự kiến sẽ tích hợp 15.488 chip Ascend 960 trong 220 tủ máy chủ, trên diện tích 2.200m2. Ông Xu cho biết nó sẽ mang lại “30 EFLOPS ở FP8 và 60 EFLOPS ở FP4, đi kèm với 4.460 TB bộ nhớ và băng thông kết nối 34 PB/giây.”

Vượt ra ngoài AI: Các ứng dụng điện toán đa năng

Khái niệm SuperPoD mở rộng ngoài khối lượng công việc AI sang điện toán đa năng thông qua TaiShan 950 SuperPoD. Được xây dựng trên bộ xử lý Kunpeng 950, hệ thống này giải quyết các thách thức của doanh nghiệp trong việc thay thế các máy tính lớn (mainframe) và máy tính tầm trung cũ.

Ông Xu đã định vị điều này đặc biệt phù hợp với ngành tài chính, nơi “TaiShan 950 SuperPoD, kết hợp với GaussDB phân tán, có thể đóng vai trò là một giải pháp thay thế lý tưởng và thay thế — một lần và mãi mãi — các máy tính lớn, máy tính tầm trung và máy chủ cơ sở dữ liệu Exadata của Oracle.”

Chiến lược kiến trúc mở

Có lẽ điều quan trọng nhất đối với thị trường hạ tầng AI rộng lớn hơn, Huawei đã công bố phát hành các thông số kỹ thuật của UnifiedBus 2.0 dưới dạng tiêu chuẩn mở. Quyết định này phản ánh cả định vị chiến lược và những hạn chế thực tế.

Ông Xu thừa nhận rằng “đại lục Trung Quốc sẽ tụt hậu về các nút quy trình sản xuất bán dẫn trong một thời gian tương đối dài” và nhấn mạnh rằng “sức mạnh tính toán bền vững chỉ có thể đạt được với các nút quy trình có sẵn trong thực tế.”

Ông Yang đã định hình phương pháp tiếp cận mở như việc xây dựng hệ sinh thái: “Chúng tôi cam kết với phương pháp tiếp cận phần cứng mở và phần mềm mã nguồn mở của mình, điều này sẽ giúp nhiều đối tác hơn phát triển các giải pháp SuperPoD dựa trên kịch bản công nghiệp của riêng họ. Điều này sẽ thúc đẩy đổi mới của nhà phát triển và nuôi dưỡng một hệ sinh thái phát triển mạnh mẽ.”

Công ty sẽ mở mã nguồn các thành phần phần cứng và phần mềm, với phần cứng bao gồm các mô-đun NPU, máy chủ phiến làm mát bằng không khí và bằng chất lỏng, thẻ AI, bo mạch CPU và thẻ cascade. Đối với phần mềm, Huawei cam kết mở mã nguồn hoàn toàn các công cụ biên dịch CANN, bộ ứng dụng dòng Mind và các mô hình nền tảng openPangu trước ngày 31 tháng 12 năm 2025.

Triển khai thị trường và tác động hệ sinh thái

Việc triển khai thực tế cung cấp sự xác nhận cho những tuyên bố kỹ thuật này. Hơn 300 đơn vị Atlas 900 A3 SuperPoD đã được xuất xưởng vào năm 2025, được triển khai cho hơn 20 khách hàng từ nhiều lĩnh vực, bao gồm internet, tài chính, nhà mạng, điện lực và sản xuất.

Những ý nghĩa đối với sự phát triển của hạ tầng AI của Trung Quốc là rất đáng kể. Bằng cách tạo ra một hệ sinh thái mở xung quanh công nghệ trong nước, Huawei đang giải quyết các thách thức trong việc xây dựng hạ tầng AI cạnh tranh trong các tham số được đặt ra bởi hạn chế về sản xuất và khả năng cung ứng chất bán dẫn. Phương pháp tiếp cận của họ cho phép sự tham gia rộng rãi hơn của ngành công nghiệp vào việc phát triển các giải pháp hạ tầng AI mà không cần tiếp cận các nút quy trình tiên tiến nhất.

Đối với thị trường hạ tầng AI toàn cầu, chiến lược kiến trúc mở của Huawei giới thiệu một giải pháp thay thế cho cách tiếp cận phần cứng và phần mềm độc quyền, tích hợp chặt chẽ đang chiếm ưu thế trong số các đối thủ cạnh tranh phương Tây. Liệu hệ sinh thái do Huawei đề xuất có thể đạt được hiệu suất tương đương và duy trì khả năng thương mại hay không vẫn cần được chứng minh ở quy mô lớn.

Cuối cùng, kiến trúc SuperPoD đại diện cho nhiều hơn một bước tiến gia tăng trong điện toán AI. Huawei đang đề xuất một nguyên tắc cơ bản về cách các tài nguyên tính toán khổng lồ được kết nối, quản lý và mở rộng quy mô. Việc phát hành mã nguồn mở các thông số kỹ thuật và thành phần của nó sẽ kiểm tra xem liệu sự phát triển hợp tác có thể thúc đẩy đổi mới hạ tầng AI trong một hệ sinh thái đối tác hay không. Điều đó có tiềm năng định hình lại động lực cạnh tranh trên thị trường hạ tầng AI toàn cầu.

Nguồn: Sưu tầm

Tin tức AI

Xem tất cả