Các trình tạo video AI đã có mặt: Mọi thứ về Sora của OpenAI, Veo 3 của Google và Midjourney

Tin tức AI - 08/09/2025 18:00:06

Video tạo sinh là làn sóng công nghệ AI tiếp theo, nhưng chương trình của mỗi công ty công nghệ lại khác nhau.

Đầu tiên là chatbot AI, sau đó là trình tạo ảnh AI. Giờ đây, các công ty công nghệ đang gấp rút phát hành trình tạo video AI.

Trong năm qua, hầu hết mọi công ty công nghệ lớn đều đã ra mắt một số loại mô hình video AI. Giữa Veo 3 của Google, Midjourney và Sora, thị trường này nhanh chóng trở nên đông đúc. Video AI là một bước tiến lớn trong các dịch vụ sáng tạo AI của một công ty, và chúng là thứ đáng để theo dõi khi AI tạo sinh ngày càng trở thành một phần lớn hơn của nội dung chúng ta tạo ra và xem trực tuyến. Điều này đặc biệt đúng khi sự tiến bộ của công nghệ diễn ra vào thời điểm mà tính hợp pháp, đạo đức và các mối lo ngại khác tiếp tục xoay quanh các dịch vụ sáng tạo AI.

Nhiều công ty trong số này cũng có chatbot và trình tạo ảnh, nhưng tôi ngạc nhiên khi thấy có những khác biệt độc đáo trong các trình tạo video. Chẳng hạn, một số tính năng trình tạo ảnh yêu thích của tôi xuất hiện trong các mô hình video, trong khi những tính năng khác lại vắng mặt rõ rệt. Vì có rất nhiều tùy chọn, tôi đã tổng hợp tất cả các mô hình chính mà bạn có thể xem xét, bao gồm giá cả, quyền riêng tư và thử nghiệm thực tế của tôi đối với từng mô hình.

Đây là tất cả những gì bạn cần biết về trình tạo video AI. Danh sách này được cập nhật thường xuyên với thông tin mới nhất về từng trình tạo.

Trình tạo video AI là gì?

Trình tạo video AI là một trong những cách mới nhất mà các công ty công nghệ đang sử dụng AI tạo sinh. Các chương trình này sử dụng công nghệ chuyển văn bản thành video và chuyển ảnh thành video, cho phép bạn tạo các đoạn video ngắn. Bạn nhập một mô tả ngắn gọi là lời nhắc (prompt), hoặc tải lên một hình ảnh để tạo hoạt ảnh, và phần mềm sẽ tạo ra một đoạn clip hoàn toàn bằng AI tạo sinh. Các video AI này thường dài từ năm đến 10 giây, và một số mô hình nhất định còn cung cấp âm thanh được đồng bộ hóa. Vì công nghệ này còn mới, lỗi -- được gọi là ảo giác (hallucinations) -- có thể xảy ra.

Tôi có thể sử dụng những mô hình video AI nào ngay bây giờ?

Một số ví dụ về trình tạo video AI bạn có thể sử dụng ngay bây giờ là Sora của OpenAI, Veo 3 của Google, Adobe Firefly và V1 của Midjourney. Tất cả đều là các chương trình trả phí tạo ra kết quả khá tốt và cho phép bạn tùy chỉnh cảnh quay của mình bằng các bảng điều khiển. Runway, một công ty khởi nghiệp AI đã đồng tạo ra trình tạo ảnh Stable Diffusion, là một lựa chọn video AI khác với các gói freemium. Các mô hình AI khác từ Luma, Pika và Ideogram cũng có sẵn.

Sora của OpenAI

Sora đã gia nhập gia đình ChatGPT vào cuối năm 2024. Đây là một chương trình khá thân thiện với người dùng, nhưng nó không có giao diện người dùng đàm thoại (conversational UI) giống như Dall-E 3 -- bạn không thể "trò chuyện" với Sora để thực hiện các chỉnh sửa tiếp theo. Thay vào đó, nó gợi nhớ nhiều hơn đến các dịch vụ sáng tạo AI truyền thống. (Tiết lộ: Ziff Davis, công ty mẹ của CNET, vào tháng 4 đã đệ đơn kiện OpenAI, cáo buộc công ty này vi phạm bản quyền của Ziff Davis trong việc đào tạo và vận hành các hệ thống AI của mình.)

Trong Sora, bạn có một bảng điều khiển để tùy chỉnh kích thước, độ dài và phong cách video của mình. Bạn có thể nhập một lời nhắc (prompt) hoặc tải lên một hình ảnh để Sora tạo hoạt ảnh, và bạn có thể sử dụng một vài tùy chọn chỉnh sửa để hoàn thiện video của mình từ đó. Video Sora cũng tự động có watermark, cho biết nguồn gốc AI của chúng.

Sora chỉ dành cho người dùng ChatGPT trả phí. Nếu bạn là người dùng ChatGPT Plus (20 USD mỗi tháng), bạn sẽ nhận được 50 tín dụng tạo ưu tiên mỗi tháng, với video dài tối đa 5 giây ở độ phân giải 720p. Nâng cấp lên gói Pro (200 USD mỗi tháng) sẽ nhận được nhiều tín dụng hàng tháng hơn, bao gồm 500 video được tạo với ưu tiên/tạo nhanh và không giới hạn video với tạo thoải mái. Người đăng ký Pro cũng có thể tạo video độ phân giải cao hơn với tối đa 1080p, kéo dài thời lượng video lên đến 20 giây và có tùy chọn tải xuống video mà không có watermark.

Chính sách quyền riêng tư của OpenAI nêu rõ rằng họ có thể đào tạo dựa trên nội dung của bạn trừ khi bạn từ chối. Để làm điều đó trong Sora, hãy vào Cài đặt > Chung, và tắt Cải thiện mô hình cho mọi người. Bạn cũng có thể loại trừ video của mình khỏi các nguồn cấp dữ liệu công khai trong cài đặt.

Xem tại OpenAI

Veo 3 của Google

Trình tạo video AI Veo 3 của Google đã làm say mê những người đam mê AI khi nó được phát hành công khai tại hội nghị nhà phát triển I/O 2025 của hãng. Trong thử nghiệm của tôi, tôi thấy Veo 3 là một bước tiến đáng kể so với trải nghiệm đáng thất vọng của tôi với Veo 2, nhưng sự khác biệt thực sự nằm ở âm thanh: Veo 3 có thể tạo và tự động đồng bộ hóa âm thanh với các đoạn video của bạn.

Video Veo 3 có độ dài tám giây, độ phân giải 720p và được tự động tạo ở định dạng ngang 16:9. Đây là một chương trình rất mạnh mẽ và các video chi tiết, thú vị, nhưng cũng có một số khía cạnh đáng chú ý ít thú vị hơn. Veo 3 chỉ có sẵn thông qua gói Gemini Ultra đắt đỏ, và nó không có công cụ chỉnh sửa, điều này khá đáng tiếc. Các bản cập nhật trong tương lai có thể giúp Veo 3 dễ tiếp cận và tiên tiến hơn.

Video tự động có watermark SynthID của Google được nhúng (không hiển thị trên các clip). Chính sách AI chung của Google Cloud nêu rõ rằng họ không đào tạo dựa trên dữ liệu khách hàng mà không có sự cho phép.

Bạn cũng có thể thử Veo trên YouTube. Giờ đây, người sáng tạo có thể tạo hình nền do AI tạo ra cho video Shorts của họ, nhờ một tính năng mới được hỗ trợ bởi Veo.

Xem tại Deepmind

Midjourney V1

Midjourney là một trong những trình tạo ảnh AI phổ biến nhất, và hãng vừa phát hành mô hình video AI đầu tiên của mình có tên V1. Bạn có thể sử dụng Midjourney để tạo các đoạn video dài từ 5 đến 21 giây ở độ phân giải 720p. Bạn có thể sử dụng Midjourney thông qua Discord hoặc trang web của hãng. Hiện tại, việc tạo video bị giới hạn trả phí đối với người dùng, nhưng đây là một trong những lựa chọn rẻ hơn với 10 USD mỗi tháng.

Chính sách quyền riêng tư của Midjourney nói rằng họ có thể sử dụng thông tin cá nhân và thông tin có trong lời nhắc của bạn để cải thiện dịch vụ. Nếu bạn tạo ở chế độ Ẩn danh (Stealth mode), thì hình ảnh AI của bạn sẽ riêng tư; nếu không, chúng sẽ được chia sẻ trong một thư viện công khai.

Tôi khá ấn tượng với giá trị mà Midjourney mang lại so với mức giá, nhưng bạn sẽ cần phải kiên nhẫn và cụ thể với các lời nhắc của mình.

Xem tại Midjourney

Adobe Firefly

Trình tạo video AI độc lập của Firefly hiện đã có sẵn để bạn sử dụng, trên máy tính và thông qua ứng dụng di động Firefly của hãng. Nếu bạn đã quen thuộc với các công cụ tạo ảnh AI của Firefly, thiết lập trình tạo video sẽ cảm thấy quen thuộc. Bảng điều khiển bên trái cho phép bạn tùy chỉnh clip của mình và nó có thêm lợi ích là cho phép bạn chọn loại chuyển động mong muốn (thu phóng vào và ra, di chuyển sang phải và trái, v.v.). Bạn cũng có thể chọn góc máy ảnh mong muốn, ví dụ như nếu bạn muốn mô phỏng cảnh quay bằng drone với góc nhìn từ trên cao.

Một số gói Creative Cloud bao gồm quyền truy cập Firefly, kể cả khi bạn trả tiền cho một chương trình duy nhất hoặc tất cả các ứng dụng Adobe. Bạn có thể kiểm tra và so sánh các tùy chọn tại đây. Nếu bạn không có gói Adobe hiện có, bạn có thể dùng thử gói Firefly tiêu chuẩn (10 USD mỗi tháng) để tạo tối đa 20 video mỗi tháng. Nếu bạn cần thêm tín dụng tạo, gói Pro (30 USD mỗi tháng) sẽ cho phép bạn tạo tối đa 70 video mỗi tháng. Cả hai gói Firefly đều đi kèm với tạo ảnh AI không giới hạn. Video Firefly của bạn sẽ dài 5 giây, ở độ phân giải 1080p và không có âm thanh.

Adobe cho biết các video được tạo bằng Firefly là an toàn về mặt thương mại, và chính sách AI của hãng nêu rõ rằng họ sẽ không đào tạo dựa trên nội dung của bạn. Video Firefly không có watermark hiển thị, nhưng thông tin xác thực nội dung của hãng sẽ tự động được đính kèm vào tác phẩm của bạn. Các mô hình Firefly được đào tạo trên nội dung được cấp phép và nội dung thuộc phạm vi công cộng.

Xem tại Adobe

Runway

Những người đam mê AI có thể nhận ra Runway là công ty khởi nghiệp đã đồng sáng tạo ra trình tạo ảnh AI phổ biến Stable Diffusion. Bạn cũng có thể nhận ra Runway từ một thỏa thuận mang tính bước ngoặt mà hãng đã thực hiện với một hãng phim lớn vào mùa thu năm ngoái. Lionsgate đã đồng ý mở kho phim của mình -- hàng nghìn giờ phim như The Hunger Games và John Wick cùng các chương trình TV như Mad Men -- để được sử dụng tạo các mô hình AI tùy chỉnh cho hãng phim.

Trong quá trình thử nghiệm ngắn dịch vụ, tôi đã rất ấn tượng với các công cụ tạo lời nhắc (prompt) và sự dễ dàng chung trong việc điều hướng. Tôi cũng đã từng sử dụng dịch vụ này trước đây như một phần của ứng dụng Magic Media của Canva, rất tiện lợi nếu bạn là người yêu thích Canva. Bạn có thể sử dụng Runway miễn phí trên ứng dụng web của hãng, với 125 tín dụng hàng tháng -- bạn sẽ sử dụng khoảng 20 tín dụng cho mỗi lần tạo, vì vậy đây là một giới hạn khá thấp. Nâng cấp (15 USD mỗi tháng hoặc 144 USD hàng năm) sẽ mang lại cho bạn 625 tín dụng hàng tháng, quyền truy cập vào các mô hình mới hơn và khả năng nâng cấp video lên 4K và tải xuống mà không có watermark.

Điều khoản dịch vụ của Runway nói rằng hãng có thể đào tạo AI của mình dựa trên lời nhắc của bạn và các video tạo ra nhưng không giữ quyền sở hữu đối với chúng. Chính sách quyền riêng tư của hãng cũng nêu rõ rằng Runway có thể tiết lộ thông tin của bạn cho các công ty liên kết, đối tác kinh doanh và tiếp thị. Các video bạn tạo ra sẽ tự động được đặt ở chế độ riêng tư.

Xem tại Runwayml

Một số dự án video AI khác là gì?

Đáng chú ý là Meta vắng mặt trong danh sách này. Công ty đã dành nguồn lực để phát triển AI, nhưng lại chưa có trình tạo video AI nào được công bố rộng rãi. Hãng đã hé lộ một phiên bản vào tháng 10 năm 2024. Dưới đây là những gì chúng ta biết cho đến nay.

Movie Gen của Meta

Mô hình video AI của Meta -- Movie Gen -- hiện chỉ là một khái niệm nghiên cứu và chưa được công bố rộng rãi, cũng chưa có thông tin về thời điểm ra mắt.

Nhờ một báo cáo nghiên cứu mà Meta đã công bố, chúng ta biết rằng video của Movie Gen có thể đạt chất lượng 1080p HD và dài tới 16 giây ở tốc độ 16 khung hình mỗi giây. Điều đáng chú ý nhất ở Movie Gen là khả năng đồng bộ hóa âm thanh. Meta cho biết Movie Gen cũng có thể được sử dụng để tạo hiệu ứng âm thanh, tiếng ồn xung quanh và nhạc cụ lên đến 45 giây. Luôn có khả năng tính năng này sẽ không có trong phiên bản cuối cùng, nhưng nó sẽ mang lại lợi thế cho Meta.

Có lẽ giống như với Google và YouTube, chúng ta sẽ thấy một số tính năng được hỗ trợ bởi AI xuất hiện đầu tiên trên các nền tảng mạng xã hội của hãng, Instagram và Facebook. (Chúng tôi đã có một số tính năng AI khác chiếm chỗ trên các nguồn cấp dữ liệu của mình.) Các mô hình AI của Meta dành cho chatbot và trình tạo ảnh của hãng được đào tạo dựa trên nội dung công khai có sẵn trên Facebook và Instagram, cũng như dữ liệu được cấp phép.

Xem tại Meta

Nguồn: Sưu tầm