Tôi đã thử 'Nano Bananas' của Gemini để chỉnh sửa ảnh. Những sai sót của AI lộ rõ

Tin tức AI - 07/09/2025 19:28:02

Mô hình AI mới của Google tốt ở một số tác vụ, nhưng gặp khó khăn ở những lĩnh vực chính này.

Sau khi chứng kiến màn "phô trương chuối" rầm rộ cho công cụ AI tạo sinh mới nhất của Google, tôi biết mình phải dùng thử. Có tên Gemini 2.5 Flash Image, mô hình này nâng cấp khả năng chỉnh sửa ảnh trực tiếp trong Gemini của bạn. Những người đam mê AI đã gọi nó là mô hình "nano bananas", được thúc đẩy bởi một loạt các đoạn giới thiệu về chủ đề chuối từ các giám đốc điều hành của Google.

Trong vài tuần kể từ khi ra mắt, mọi người đã tạo ra hơn 200 triệu hình ảnh AI và hơn 10 triệu người đã đăng ký sử dụng ứng dụng Gemini, theo Josh Woodward, phó chủ tịch Google Labs và Gemini của Google.

Google đã đầu tư mạnh vào các mô hình truyền thông tạo sinh của mình trong năm nay, ra mắt các phiên bản cập nhật của mô hình tạo ảnh và video tại hội nghị nhà phát triển I/O thường niên của mình. Trình tạo video AI Veo 3 của Google đã gây ấn tượng với âm thanh đồng bộ, một thành tựu đầu tiên trong số các gã khổng lồ AI. Và các nhà sáng tạo đã tạo ra hơn 100 triệu video AI với công cụ làm phim AI Flow của Google.

Tôi đã dành nhiều thời gian để thử nghiệm phần mềm sáng tạo AI và tôi rất hào hứng muốn xem Google đã tạo ra những gì. Nhưng quá trình thử nghiệm 2.5 Flash Image của tôi cho thấy rằng chỉ vì một thứ gì đó có màn ra mắt hoành tráng không có nghĩa là nó luôn đáp ứng được sự cường điệu. Dưới đây là trải nghiệm của tôi với Gemini nano bananas: những điều tốt, những điều tệ và những điều gây khó chịu.

Những gì hoạt động tốt

Mô hình Gemini bananas rất giỏi trong việc thêm các yếu tố vào ảnh hiện có, hòa trộn tốt các yếu tố do AI tạo ra vào bất kỳ bức ảnh nào bạn chụp. Nó cũng duy trì mức độ ổn định khá tốt về tính nhất quán của nhân vật -- nghĩa là những người trong ảnh của tôi không bị biến dạng hoặc méo mó quá nhiều sau khi xử lý bằng AI. Đây đều là những điểm khác biệt quan trọng đối với các chương trình ảnh AI, và là điều mà Google cho biết họ đã nỗ lực cải thiện.

Bạn có thể thấy cả hai đặc điểm này trong bức ảnh của chị tôi và tôi. Ngoại hình tổng thể của chúng tôi không thay đổi trong phiên bản đã chỉnh sửa (bên phải), thể hiện tính nhất quán của nhân vật. Tôi đã yêu cầu Gemini thêm một người chị thứ ba trông giống hai chúng tôi, và nó đã làm điều đó rất đáng sợ khi thêm một người phụ nữ thứ ba vào giữa hai chúng tôi.

Chào mừng đến với gia đình, chị gái AI có vẻ ngoài đáng sợ nhưng chính xác. Katelyn Chedraoui/Gemini

Tôi cũng khá ấn tượng với tốc độ Gemini có thể tạo ra hình ảnh hoàn chỉnh. Bất kỳ kết quả nào dưới một phút đều nhận được lời khen từ tôi, và Gemini thường xuyên xử lý yêu cầu trong vòng dưới 15 giây. Tôi cũng đánh giá cao việc nó thêm hình mờ vào tất cả các hình ảnh mà nó tạo và chỉnh sửa -- ngay cả khi tôi không thích cách các công ty công nghệ đã lạm dụng biểu tượng cảm xúc lấp lánh cho AI, điều cực kỳ quan trọng là phải có một số dấu hiệu nhận biết nội dung do AI tạo ra. SynthID của Google và công việc hậu trường cũng giúp phân biệt nội dung AI với hình ảnh do con người tạo ra.

Gemini cũng giỏi trong việc tạo hình ảnh AI hàng loạt, nhưng tôi khuyên bạn nên sử dụng Imagen 4 của nó hoặc một trình tạo ảnh AI khác thay thế -- chúng có nhiều tùy chỉnh và cài đặt thủ công hơn giúp bạn đạt được điều mình muốn dễ dàng hơn.

Những gì thực sự không hoạt động

Có những hạn chế nghiêm trọng đối với Gemini bananas. Nó tự động tạo ra hình ảnh vuông, và các câu lệnh tiếp theo yêu cầu điều chỉnh hình ảnh sang kích thước khác đã bị bỏ qua hoặc thất bại.

Tôi cũng nhận thấy rằng Gemini đã giảm độ phân giải của nhiều bức ảnh của tôi. Tôi chủ yếu chụp ảnh bằng iPhone 16 của mình, một chiếc điện thoại có camera xuất sắc, nhưng sau khi qua mô hình Gemini bananas, những chi tiết nhỏ thường bị mờ. Điều đó thật khó chịu và sẽ không thể làm hài lòng bất kỳ nhiếp ảnh gia nào.

Mặc dù tôi đã yêu cầu làm sáng các vòng tròn của mục tiêu, bức ảnh gốc (trái) vẫn có độ phong phú và chi tiết hơn so với bức ảnh đã chỉnh sửa bằng AI (phải). Katelyn Chedraoui/Gemini

Tôi đã cố gắng nhiều lần để Gemini xử lý các chỉnh sửa ảnh mà tôi sẽ khó thực hiện thủ công. Đó là một lĩnh vực trong chỉnh sửa ảnh mà AI được cho là sẽ vượt trội -- tự động hóa các chỉnh sửa thường nhật nhưng đòi hỏi nhiều chi tiết. Đáng buồn thay, Gemini thực sự gặp khó khăn trong việc tuân thủ câu lệnh ở đây, nghĩa là nó không làm theo những gì tôi yêu cầu.

Tôi đã thử nhiều lần để Gemini loại bỏ phản chiếu khỏi một bức ảnh chụp áp phích phim Freakier Friday, nhưng chúng vẫn cứng đầu ở đó. Và càng cố gắng yêu cầu nó loại bỏ phản chiếu, chất lượng hình ảnh càng kém đi sau mỗi câu lệnh. Văn bản từng rõ ràng cuối cùng đã trở nên không thể đọc được sau khi tôi từ bỏ, chưa kể đến những hư hại ngẫu nhiên, trông đáng sợ gây ra cho khuôn mặt của Lindsey Lohan và Jamie Lee Curtis.

Gemini nano bananas đã gặp khó khăn trong việc tạo ảnh ở các kích thước khác nhau. Thay đổi kích thước và cắt ảnh là một quy trình chỉnh sửa ảnh cốt lõi, nhưng Gemini đã không -- hoặc không thể -- xử lý các hướng dẫn kích thước đơn giản trong câu lệnh của tôi.

Tất cả những gì tôi muốn là Gemini loại bỏ phản chiếu ở góc trên bên phải của áp phích, nhưng thay vào đó nó lại làm biến dạng khẩu hiệu và khuôn mặt trong phim. Katelyn Chedraoui/Gemini

Tôi đã liên hệ với Google về các vấn đề độ phân giải và kích thước, và một người phát ngôn cho biết công ty công nghệ này "đang nhận thức và tích cực khắc phục cả hai vấn đề. Đây là một bản cập nhật lớn so với mô hình trước đó của chúng tôi nhưng chúng tôi sẽ tiếp tục cải thiện mô hình."

Nhìn chung, Gemini nano bananas đã chứng minh cho tôi thấy rằng Google rất nghiêm túc trong việc tiếp tục thống trị lĩnh vực truyền thông tạo sinh. Nhưng nó có những nhược điểm đáng kể, với quá nhiều tập trung vào việc tạo ra các yếu tố mới thay vì sử dụng AI để cải thiện và điều chỉnh các vấn đề ảnh phổ biến. Hiện tại, mô hình nano bananas phù hợp nhất cho những người hâm mộ Gemini muốn thực hiện các chỉnh sửa lớn một cách nhanh chóng. Đối với những người trong chúng ta đang tìm kiếm các công cụ chính xác hơn, chúng ta sẽ phải đợi bản cập nhật lớn tiếp theo của Google hoặc tìm một chương trình khác.

Tính khả dụng, giá cả và quyền riêng tư của Gemini nano bananas

Bạn không cần làm gì để truy cập mô hình mới; nó tự động được thêm vào mô hình Gemini 2.5 Flash cơ bản. Gemini có sẵn miễn phí, với nhiều mô hình và giới hạn sử dụng cao hơn có sẵn trong các gói AI của Google bắt đầu từ 20 USD mỗi tháng.

Nếu bạn là người đăng ký trả phí, bạn cũng có thể truy cập mô hình thông qua Google AI Studio. Từ đó, tất cả những gì bạn phải làm là tải ảnh lên và nhập câu lệnh của mình. Mỗi câu lệnh sử dụng từ một đến hai nghìn token, tùy thuộc vào mức độ chi tiết yêu cầu. Người dùng Adobe Express và Firefly cũng có thể truy cập mô hình mới này ngay bây giờ.

Chính sách quyền riêng tư của Gemini của Google nêu rõ rằng họ có thể sử dụng thông tin bạn tải lên để cải thiện các sản phẩm AI của mình, đó là lý do tại sao công ty khuyến nghị tránh tải lên thông tin nhạy cảm hoặc riêng tư. Chính sách sử dụng bị cấm AI của công ty cũng cấm tạo ra tài liệu bất hợp pháp hoặc lạm dụng.

Nguồn: Sưu tầm