Trong thông báo chính thức ngày 21/11, Google đã trình làng Nano Banana Pro – công cụ tạo sinh hình ảnh được xây dựng trên nền tảng Gemini 3 Pro - mô hình tiên tiến nhất hiện tại của hãng. Sự kết hợp này cho phép AI không chỉ "vẽ" mà còn "hiểu" và lập luận về thế giới thực tốt hơn vượt trội so với các phiên bản tiền nhiệm.
Từ trước đến nay, việc yêu cầu AI tạo ra các dòng chữ có nghĩa trên hình ảnh luôn là một thách thức lớn. Đa số các mô hình thường cho ra kết quả là những ký tự vô nghĩa, sai nét hoặc sắp xếp lộn xộn. Tuy nhiên, Nano Banana Pro được cho là có thể giải quyết triệt để vấn đề này.
Google khẳng định đây là mô hình tối ưu nhất hiện nay để xử lý văn bản trong ảnh. Công cụ có khả năng hiển thị chính xác, từ các từ đơn giản đến những đoạn văn dài với nhiều ngôn ngữ khác nhau, đảm bảo tính thẩm mỹ và dễ đọc.

Nano Banana Pro thể hiện khả năng vượt trội khi tạo ra infographic hướng dẫn nấu ăn với văn bản tiếng Việt chuẩn xác và bố cục mạch lạc.
Thử nghiệm thực tế cho thấy, AI xử lý rất tốt các hình ảnh chứa văn bản bằng tiếng Việt. Nhờ khả năng lập luận nâng cao của Gemini 3 và kho tri thức khổng lồ từ Google Search, người dùng có thể tạo nhanh hình minh họa - từ đó có thể ứng dụng cho những đồ họa như infographic, bản ghi chú, công thức nấu ăn hay biển quảng cáo chỉ trong thời gian ngắn. Người dùng chỉ cần nhập thông tin, Nano Banana Pro sẽ tự động tổng hợp dữ liệu và thiết kế hình ảnh minh họa phù hợp.
Một điểm sáng khác của Nano Banana Pro là khả năng xử lý đa phương thức mạnh mẽ. Người dùng có thể cung cấp tối đa 14 hình ảnh tham khảo để định hướng phong cách thiết kế cho AI.
Ngoài ra, mô hình này giải quyết được bài toán về sự nhất quán nhân vật – điều mà các nhà sáng tạo nội dung rất quan tâm. Công cụ đảm bảo giữ nguyên đặc điểm nhận dạng của tối đa 5 nhân vật trong cùng một khung hình hoặc qua các bức ảnh khác nhau. Chất lượng đầu ra hỗ trợ độ phân giải cao, đạt chuẩn 2K và 4K.

Demo khả năng giữ sự đồng nhất về thiết kế sản phẩm trong khi thay đổi nội dung văn bản trên bao bì.
Để trải nghiệm, người dùng có thể truy cập Gemini trên các thiết bị, chọn công cụ Tạo hình ảnh (biểu tượng quả chuối) và nhập câu lệnh (prompt). Mặc dù thời gian xử lý có thể mất gần một phút cho các yêu cầu phức tạp, nhưng AI sẽ tương tác ngược lại bằng văn bản để làm rõ ý tưởng trước khi thực hiện. Tuy nhiên, ở giai đoạn đầu, công cụ đôi khi vẫn gặp tình trạng chưa ổn định hoặc bỏ qua câu lệnh.
Về vấn đề bản quyền và an toàn, Google áp dụng công nghệ SynthID – gắn "watermark" kỹ thuật số ẩn vào mọi sản phẩm được tạo ra bởi Nano Banana Pro. Điều này giúp xác định nguồn gốc ảnh do AI tạo ra một cách chính xác khi kiểm tra trên ứng dụng Gemini. Ngoài ra, hình ảnh từ người dùng gói miễn phí và gói AI Pro sẽ có watermark mờ, trong khi gói Google AI Ultra dành cho chuyên gia sẽ được loại bỏ ký hiệu này.
(Theo VnExpress)