0969 627 162

Nano Banana Pro: Giải bài toán "mù chữ" của AI, hỗ trợ tiếng Việt cực chuẩn

21/11/2025 588 lượt xem
Tận dụng trên nền tảng Gemini 3 Pro, Nano Banana Pro - công cụ mới của Google không chỉ khắc phục điểm yếu về tạo chữ trong ảnh, mà còn hỗ trợ đắc lực cho việc làm đồ họa, sơ đồ với độ chính xác cao - điều mà các mô hình AI khác chưa làm được.

Trong thông báo chính thức ngày 21/11, Google đã trình làng Nano Banana Pro – công cụ tạo sinh hình ảnh được xây dựng trên nền tảng Gemini 3 Pro - mô hình tiên tiến nhất hiện tại của hãng. Sự kết hợp này cho phép AI không chỉ "vẽ" mà còn "hiểu" và lập luận về thế giới thực tốt hơn vượt trội so với các phiên bản tiền nhiệm.

Bước tiến trong khả năng hiển thị văn bản

Từ trước đến nay, việc yêu cầu AI tạo ra các dòng chữ có nghĩa trên hình ảnh luôn là một thách thức lớn. Đa số các mô hình thường cho ra kết quả là những ký tự vô nghĩa, sai nét hoặc sắp xếp lộn xộn. Tuy nhiên, Nano Banana Pro được cho là có thể giải quyết triệt để vấn đề này.

Google khẳng định đây là mô hình tối ưu nhất hiện nay để xử lý văn bản trong ảnh. Công cụ có khả năng hiển thị chính xác, từ các từ đơn giản đến những đoạn văn dài với nhiều ngôn ngữ khác nhau, đảm bảo tính thẩm mỹ và dễ đọc.

Hình ảnh Nano Banana Pro tạo ra với câu lệnh: Tưởng tượng bạn là thầy giáo dạy kỹ năng sống, hãy tạo infographic hướng dẫn cách rán trứng, để trẻ 10 tuổi cũng hiểu và thích thú làm theo.

Nano Banana Pro thể hiện khả năng vượt trội khi tạo ra infographic hướng dẫn nấu ăn với văn bản tiếng Việt chuẩn xác và bố cục mạch lạc.

Thử nghiệm thực tế cho thấy, AI xử lý rất tốt các hình ảnh chứa văn bản bằng tiếng Việt. Nhờ khả năng lập luận nâng cao của Gemini 3 và kho tri thức khổng lồ từ Google Search, người dùng có thể tạo nhanh hình minh họa - từ đó có thể ứng dụng cho những đồ họa như infographic, bản ghi chú, công thức nấu ăn hay biển quảng cáo chỉ trong thời gian ngắn. Người dùng chỉ cần nhập thông tin, Nano Banana Pro sẽ tự động tổng hợp dữ liệu và thiết kế hình ảnh minh họa phù hợp.

Kiểm soát nhất quán và đa dạng đầu vào

Một điểm sáng khác của Nano Banana Pro là khả năng xử lý đa phương thức mạnh mẽ. Người dùng có thể cung cấp tối đa 14 hình ảnh tham khảo để định hướng phong cách thiết kế cho AI.

Ngoài ra, mô hình này giải quyết được bài toán về sự nhất quán nhân vật – điều mà các nhà sáng tạo nội dung rất quan tâm. Công cụ đảm bảo giữ nguyên đặc điểm nhận dạng của tối đa 5 nhân vật trong cùng một khung hình hoặc qua các bức ảnh khác nhau. Chất lượng đầu ra hỗ trợ độ phân giải cao, đạt chuẩn 2K và 4K.

ba-n-sao-cu-a-gemini-instant-t-9418-6628-1763712005.png?w=680&h=0&q=100&dpr=1&fit=crop&s=bl0qoLSeTza5eS4oqt43lg

Demo khả năng giữ sự đồng nhất về thiết kế sản phẩm trong khi thay đổi nội dung văn bản trên bao bì.

Trải nghiệm người dùng và Cam kết an toàn

Để trải nghiệm, người dùng có thể truy cập Gemini trên các thiết bị, chọn công cụ Tạo hình ảnh (biểu tượng quả chuối) và nhập câu lệnh (prompt). Mặc dù thời gian xử lý có thể mất gần một phút cho các yêu cầu phức tạp, nhưng AI sẽ tương tác ngược lại bằng văn bản để làm rõ ý tưởng trước khi thực hiện. Tuy nhiên, ở giai đoạn đầu, công cụ đôi khi vẫn gặp tình trạng chưa ổn định hoặc bỏ qua câu lệnh.

Về vấn đề bản quyền và an toàn, Google áp dụng công nghệ SynthID – gắn "watermark" kỹ thuật số ẩn vào mọi sản phẩm được tạo ra bởi Nano Banana Pro. Điều này giúp xác định nguồn gốc ảnh do AI tạo ra một cách chính xác khi kiểm tra trên ứng dụng Gemini. Ngoài ra, hình ảnh từ người dùng gói miễn phí và gói AI Pro sẽ có watermark mờ, trong khi gói Google AI Ultra dành cho chuyên gia sẽ được loại bỏ ký hiệu này.

(Theo VnExpress)