Google phát hành mô hình hình ảnh đầu tiên trên thế giới: Hoàn toàn miễn phí, chỉnh sửa ảnh không mắc lỗi với câu lệnh đơn giản

Tháp rơi tự do
Tháp rơi tự do
Phản hồi: 0

Tháp rơi tự do

Intern Writer
Rạng sáng hôm nay, Google công bố trên trang chủ mô hình hình ảnh mới nhất mang tên Gemini 2.5 Flash Image. Hiện tại, những hình ảnh “Nano Banana” đang gây sốt ở nước ngoài cũng được tạo ra bằng chính mô hình này.

1756312235947.png


Gemini 2.5 Flash Image có khả năng tạo sinh hình ảnh, chỉnh sửa và hòa trộn, đặc biệt mạnh mẽ trong việc duy trì tính nhất quán hình ảnh cũng như khả năng hiểu ngữ nghĩa văn bản. Ví dụ, khi người dùng tải lên một bức ảnh và chỉ yêu cầu thay đổi một khu vực nhất định, các phần khác của hình ảnh sẽ hoàn toàn được giữ nguyên. Ngoài ra, mô hình còn có thể trực tiếp hòa trộn hai bức ảnh thành một.

Theo giới thiệu của cộng đồng, công cụ này có thể coi như một “Photoshop bằng văn bản”: chỉ cần nhập lời nhắc, hệ thống sẽ thực hiện các thao tác tạo hình và chỉnh sửa tương đương. Đặc biệt, hiện tại công cụ đang mở sử dụng miễn phí và hỗ trợ tiếng Trung.

1756312259164.png


Google cho biết, trong các hạng mục thử nghiệm như Overall Preference, Character Creative, Infographics, Object và Environment, Gemini 2.5 Flash Image đều vượt trội hơn các đối thủ gồm GPT Image 1 (phiên bản cao nhất) của OpenAI, FuUXI Kontent MAX của Black Forest Lab, cũng như công cụ Image Edit mã nguồn mở mới nhất từ Alibaba. Điều này giúp Gemini 2.5 Flash Image trở thành mô hình hình ảnh mạnh nhất hiện nay.

Khả năng chỉnh sửa hình ảnh​

Điểm nổi bật nhất của mô hình này chính là khả năng chỉnh sửa cục bộ: chỉ thay đổi chi tiết được chỉ định, còn toàn bộ phần còn lại của ảnh vẫn giữ nguyên.

Ví dụ, khi tải lên hình ảnh cầu thủ nổi tiếng Carlos và yêu cầu biến phần đầu thành hình “người chuối” với đầy đủ mắt, mũi, miệng, hệ thống cho kết quả tự nhiên, nhất quán và không làm sai lệch các chi tiết xung quanh. Tương tự, khi thay thế quả bóng thành viên kim cương lớn, kết quả cũng được đánh giá là “hoàn hảo”. Người dùng có thể tiếp tục chỉnh màu sắc, hình dạng của viên kim cương bằng nhiều vòng lệnh thoại cho tới khi đạt được kết quả mong muốn.

1756312398279.png


1756312406396.png


Ở một thử nghiệm khác, khi yêu cầu chuyển đổi toàn bộ bức ảnh sang phong cách hoạt hình Ghibli, hệ thống ban đầu chỉ xử lý nền, nhưng vẫn cho thấy khả năng tách lớp (cắt đối tượng) rất chính xác. Sau khi điều chỉnh lời nhắc, toàn bộ nhân vật và vật thể trong ảnh đều được chuyển đổi thành phong cách Ghibli một cách nhất quán.

Khả năng biến đổi biểu cảm và hợp nhất hình ảnh​

Gemini 2.5 Flash Image cũng thể hiện ưu thế trong chỉnh sửa cảm xúc nhân vật và hợp nhất nhiều hình ảnh. Ví dụ: một bé trai với gương mặt nghiêm nghị được chỉnh thành nụ cười tự nhiên, không hề gượng gạo. Hệ thống cũng có thể thêm vào tay nhân vật một món đồ chơi lông xù mà không làm biến dạng ngón tay.

1756312435044.png

1756312444575.png



Đặc biệt, trong thử nghiệm hợp nhất hai tấm ảnh khác nhau để cho hai em nhỏ “nắm tay nhau”, kết quả đạt được rất tự nhiên – một nhiệm vụ vốn rất khó khăn nếu chỉ sử dụng công cụ Photoshop truyền thống.

1756312480502.png


Khả năng tạo sinh hình ảnh​

Ngoài chức năng chỉnh sửa, mô hình còn có thể trực tiếp sinh ảnh từ lời nhắc văn bản. Các thử nghiệm bao gồm:
  • Cảnh trạm nghiên cứu khoa học biển sâu năm 2077 với bạch tuộc khổng lồ phát sáng bơi ngoài cửa kính, nhà khoa học phân tích dữ liệu qua màn hình hologram.
  • Một khu rừng nhiệt đới huyền bí với cây cao tán rộng, chim vẹt sặc sỡ, thác nước đổ xa xa và dòng suối trong vắt chảy qua.
  • Một sa mạc tĩnh lặng với cồn cát vàng óng trải dài vô tận, xen lẫn vài cây xương rồng.

1756312489889.png


1756312502049.png


1756312514960.png


Theo đánh giá, chất lượng sinh ảnh của Gemini 2.5 Flash Image tuy không ấn tượng bằng khả năng chỉnh sửa, song vẫn được xếp ở nhóm hàng đầu hiện nay, đặc biệt ở các khía cạnh: độ chính xác ngữ nghĩa, bố cục và ánh sáng.

Hiệu ứng lan tỏa và phản ứng cộng đồng​

Hiện tượng “người chuối Nano Banana” đang bùng nổ trên mạng xã hội. Ngay trong đêm qua, Giám đốc điều hành Google Sundar Pichai chỉ đăng ba biểu tượng quả chuối, thu hút gần 3 triệu lượt xem và hơn 2.500 bình luận. Nhiều người dùng nhận xét, khả năng chỉnh sửa chính xác và đầu ra tinh tế mới là yếu tố cốt lõi nâng cao trải nghiệm người dùng, thay vì chỉ chú trọng tốc độ sinh ảnh.

Một số ý kiến cho rằng tên gọi “Nano Banana” thậm chí còn dễ nhớ và gây ấn tượng hơn Gemini 2.5 Flash Image, đồng thời khuyến nghị Google nên cân nhắc trong chiến lược truyền thông.

Trước bước tiến công nghệ được đánh giá là “điên rồ” này, nhiều người bày tỏ sự ngưỡng mộ, cho rằng Gemini 2.5 Flash Image đã mở ra cánh cửa mới cho vô hạn tiềm năng sáng tạo, và gửi lời chúc mừng đến đội ngũ AI của Google.
 
  • 1756312375656.png
    1756312375656.png
    616.2 KB · Lượt xem: 6


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9nb29nbGUtcGhhdC1oYW5oLW1vLWhpbmgtaGluaC1hbmgtZGF1LXRpZW4tdHJlbi10aGUtZ2lvaS1ob2FuLXRvYW4tbWllbi1waGktY2hpbmgtc3VhLWFuaC1raG9uZy1tYWMtbG9pLXZvaS1jYXUtbGVuaC1kb24tZ2lhbi42ODAzNi8=
Top