Google trình làng mô hình AI đột phá, có thể thao tác trên trình duyệt web như người dùng

Nguyễn Xuân Chính
Nguyễn Xuân Chính
Phản hồi: 0
Sản phẩm liên quan
Google Gemini
Gã khổng lồ công nghệ Google vừa chính thức giới thiệu một bước tiến đột phá trong lĩnh vực trí tuệ nhân tạo (AI) với mô hình Gemini 2.5 Computer Use. Công nghệ này được thiết kế chuyên biệt để tương tác và điều hướng các trang web thông qua trình duyệt, đánh dấu một cột mốc quan trọng trong việc trao quyền cho các tác nhân AI thực hiện các công việc phức tạp trên những giao diện vốn được xây dựng dành riêng cho con người.
d3e62022-7f41-4e1f-8089-a83a06dbf255.jpg

Mô hình Gemini 2.5 Computer Use tận dụng tối đa khả năng lý luận và hiểu biết thị giác tiên tiến của AI để phân tích chính xác yêu cầu từ người dùng, từ đó tự động hoàn thành một chuỗi các tác vụ phức tạp, chẳng hạn như điền thông tin và gửi một biểu mẫu trực tuyến một cách hoàn chỉnh mà không cần sự can thiệp của con người. Công cụ này được kỳ vọng sẽ mang lại lợi ích đặc biệt trong các lĩnh vực như kiểm thử giao diện người dùng (UI testing) hoặc điều hướng các nền tảng cũ, vốn thiếu các giao diện lập trình ứng dụng (API) hay bất kỳ kết nối trực tiếp nào.

Trước khi chính thức được công bố rộng rãi, Google đã âm thầm sử dụng các phiên bản tiền thân của mô hình này cho nhiều tính năng "tác nhân" (agentic features) khác nhau, bao gồm cả Chế độ AI (AI Mode) và dự án nghiên cứu nguyên mẫu mang tên Project Mariner. Đơn cử, Project Mariner đã ứng dụng các tác nhân AI để tự động hóa các thao tác trong trình duyệt, chẳng hạn như tự động thêm các mặt hàng vào giỏ hàng trên một trang web mua sắm chỉ dựa trên một danh sách nguyên liệu đã được cung cấp.

Việc Google ra mắt mô hình mới diễn ra chỉ một ngày sau khi đối thủ chính OpenAI tổ chức sự kiện Dev Day thường niên. Tại sự kiện này, OpenAI cũng đã công bố các ứng dụng mới cho ChatGPT và tiếp tục nhấn mạnh tính năng ChatGPT Agent có khả năng hoàn thành các tác vụ phức tạp thay cho người dùng. Trong khi đó, một đối thủ đáng gờm khác là Anthropic cũng đã giới thiệu phiên bản "sử dụng máy tính" cho mô hình AI Claude từ năm ngoái, cho thấy cuộc đua ngày càng quyết liệt giữa các tập đoàn công nghệ lớn trong lĩnh vực AI tương tác với máy tính.

Google cũng đã đăng tải một số video trình diễn công cụ mới, mặc dù có lưu ý rằng tốc độ thực hiện trong các video đã được tăng nhanh gấp ba lần. Gã khổng lồ công nghệ này khẳng định mô hình Gemini 2.5 Computer Use của họ đã chứng minh được sự "vượt trội hơn các đối thủ hàng đầu trên nhiều tiêu chuẩn đo lường về web và di động."

Tuy nhiên, có một điểm khác biệt lớn mà người dùng và nhà phát triển cần lưu ý: không giống như ChatGPT Agent của OpenAI hay công cụ sử dụng máy tính của Anthropic, mô hình AI mới của Google hiện tại chỉ có quyền truy cập vào trình duyệt web, chứ không phải toàn bộ môi trường máy tính cá nhân. Google lý giải rằng mô hình này "chưa được tối ưu hóa cho việc kiểm soát cấp độ hệ điều hành máy tính để bàn" và hiện tại chỉ hỗ trợ 13 hành động cơ bản, bao gồm các thao tác cốt lõi như mở trình duyệt, gõ văn bản và kéo thả các phần tử trên màn hình. Điều này cho thấy Google đang thận trọng triển khai công nghệ mới, tập trung vào môi trường web trước khi mở rộng phạm vi kiểm soát.

Hiện tại, các nhà phát triển đã có thể bắt đầu tiếp cận Gemini 2.5 Computer Use thông qua Google AI Studio và Vertex AI. Song song với đó, một bản demo cũng đang được cung cấp trên nền tảng Browserbase, nơi người dùng có thể theo dõi cách mô hình này tự động hoàn thành các tác vụ như "Chơi một ván game 2048" hoặc "Duyệt qua Hacker News để tìm các chủ đề thảo luận đang thịnh hành." Sự ra đời của công cụ này báo hiệu một bước tiến quan trọng trong việc chuyển giao quyền thực hiện các thao tác trên giao diện máy tính từ con người sang các tác nhân AI thông minh, mở ra kỷ nguyên mới cho tự động hóa trên nền tảng web.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9nb29nbGUtdHJpbmgtbGFuZy1tby1oaW5oLWFpLWRvdC1waGEtY28tdGhlLXRoYW8tdGFjLXRyZW4tdHJpbmgtZHV5ZXQtd2ViLW5odS1uZ3VvaS1kdW5nLjcwODA0Lw==
Top