myle.vnreview
Writer
Hiện tại, chúng có thể chưa hoạt động tốt, nhưng trình duyệt Comet của Perplexity và chế độ Agent của ChatGPT cho thấy rất nhiều điều về hướng đi của AI.
Cho đến nay, khi hầu hết mọi người nghĩ về sự bùng nổ của AI hiện đại, họ nghĩ đến các chatbot như ChatGPT. Giờ đây, ngày càng rõ ràng rằng trình duyệt web mới chính là nơi giai đoạn tiếp theo của AI đang hình thành.
Lý do rất đơn giản: chatbot ngày nay không có quyền truy cập vào cuộc sống trực tuyến của người dùng như trình duyệt. Quyền truy cập đọc và ghi vào email, tài khoản ngân hàng… là cần thiết nếu AI muốn trở thành một công cụ thực sự hoạt động và làm mọi việc cho người dùng. Chatbot không có được những quyền đó nhưng trình duyệt thì có thể.
Hai sản phẩm được phát hành gần đây cho thấy xu hướng này. Đầu tiên là ChatGPT Agent của OpenAI, sử dụng trình duyệt cơ bản để lướt web thay bạn. Thứ hai là Comet, một trình duyệt máy tính để bàn của Perplexity, tiến xa hơn một bước bằng cách cho phép các mô hình ngôn ngữ lớn truy cập vào các trang web đã đăng nhập và hoàn thành các tác vụ thay bạn. OpenAI được đồn đoán đang lên kế hoạch phát triển trình duyệt hoàn chỉnh của riêng mình.
Cả ChatGPT Agent và Comet hiện đều không hoạt động đáng tin cậy, và việc truy cập vào cả hai đều bị giới hạn bởi các gói đăng ký đắt đỏ do chi phí tính toán cao hơn cần thiết để chạy các mô hình suy luận mà chúng yêu cầu. Có lẽ điều đáng thất vọng nhất là cả hai sản phẩm đều tuyên bố làm được những điều mà chúng không thể, không chỉ trong các tài liệu tiếp thị mà còn trong trải nghiệm sản phẩm thực tế.
ChatGPT Agent là một trải nghiệm trình duyệt chỉ đọc — nó không thể truy cập vào một trang web đã đăng nhập như Comet — và điều đó hạn chế nghiêm trọng tính hữu dụng của nó. Nó cũng rất chậm. Hayden Field, cây viết của trang công nghệ The Verge, đã yêu cầu ChatGPT Agent tìm một loại đèn cụ thể trên Etsy, và ChatGPT Agent mất 50 phút mới phản hồi. Nó cũng không thêm được sản phẩm vào giỏ hàng Etsy của Hayden Field mặc dù khẳng định là đã làm được.
Mặc dù trình duyệt Comet không hề chậm như vậy, nhưng nhiều người dùng nhận thấy trình duyệt này tuyên bố đã hoàn thành các nhiệm vụ mà nó chưa hoàn thành, hoặc nói rằng nó có thể làm được điều gì đó, nhưng rồi ngay lập tức lại nói là không thể sau khi được yêu cầu. Giao diện sidecar của Comet, đặt trợ lý AI ở bên phải trang web, rất tuyệt vời cho các tác vụ chỉ đọc, chẳng hạn như tóm tắt trang web hoặc nghiên cứu một nội dung cụ thể. Nhưng trải nghiệm tổng thể chưa được đánh giá cao.
Thật dễ dàng để hoài nghi và nghĩ rằng tình trạng hiện tại của các sản phẩm như Comet là AI tốt nhất có thể hoàn thành các tác vụ trên web. Hoặc, bạn có thể nhìn vào những tiến bộ trong vài năm qua của ngành và đặt cược rằng xu hướng tương tự sẽ tiếp tục.
Trong các chia sẻ gần đây, Aravind Srinivas, CEO của Perplexity cho biết startup AI này đang "đặt cược vào sự tiến bộ trong các mô hình suy luận để tạo cơ sở cho các trình duyệt AI". OpenAI đã xây dựng một mô hình suy luận tùy chỉnh dành riêng cho ChatGPT Agent, được đào tạo trên các tác vụ phức tạp hơn, nhiều bước.
Ngay cả với nhiều hạn chế và lỗi tồn tại hiện nay, nhiều chuyên gia dự đoán rằng giao diện chatbot chính thống sẽ hợp nhất với trình duyệt. Chatbot độc lập chắc chắn sẽ không biến mất, đặc biệt là trên điện thoại thông minh, nhưng trình duyệt sẽ là thứ mở khóa AI thực sự mang lại cảm giác như một tác nhân (agent).

Cho đến nay, khi hầu hết mọi người nghĩ về sự bùng nổ của AI hiện đại, họ nghĩ đến các chatbot như ChatGPT. Giờ đây, ngày càng rõ ràng rằng trình duyệt web mới chính là nơi giai đoạn tiếp theo của AI đang hình thành.
Lý do rất đơn giản: chatbot ngày nay không có quyền truy cập vào cuộc sống trực tuyến của người dùng như trình duyệt. Quyền truy cập đọc và ghi vào email, tài khoản ngân hàng… là cần thiết nếu AI muốn trở thành một công cụ thực sự hoạt động và làm mọi việc cho người dùng. Chatbot không có được những quyền đó nhưng trình duyệt thì có thể.
Hai sản phẩm được phát hành gần đây cho thấy xu hướng này. Đầu tiên là ChatGPT Agent của OpenAI, sử dụng trình duyệt cơ bản để lướt web thay bạn. Thứ hai là Comet, một trình duyệt máy tính để bàn của Perplexity, tiến xa hơn một bước bằng cách cho phép các mô hình ngôn ngữ lớn truy cập vào các trang web đã đăng nhập và hoàn thành các tác vụ thay bạn. OpenAI được đồn đoán đang lên kế hoạch phát triển trình duyệt hoàn chỉnh của riêng mình.
Cả ChatGPT Agent và Comet hiện đều không hoạt động đáng tin cậy, và việc truy cập vào cả hai đều bị giới hạn bởi các gói đăng ký đắt đỏ do chi phí tính toán cao hơn cần thiết để chạy các mô hình suy luận mà chúng yêu cầu. Có lẽ điều đáng thất vọng nhất là cả hai sản phẩm đều tuyên bố làm được những điều mà chúng không thể, không chỉ trong các tài liệu tiếp thị mà còn trong trải nghiệm sản phẩm thực tế.
ChatGPT Agent là một trải nghiệm trình duyệt chỉ đọc — nó không thể truy cập vào một trang web đã đăng nhập như Comet — và điều đó hạn chế nghiêm trọng tính hữu dụng của nó. Nó cũng rất chậm. Hayden Field, cây viết của trang công nghệ The Verge, đã yêu cầu ChatGPT Agent tìm một loại đèn cụ thể trên Etsy, và ChatGPT Agent mất 50 phút mới phản hồi. Nó cũng không thêm được sản phẩm vào giỏ hàng Etsy của Hayden Field mặc dù khẳng định là đã làm được.
Mặc dù trình duyệt Comet không hề chậm như vậy, nhưng nhiều người dùng nhận thấy trình duyệt này tuyên bố đã hoàn thành các nhiệm vụ mà nó chưa hoàn thành, hoặc nói rằng nó có thể làm được điều gì đó, nhưng rồi ngay lập tức lại nói là không thể sau khi được yêu cầu. Giao diện sidecar của Comet, đặt trợ lý AI ở bên phải trang web, rất tuyệt vời cho các tác vụ chỉ đọc, chẳng hạn như tóm tắt trang web hoặc nghiên cứu một nội dung cụ thể. Nhưng trải nghiệm tổng thể chưa được đánh giá cao.
Thật dễ dàng để hoài nghi và nghĩ rằng tình trạng hiện tại của các sản phẩm như Comet là AI tốt nhất có thể hoàn thành các tác vụ trên web. Hoặc, bạn có thể nhìn vào những tiến bộ trong vài năm qua của ngành và đặt cược rằng xu hướng tương tự sẽ tiếp tục.
Trong các chia sẻ gần đây, Aravind Srinivas, CEO của Perplexity cho biết startup AI này đang "đặt cược vào sự tiến bộ trong các mô hình suy luận để tạo cơ sở cho các trình duyệt AI". OpenAI đã xây dựng một mô hình suy luận tùy chỉnh dành riêng cho ChatGPT Agent, được đào tạo trên các tác vụ phức tạp hơn, nhiều bước.
Ngay cả với nhiều hạn chế và lỗi tồn tại hiện nay, nhiều chuyên gia dự đoán rằng giao diện chatbot chính thống sẽ hợp nhất với trình duyệt. Chatbot độc lập chắc chắn sẽ không biến mất, đặc biệt là trên điện thoại thông minh, nhưng trình duyệt sẽ là thứ mở khóa AI thực sự mang lại cảm giác như một tác nhân (agent).