Lượng nội dung do AI tạo ra trên Internet lần đầu tiên vượt lượng nội dung do con người tạo ra

Christine May · 20:04

Nghiên cứu mới nhất từ Graphite, một công ty tối ưu hóa công cụ tìm kiếm (SEO) nổi tiếng, cho thấy hơn một nửa nội dung viết (tiếng Anh) trên Internet hiện nay được tạo ra bởi AI.

"Làn sóng thuật toán AI" đang đưa chúng ta bước vào một kỷ nguyên chưa từng có: nội dung do máy móc tạo ra không chỉ song hành cùng sáng tạo của con người mà còn bắt đầu chiếm ưu thế về mặt số lượng. Sự chuyển dịch cơ bản này ngay lập tức đặt ra những câu hỏi sâu sắc về tính xác thực của nội dung, độ tin cậy của thông tin, và thậm chí cả bản chất của toàn bộ hệ sinh thái kỹ thuật số.

Sự thay đổi này sẽ có tác động trực tiếp và sâu rộng. Nó đang định hình lại cách chúng ta tiếp cận thông tin, thay đổi mô hình sản xuất nội dung và định hình lại bối cảnh chiến lược mà các công ty AI và các gã khổng lồ công nghệ đang phải đối mặt.

Điều này cũng chứng minh sự trưởng thành nhanh chóng và khả năng tích hợp sâu rộng của công nghệ AI tạo sinh vào nhiều ngành công nghiệp khác nhau, chuyển đổi từ một công cụ thử nghiệm thành một công cụ cốt lõi không thể thiếu cho việc sản xuất nội dung. Khi không gian kỹ thuật số ngày càng bị chi phối bởi việc tạo ra thuật toán, việc thiết lập các cơ chế công bố thông tin minh bạch, phát triển các công cụ phát hiện đáng tin cậy và đánh giá lại giá trị độc đáo của nội dung do con người tạo ra đã trở thành những thách thức cấp bách.

Quỹ đạo đằng sau 52%: bùng nổ, bắt kịp và thắt chặt tăng trưởng

Kể từ khi ChatGPT ra mắt vào tháng 11 năm 2022, ngày càng nhiều công ty đã bắt đầu áp dụng các mô hình ngôn ngữ quy mô lớn (như ChatGPT, Claude và Gemini) để tạo nội dung. So với việc thuê tác giả con người, vốn thường tốn hàng trăm đô la, nội dung do AI tạo ra, với lợi thế đáng kể về chi phí, đã trở thành một lựa chọn mới cho các công ty để mở rộng lưu lượng truy cập thông qua công cụ tìm kiếm, mạng xã hội và các kênh quảng cáo .

Sự phát triển bùng nổ của nội dung do AI tạo ra trùng khớp chặt chẽ với sự ra mắt của ChatGPT. Theo Graphite, trong vòng 12 tháng kể từ khi ChatGPT ra mắt, các bài viết do AI tạo ra đã chiếm 39% tổng số bài viết trực tuyến, gần 40%.

Nhóm nghiên cứu của Graphite đã phân tích 65.000 bài báo trực tuyến bằng tiếng Anh được xuất bản từ tháng 1 năm 2020 đến tháng 5 năm 2025 và phát hiện ra rằng nội dung do AI tạo ra đã đạt được bước đột phá lịch sử vào tháng 11 năm 2024, lần đầu tiên vượt qua nội dung do con người tạo ra. Đến tháng 5 năm 2025, tỷ lệ này đã tăng lên 52%, nghĩa là hơn một nửa tổng số nội dung viết trực tuyến được tạo ra bởi AI.

Phân phối các bài viết do con người tạo ra và do AI tạo ra
Tuy nhiên, cuộc cách mạng nội dung máy móc này dường như đang dần ổn định. Graphite Research cũng chỉ ra rằng mặc dù nội dung AI đã chứng kiến sự tăng trưởng bùng nổ kể từ khi ChatGPT ra mắt, nhưng đà tăng trưởng đã chậm lại đáng kể trong 12 tháng qua (kết thúc vào tháng 5 năm 2024) .

Nguyên nhân sâu xa không phải là công nghệ AI tự trì trệ mà là các chuyên gia dần nhận ra rằng nội dung do AI tạo ra chỉ chú trọng vào số lượng sẽ có thứ hạng thấp trên công cụ tìm kiếm và khó đạt được lợi ích về lưu lượng truy cập như mong đợi.

Tỷ lệ dương tính giả 4,2% so với tỷ lệ âm tính giả 0,6%: Các thí nghiệm kép xác thực các máy dò AI

Để đưa ra kết luận thuyết phục, nhóm nghiên cứu Graphite đã phát triển một phương pháp luận chặt chẽ. Nghiên cứu đầu tiên yêu cầu một mẫu đại diện gồm các bài báo trực tuyến bằng tiếng Anh từ khắp nơi trên thế giới. Để đạt được mục tiêu này, nhóm đã lấy mẫu ngẫu nhiên 65.000 URL từ CommonCrawl, kho lưu trữ web công cộng lớn nhất thế giới.

Mỗi mẫu được chọn phải đáp ứng các tiêu chuẩn nghiêm ngặt: nội dung phải bằng tiếng Anh, có dữ liệu có cấu trúc bài viết hoàn chỉnh, ít nhất 100 từ, được xuất bản trong khoảng thời gian từ tháng 1 năm 2020 đến tháng 5 năm 2025 và được xác nhận là một bài viết hoặc danh sách thể loại thông qua trình phân loại trang do Graphite tự phát triển.

Thách thức cốt lõi của nghiên cứu nằm ở việc xác định chính xác nội dung do AI tạo ra. Cuối cùng, nhóm nghiên cứu đã chọn công cụ phát hiện AI của Surfer, sử dụng chiến lược "phát hiện khối": 500 từ được sử dụng làm đơn vị phân tích. Nếu thuật toán xác định hơn 50% nội dung trong một bài viết là do máy tạo ra, toàn bộ bài viết sẽ được phân loại là do AI tạo ra.

Để đảm bảo độ tin cậy của kết quả thử nghiệm, nhóm đã tiến hành xác minh kép nghiêm ngặt công cụ:

• Kiểm tra tỷ lệ dương tính giả: Các nhà nghiên cứu đưa ra giả thuyết rằng các bài báo được xuất bản trước khi ChatGPT được áp dụng rộng rãi (tức là từ tháng 1 năm 2020 đến tháng 11 năm 2022) rất có thể là do con người tạo ra. Họ đã kiểm tra 15.894 bài báo trong giai đoạn này và phát hiện ra rằng công cụ phát hiện AI của Surfer đã phân loại sai 4,2% trong số đó là chủ yếu do AI tạo ra, cho thấy tỷ lệ dương tính giả là 4,2%.

• Kiểm tra tỷ lệ âm tính giả: Để xác minh khả năng nhận diện nội dung do AI tạo ra của công cụ, nhóm đã sử dụng GPT-4o để tạo ra 6.009 bài viết thuộc nhiều lĩnh vực khác nhau, bao gồm kinh doanh, tài chính, hàng tiêu dùng và B2B. Các gợi ý được thiết kế cẩn thận đã đảm bảo nội dung được tạo ra đáp ứng các tiêu chuẩn viết chuyên nghiệp. Cuối cùng, trình phát hiện Surfer đã nhận diện thành công 99,4% các bài viết do AI tạo ra, với tỷ lệ âm tính giả chỉ 0,6%.

Tuy nhiên, các nhà nghiên cứu cũng chỉ ra những hạn chế của nghiên cứu này. Các phương pháp hiện tại vẫn chưa bao gồm mô hình sáng tạo kết hợp "bản nháp do AI tạo ra kết hợp với chỉnh sửa chuyên sâu của con người", một hình thức hợp tác giữa người và máy đang ngày càng phổ biến trong thực tiễn sản xuất. Hơn nữa, công cụ phát hiện chủ yếu đánh giá các bài viết do GPT-4o tạo ra, và độ chính xác nhận dạng của nó có thể giảm khi phải đối mặt với các mô hình AI mới liên tục được lặp lại.

Sự cạnh tranh giữa những người khổng lồ và cơ hội cho những người chơi mới: AI định hình lại bối cảnh ngành công nghiệp nội dung

Nội dung do AI tạo ra đang có bước nhảy vọt về chất lượng. Nghiên cứu gần đây của MIT cho thấy trong hầu hết các trường hợp, chất lượng nội dung do AI tạo ra hiện nay ngang bằng, thậm chí vượt trội hơn, so với nội dung do con người tạo ra.

Điều này đánh dấu sự tiến hóa của AI từ việc tạo nội dung dựa trên mẫu ban đầu thành những nhà sáng tạo nội dung tiên tiến có khả năng tạo ra nội dung tinh tế, phù hợp với ngữ cảnh và đa dạng về phong cách. Nghiên cứu của Originality AI tiếp tục khẳng định rằng người đọc trung bình khó có thể phân biệt chính xác "nguồn gốc" của nội dung, xác định xem nội dung đó do con người hay máy móc tạo ra.

Sự phát triển bùng nổ của nội dung được hỗ trợ bởi AI đang định hình lại bối cảnh cạnh tranh. Các công ty dẫn đầu về AI tạo sinh, chẳng hạn như OpenAI , Google và Anthropic, đang thiết lập các mô hình công nghệ của họ làm nền tảng cốt lõi cho việc sản xuất nội dung trong nhiều ngành công nghiệp khác nhau. Những đột phá liên tục của các công ty này về hiệu suất mô hình, hiệu quả tính toán và khả năng tạo đa phương thức sẽ là chìa khóa để xác định vị thế thống lĩnh thị trường của họ.

Đồng thời, các nền tảng nội dung truyền thống đang phải đối mặt với những thách thức đáng kể. Lợi thế kép của AI về chi phí và hiệu quả đang cho phép các công ty mở rộng quy mô sản xuất nội dung với tốc độ đáng kinh ngạc, đặt các vai trò sáng tạo thiết yếu vào nguy cơ bị thay thế. Sự chuyển đổi này không chỉ giới hạn trong lĩnh vực văn bản: công nghệ AI cũng đang thâm nhập vào các lĩnh vực sáng tạo như thiết kế đồ họa , sản xuất video và xử lý âm thanh.

Với sự gia tăng nhanh chóng của nội dung được hỗ trợ bởi AI, nhu cầu xác minh đã xuất hiện. Các nhà cung cấp dịch vụ chuyên về phát hiện nội dung AI và truy xuất nguồn gốc, chẳng hạn như các đơn vị tham gia Sáng kiến Xác thực Nội dung (CAI) và Liên minh Xác thực và Xuất xứ Nội dung (C2PA), đang đứng trước những cơ hội phát triển đáng kể. Nhu cầu ngày càng tăng của thị trường về nội dung có thể xác minh và truy xuất nguồn gốc đã thúc đẩy sự ra đời của lĩnh vực mới nổi này.

Trong thời đại thuật toán, các gã khổng lồ công nghệ phải đối mặt với một sự cân bằng tinh tế. Ví dụ, Google đang phải đối mặt với thách thức đảm bảo độ tin cậy và tính liên quan của kết quả tìm kiếm trong khi vẫn đầu tư mạnh vào AI. Điều thú vị là Google đã chứng minh được hiệu quả cao trong việc phát hiện nội dung chất lượng thấp do AI tạo ra. Dữ liệu cho thấy chỉ 14% kết quả tìm kiếm hàng đầu của Google là do AI tạo ra. Điều này cho thấy Google đang thực hiện các biện pháp chiến lược để duy trì chất lượng và tính liên quan của kết quả tìm kiếm.

Điều này cho thấy một xu hướng quan trọng: mặc dù AI đang làm tăng đáng kể việc sản xuất nội dung, các công cụ tìm kiếm vẫn ưu tiên nội dung chất lượng cao do con người tạo ra. Các chuyên gia đang dần nhận ra rằng việc chỉ theo đuổi số lượng nội dung do AI tạo ra có giá trị hạn chế trong SEO, có khả năng chuyển thị trường từ "cuộc đua về số lượng" sang "cuộc đua về chất lượng".

Tuy nhiên, những thách thức vẫn còn rất lớn. "Cuộc chạy đua vũ trang" giữa công nghệ tạo ra và phát hiện AI sẽ tiếp tục leo thang, và các vấn đề đạo đức và xã hội như sở hữu trí tuệ, thiên kiến thuật toán và cơ cấu việc làm đang đòi hỏi những phản ứng cấp bách mang tính hệ thống. Trong thời đại quá tải nội dung, "tính chân thực" có thể trở thành giá trị gia tăng quý giá nhất của sáng tạo con người. Những tác phẩm sở hữu góc nhìn độc đáo, sự đồng cảm về mặt cảm xúc và tư duy sâu sắc sẽ lấy lại được sự công nhận và đánh giá cao của thị trường.

Sự xuất hiện của nội dung AI vượt qua khả năng sản xuất của con người không chỉ đánh dấu một cột mốc quan trọng trong sự phát triển công nghệ mà còn là một bước ngoặt trong quá trình tiến hóa của nền văn minh số. Hệ sinh thái nội dung trong tương lai sẽ không còn được định nghĩa bằng "khối lượng sản phẩm đầu ra". Nó sẽ không còn được xác định đơn thuần bởi những gì được tạo ra, mà bởi ai (hoặc cái gì) tạo ra nó, và cách chúng ta có thể phân biệt hai yếu tố này.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Lượng nội dung do AI tạo ra trên Internet lần đầu tiên vượt lượng nội dung do con người tạo ra

Christine May

Editor

Christine May

Quỹ đạo đằng sau 52%: bùng nổ, bắt kịp và thắt chặt tăng trưởng

Tỷ lệ dương tính giả 4,2% so với tỷ lệ âm tính giả 0,6%: Các thí nghiệm kép xác thực các máy dò AI

Sự cạnh tranh giữa những người khổng lồ và cơ hội cho những người chơi mới: AI định hình lại bối cảnh ngành công nghiệp nội dung

Cách sử dụng Google Gemini Canvas để tạo bài thuyết trình tự động

Điều khiến khách hàng e dè với AI, dù họ vẫn dùng nó mỗi ngày.

Elon Musk ra mắt đối thủ cạnh tranh của Wikipedia

Ai bảo Google sẽ bị OpenAI lật đổ nào? Đây là câu trả lời từ Gemini

Nhóm kỹ sư trẻ Việt Nam đạt giải ở sân chơi AI toàn cầu

Để duy trì vị thế dẫn đầu trong cuộc đua AI, OpenAI khuyến cáo Mỹ cần làm gì?

81% người dùng không đổi mật khẩu mặc định của Router: “Cánh cửa mở sẵn” cho hacker xâm nhập

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Cuộc đời Gia Cát Lượng có hai thất bại lớn: tha kẻ phản diện đáng lẽ phải bị giết, giết một vị tướng tốt

Cách sử dụng Google Gemini Canvas để tạo bài thuyết trình tự động