Phương Anh
Writer
Cuối tuần trước, OpenAI đã công bố một hệ thống AI mới có tên Sora, hệ thống này tạo ra các video ngắn từ lời nhắc bằng văn bản. Mặc dù Sora vẫn chưa được ra mắt công chúng nhưng chất lượng cao của các kết quả đầu ra mẫu được công bố cho đến nay đã gây ra những phản ứng vừa hào hứng vừa lo ngại xung quanh công cụ AI mới này.
Các video mẫu do OpenAI xuất bản mà công ty cho biết là do Sora trực tiếp tạo ra mà không sửa đổi, hiển thị kết quả đầu ra từ những lời nhắc như “video cận cảnh chân thực về hai tàu cướp biển chiến đấu với nhau khi chúng đi thuyền bên trong một tách cà phê” và “cảnh quay lịch sử của California trong cơn sốt vàng”.
Thoạt nhìn, thường khó có thể biết chúng được tạo ra bởi AI do chất lượng cao của video, kết cấu, độ động của cảnh, chuyển động của máy ảnh và mức độ đồng bộ tốt. Giám đốc điều hành OpenAI, Sam Altman cũng đăng một số video lên X (trước đây là Twitter) được tạo để đáp lại lời nhắc do người dùng đề xuất, nhằm chứng minh khả năng của Sora.
Mặt khác, các mô hình khuếch tán là nền tảng của nhiều trình tạo hình ảnh AI. Chúng hoạt động bằng cách bắt đầu với nhiễu ngẫu nhiên và lặp lại hướng tới hình ảnh “rõ ràng” phù hợp với lời nhắc đầu vào.
Các mô hình Khuếch tán (trong trường hợp này là Khuếch tán ổn định) tạo ra hình ảnh từ nhiễu qua nhiều lần lặp (Stable Diffusion / Benlisquare / Wikimedia, CC BY-SA)
Một video có thể được tạo từ một chuỗi các hình ảnh như vậy. Tuy nhiên, trong một video, sự mạch lạc và nhất quán giữa các khung hình là điều cần thiết. Sora sử dụng kiến trúc máy biến áp để xử lý cách các khung liên quan với nhau. Trong khi máy biến áp ban đầu được thiết kế để tìm các mẫu trong mã thông báo đại diện cho văn bản, thay vào đó, Sora sử dụng mã thông báo đại diện cho các mảng không gian và thời gian nhỏ.
Lumiere, được phát hành chỉ vài tuần trước, tuyên bố sẽ tạo ra video tốt hơn các phiên bản trước. Nhưng Sora có vẻ mạnh hơn Lumiere ít nhất ở một số khía cạnh.
Sora có thể tạo video có độ phân giải lên tới 1920 × 1080 pixel và ở nhiều tỷ lệ khung hình khác nhau, trong khi Lumiere bị giới hạn ở 512 × 512 pixel. Các video của Lumiere dài khoảng 5 giây, trong khi Sora tạo video có thời lượng lên tới 60 giây. Lumiere không thể tạo video gồm nhiều cảnh quay, trong khi Sora thì có thể. Sora, giống như các công cụ AI khác, cũng được cho là có khả năng thực hiện các tác vụ chỉnh sửa video như tạo video từ hình ảnh hoặc video khác, kết hợp các yếu tố từ các video khác nhau và mở rộng video theo thời gian.
Cả hai mô hình đều tạo ra các video có độ chân thực cao nhưng có thể gây ảo giác. Các video của Lumiere có thể dễ dàng được nhận dạng hơn là do AI tạo ra. Video của Sora trông sinh động hơn, có nhiều tương tác giữa các phần tử hơn. Tuy nhiên, trong nhiều video ví dụ, sự không nhất quán trở nên rõ ràng khi xem xét kỹ lưỡng.
Dựa trên những gì chúng ta biết về khả năng của Sora, nó thậm chí có thể được sử dụng để tạo các video ngắn cho một số ứng dụng trong giải trí, quảng cáo và giáo dục.
Bài viết kỹ thuật của OpenAI về Sora có tiêu đề “Các mô hình tạo video như trình mô phỏng thế giới”. Bài báo lập luận rằng các phiên bản lớn hơn của trình tạo video như Sora có thể là “có khả năng mô phỏng thế giới vật lý và kỹ thuật số cũng như các đồ vật, động vật và con người sống trong đó”. Nếu điều này đúng, các phiên bản trong tương lai có thể có những ứng dụng khoa học cho các thí nghiệm vật lý, hóa học và thậm chí cả xã hội. Ví dụ, người ta có thể kiểm tra tác động của các cơn sóng thần có quy mô khác nhau lên các loại cơ sở hạ tầng khác nhau - và đến sức khỏe thể chất và tinh thần của những người ở gần đó.
Việc đạt được mức độ mô phỏng này là một thách thức lớn và một số chuyên gia cho rằng một hệ thống như Sora về cơ bản không có khả năng thực hiện được điều đó.
Một trình mô phỏng hoàn chỉnh sẽ cần tính toán các phản ứng vật lý và hóa học ở cấp độ chi tiết nhất của vũ trụ. Tuy nhiên, việc mô phỏng thế giới gần đúng và tạo ra những video chân thực cho mắt người có thể nằm trong tầm tay trong những năm tới.
Thật dễ dàng để thấy khả năng tạo video chân thực về bất kỳ cảnh nào bạn có thể mô tả có thể được sử dụng để truyền bá tin tức giả mạo đầy thuyết phục hoặc gây nghi ngờ về cảnh quay thực. Nó có thể gây nguy hiểm cho các biện pháp y tế công cộng, được sử dụng để gây ảnh hưởng đến các cuộc bầu cử hoặc thậm chí tạo gánh nặng cho hệ thống tư pháp bằng các bằng chứng giả mạo tiềm ẩn.
Trình tạo video cũng có thể tạo ra các mối đe dọa trực tiếp đến các cá nhân được nhắm mục tiêu, thông qua các tác phẩm giả mạo - đặc biệt là các nội dung khiêu ***. Những điều này có thể gây ra những hậu quả khủng khiếp đối với cuộc sống của những cá nhân bị ảnh hưởng và gia đình họ.
Ngoài những lo ngại này, còn có những câu hỏi về bản quyền và sở hữu trí tuệ. Các công cụ AI sáng tạo yêu cầu lượng dữ liệu khổng lồ để đào tạo và OpenAI chưa tiết lộ dữ liệu đào tạo của Sora đến từ đâu. Các mô hình ngôn ngữ lớn và trình tạo hình ảnh cũng bị chỉ trích vì lý do này. Tại Hoa Kỳ, một nhóm tác giả nổi tiếng đã kiện OpenAI về khả năng tài liệu của họ bị lạm dụng. Vụ việc lập luận rằng các mô hình ngôn ngữ lớn và các công ty sử dụng chúng đang đánh cắp tác phẩm của tác giả để tạo ra nội dung mới.
Đây không phải là lần đầu tiên công nghệ đi trước pháp luật. Một ví dụ điển hình cho điều này là câu hỏi về nghĩa vụ của các nền tảng truyền thông xã hội trong việc kiểm duyệt nội dung đã tạo ra cuộc tranh luận sôi nổi trong vài năm qua - phần lớn xoay quanh Mục 230 của Bộ luật Hoa Kỳ.
Mặc dù những lo ngại này là có thật nhưng dựa trên kinh nghiệm trong quá khứ, chúng tôi không mong đợi chúng sẽ ngăn cản sự phát triển của công nghệ tạo video. OpenAI cho biết họ đang “thực hiện một số bước an toàn quan trọng” trước khi cung cấp Sora cho công chúng, bao gồm làm việc với các chuyên gia về “thông tin sai lệch, nội dung thù địch và thành kiến” cũng như “xây dựng các công cụ giúp phát hiện nội dung sai lệch” nhằm giúp công cụ AI mới này có thể phát triển hơn trong tương lai.
Các video mẫu do OpenAI xuất bản mà công ty cho biết là do Sora trực tiếp tạo ra mà không sửa đổi, hiển thị kết quả đầu ra từ những lời nhắc như “video cận cảnh chân thực về hai tàu cướp biển chiến đấu với nhau khi chúng đi thuyền bên trong một tách cà phê” và “cảnh quay lịch sử của California trong cơn sốt vàng”.
Thoạt nhìn, thường khó có thể biết chúng được tạo ra bởi AI do chất lượng cao của video, kết cấu, độ động của cảnh, chuyển động của máy ảnh và mức độ đồng bộ tốt. Giám đốc điều hành OpenAI, Sam Altman cũng đăng một số video lên X (trước đây là Twitter) được tạo để đáp lại lời nhắc do người dùng đề xuất, nhằm chứng minh khả năng của Sora.
Sora hoạt động như thế nào?
Sora kết hợp các tính năng của công cụ tạo văn bản và hình ảnh trong cái được gọi là “mô hình biến áp khuếch tán”. Máy biến áp này là một loại mạng thần kinh được Google giới thiệu lần đầu tiên vào năm 2017. Chúng được biết đến nhiều nhất nhờ việc sử dụng trong các mô hình ngôn ngữ lớn như ChatGPT và Google Gemini.Mặt khác, các mô hình khuếch tán là nền tảng của nhiều trình tạo hình ảnh AI. Chúng hoạt động bằng cách bắt đầu với nhiễu ngẫu nhiên và lặp lại hướng tới hình ảnh “rõ ràng” phù hợp với lời nhắc đầu vào.

Các mô hình Khuếch tán (trong trường hợp này là Khuếch tán ổn định) tạo ra hình ảnh từ nhiễu qua nhiều lần lặp (Stable Diffusion / Benlisquare / Wikimedia, CC BY-SA)
Dẫn đầu
Sora không phải là công cụ AI chuyển văn bản thành video đầu tiên. Các mô hình trước đó bao gồm Emu của Meta, Gen-2 của Runway, Khuếch tán video ổn định của Stability AI và gần đây là Lumiere của Google.Lumiere, được phát hành chỉ vài tuần trước, tuyên bố sẽ tạo ra video tốt hơn các phiên bản trước. Nhưng Sora có vẻ mạnh hơn Lumiere ít nhất ở một số khía cạnh.
Sora có thể tạo video có độ phân giải lên tới 1920 × 1080 pixel và ở nhiều tỷ lệ khung hình khác nhau, trong khi Lumiere bị giới hạn ở 512 × 512 pixel. Các video của Lumiere dài khoảng 5 giây, trong khi Sora tạo video có thời lượng lên tới 60 giây. Lumiere không thể tạo video gồm nhiều cảnh quay, trong khi Sora thì có thể. Sora, giống như các công cụ AI khác, cũng được cho là có khả năng thực hiện các tác vụ chỉnh sửa video như tạo video từ hình ảnh hoặc video khác, kết hợp các yếu tố từ các video khác nhau và mở rộng video theo thời gian.
Cả hai mô hình đều tạo ra các video có độ chân thực cao nhưng có thể gây ảo giác. Các video của Lumiere có thể dễ dàng được nhận dạng hơn là do AI tạo ra. Video của Sora trông sinh động hơn, có nhiều tương tác giữa các phần tử hơn. Tuy nhiên, trong nhiều video ví dụ, sự không nhất quán trở nên rõ ràng khi xem xét kỹ lưỡng.
Các ứng dụng đầy hứa hẹn
Nội dung video hiện được sản xuất bằng cách quay phim thế giới thực hoặc bằng cách sử dụng các hiệu ứng đặc biệt, cả hai cách này đều có thể tốn kém và mất thời gian. Nếu Sora có sẵn ở mức giá hợp lý, mọi người có thể bắt đầu sử dụng nó như một phần mềm tạo mẫu để hình dung các ý tưởng với chi phí thấp hơn nhiều.Dựa trên những gì chúng ta biết về khả năng của Sora, nó thậm chí có thể được sử dụng để tạo các video ngắn cho một số ứng dụng trong giải trí, quảng cáo và giáo dục.
Bài viết kỹ thuật của OpenAI về Sora có tiêu đề “Các mô hình tạo video như trình mô phỏng thế giới”. Bài báo lập luận rằng các phiên bản lớn hơn của trình tạo video như Sora có thể là “có khả năng mô phỏng thế giới vật lý và kỹ thuật số cũng như các đồ vật, động vật và con người sống trong đó”. Nếu điều này đúng, các phiên bản trong tương lai có thể có những ứng dụng khoa học cho các thí nghiệm vật lý, hóa học và thậm chí cả xã hội. Ví dụ, người ta có thể kiểm tra tác động của các cơn sóng thần có quy mô khác nhau lên các loại cơ sở hạ tầng khác nhau - và đến sức khỏe thể chất và tinh thần của những người ở gần đó.
Việc đạt được mức độ mô phỏng này là một thách thức lớn và một số chuyên gia cho rằng một hệ thống như Sora về cơ bản không có khả năng thực hiện được điều đó.
Một trình mô phỏng hoàn chỉnh sẽ cần tính toán các phản ứng vật lý và hóa học ở cấp độ chi tiết nhất của vũ trụ. Tuy nhiên, việc mô phỏng thế giới gần đúng và tạo ra những video chân thực cho mắt người có thể nằm trong tầm tay trong những năm tới.
Rủi ro và mối quan tâm về đạo đức
Mối quan tâm chính xung quanh các công cụ như Sora xoay quanh tác động xã hội và đạo đức của chúng. Trong một thế giới vốn đã bị ảnh hưởng bởi thông tin sai lệch, những công cụ như Sora có thể khiến mọi thứ trở nên tồi tệ hơn.Thật dễ dàng để thấy khả năng tạo video chân thực về bất kỳ cảnh nào bạn có thể mô tả có thể được sử dụng để truyền bá tin tức giả mạo đầy thuyết phục hoặc gây nghi ngờ về cảnh quay thực. Nó có thể gây nguy hiểm cho các biện pháp y tế công cộng, được sử dụng để gây ảnh hưởng đến các cuộc bầu cử hoặc thậm chí tạo gánh nặng cho hệ thống tư pháp bằng các bằng chứng giả mạo tiềm ẩn.
Trình tạo video cũng có thể tạo ra các mối đe dọa trực tiếp đến các cá nhân được nhắm mục tiêu, thông qua các tác phẩm giả mạo - đặc biệt là các nội dung khiêu ***. Những điều này có thể gây ra những hậu quả khủng khiếp đối với cuộc sống của những cá nhân bị ảnh hưởng và gia đình họ.
Ngoài những lo ngại này, còn có những câu hỏi về bản quyền và sở hữu trí tuệ. Các công cụ AI sáng tạo yêu cầu lượng dữ liệu khổng lồ để đào tạo và OpenAI chưa tiết lộ dữ liệu đào tạo của Sora đến từ đâu. Các mô hình ngôn ngữ lớn và trình tạo hình ảnh cũng bị chỉ trích vì lý do này. Tại Hoa Kỳ, một nhóm tác giả nổi tiếng đã kiện OpenAI về khả năng tài liệu của họ bị lạm dụng. Vụ việc lập luận rằng các mô hình ngôn ngữ lớn và các công ty sử dụng chúng đang đánh cắp tác phẩm của tác giả để tạo ra nội dung mới.
Đây không phải là lần đầu tiên công nghệ đi trước pháp luật. Một ví dụ điển hình cho điều này là câu hỏi về nghĩa vụ của các nền tảng truyền thông xã hội trong việc kiểm duyệt nội dung đã tạo ra cuộc tranh luận sôi nổi trong vài năm qua - phần lớn xoay quanh Mục 230 của Bộ luật Hoa Kỳ.
Mặc dù những lo ngại này là có thật nhưng dựa trên kinh nghiệm trong quá khứ, chúng tôi không mong đợi chúng sẽ ngăn cản sự phát triển của công nghệ tạo video. OpenAI cho biết họ đang “thực hiện một số bước an toàn quan trọng” trước khi cung cấp Sora cho công chúng, bao gồm làm việc với các chuyên gia về “thông tin sai lệch, nội dung thù địch và thành kiến” cũng như “xây dựng các công cụ giúp phát hiện nội dung sai lệch” nhằm giúp công cụ AI mới này có thể phát triển hơn trong tương lai.