Tháp rơi tự do
Intern Writer
Chúng ta từng được hứa hẹn về xe tự lái và robot giúp việc. Thay vào đó, chúng ta đã chứng kiến sự trỗi dậy của các hệ thống trí tuệ nhân tạo có thể đánh bại chúng ta trong cờ vua, phân tích hàng đống văn bản và sáng tác thơ sonnet. Đây là một trong những bất ngờ lớn nhất của thời đại hiện đại: những nhiệm vụ vật lý vốn dễ dàng với con người hóa ra lại vô cùng khó khăn với robot, trong khi các thuật toán ngày càng có khả năng bắt chước trí tuệ của chúng ta.
Một điều ngạc nhiên khác khiến các nhà nghiên cứu bối rối từ lâu là khả năng sáng tạo kỳ lạ của các thuật toán này.
Các mô hình khuếch tán, xương sống của các công cụ tạo ảnh như DALL·E, Imagen và Stable Diffusion, được thiết kế để tạo ra các bản sao carbon của những hình ảnh mà chúng đã được huấn luyện. Tuy nhiên, trên thực tế, chúng dường như ứng biến, pha trộn các yếu tố trong hình ảnh để tạo ra một cái gì đó mới mẻ, không chỉ là những đốm màu vô nghĩa, mà là những hình ảnh mạch lạc, có ý nghĩa ngữ nghĩa. Giulio Biroli, một nhà nghiên cứu AI và nhà vật lý tại École Normale Supérieure ở Paris, cho biết đây chính là "nghịch lý" đằng sau các mô hình khuếch tán: "Nếu chúng hoạt động hoàn hảo, chúng chỉ cần ghi nhớ," ông nói. "Nhưng chúng không làm vậy, chúng thực sự có thể tạo ra các mẫu mới."
Để tạo ra hình ảnh, các mô hình khuếch tán sử dụng một quy trình được gọi là khử nhiễu . Chúng chuyển đổi hình ảnh thành nhiễu kỹ thuật số (một tập hợp các điểm ảnh rời rạc), sau đó ghép lại. Nó giống như việc liên tục cho một bức tranh vào máy hủy tài liệu cho đến khi chỉ còn lại một đống bụi mịn, rồi lại ghép các mảnh lại với nhau. Trong nhiều năm, các nhà nghiên cứu đã tự hỏi: Nếu các mô hình chỉ đang ghép lại, thì làm thế nào sự mới lạ lại xuất hiện trong bức tranh? Nó giống như việc ghép lại bức tranh đã bị xé vụn của bạn thành một tác phẩm nghệ thuật hoàn toàn mới.
Giờ đây, hai nhà vật lý đã đưa ra một tuyên bố gây sốc: Chính những khiếm khuyết kỹ thuật trong quá trình khử nhiễu đã dẫn đến sự sáng tạo của các mô hình khuếch tán. Trong một bài báo sẽ được trình bày tại Hội nghị Quốc tế về Học máy 2025, bộ đôi này đã phát triển một mô hình toán học về các mô hình khuếch tán đã được huấn luyện để chứng minh rằng cái gọi là sự sáng tạo của họ thực chất là một quá trình tất định, một hệ quả trực tiếp, tất yếu của kiến trúc của họ.
Bằng cách làm sáng tỏ hộp đen của các mô hình khuếch tán, nghiên cứu mới này có thể mang lại những hàm ý to lớn cho nghiên cứu AI trong tương lai và thậm chí có thể cho cả sự hiểu biết của chúng ta về khả năng sáng tạo của con người. "Điểm mạnh thực sự của bài báo là nó đưa ra những dự đoán rất chính xác về một điều gì đó rất phi thường", Luca Ambrogioni, một nhà khoa học máy tính tại Đại học Radboud ở Hà Lan, cho biết.
Mason Kamb , một nghiên cứu sinh chuyên ngành vật lý ứng dụng tại Đại học Stanford và là tác giả chính của bài báo mới, từ lâu đã bị cuốn hút bởi quá trình hình thái học: quá trình mà các hệ thống sống tự lắp ráp.
Một cách để hiểu sự phát triển của phôi thai ở người và các loài động vật khác là thông qua cái được gọi là mô hình Turing , được đặt theo tên nhà toán học thế kỷ 20 Alan Turing. Mô hình Turing giải thích cách các nhóm tế bào có thể tự tổ chức thành các cơ quan và chi riêng biệt. Điều quan trọng là, tất cả sự phối hợp này đều diễn ra ở cấp độ cục bộ. Không có giám đốc điều hành nào giám sát hàng nghìn tỷ tế bào để đảm bảo rằng tất cả chúng đều tuân theo một kế hoạch cơ thể cuối cùng. Nói cách khác, các tế bào riêng lẻ không có bản thiết kế hoàn chỉnh nào về cơ thể để làm cơ sở cho công việc của chúng. Chúng chỉ hành động và thực hiện các điều chỉnh để đáp ứng với các tín hiệu từ những tế bào lân cận. Hệ thống từ dưới lên này thường chạy trơn tru, nhưng thỉnh thoảng nó lại gặp trục trặc - ví dụ như tạo ra bàn tay có thêm ngón tay.
Khi những hình ảnh đầu tiên do AI tạo ra bắt đầu xuất hiện trực tuyến, nhiều bức trông giống như tranh siêu thực, mô tả con người có thêm ngón tay. Những hình ảnh này ngay lập tức khiến Kamb nghĩ đến sự hình thái học: "Nó có mùi giống như một thất bại mà ta thường thấy ở một hệ thống [từ dưới lên]", ông nói.
Vào thời điểm đó, các nhà nghiên cứu AI đã biết rằng các mô hình khuếch tán sử dụng một vài thủ thuật kỹ thuật khi tạo hình ảnh. Thủ thuật đầu tiên được gọi là tính cục bộ: Chúng chỉ chú ý đến một nhóm, hay "mảng", pixel tại một thời điểm. Thủ thuật thứ hai là chúng tuân thủ một quy tắc nghiêm ngặt khi tạo hình ảnh: Ví dụ, nếu bạn dịch chuyển hình ảnh đầu vào chỉ vài pixel theo bất kỳ hướng nào, hệ thống sẽ tự động điều chỉnh để tạo ra cùng một thay đổi trong hình ảnh mà nó tạo ra. Tính năng này, được gọi là tính tương đương tịnh tiến, là cách mô hình duy trì cấu trúc mạch lạc; nếu không có nó, việc tạo ra hình ảnh chân thực sẽ khó khăn hơn nhiều.
Một phần vì những đặc điểm này, các mô hình khuếch tán không chú ý đến vị trí của một mảng cụ thể trên hình ảnh cuối cùng. Chúng chỉ tập trung vào việc tạo ra từng mảng một và sau đó tự động khớp chúng vào vị trí bằng một mô hình toán học được gọi là hàm điểm, có thể được coi là một mẫu Turing kỹ thuật số.
Các nhà nghiên cứu từ lâu đã coi tính cục bộ và tính tương đương chỉ là những hạn chế của quá trình khử nhiễu, những đặc điểm kỹ thuật khiến các mô hình khuếch tán không thể tạo ra bản sao hoàn hảo của hình ảnh. Họ không liên hệ chúng với sự sáng tạo, vốn được coi là một hiện tượng bậc cao.
Họ lại phải ngạc nhiên thêm lần nữa.
Kamb bắt đầu nghiên cứu sau đại học vào năm 2022 tại phòng thí nghiệm của Surya Ganguli , một nhà vật lý tại Stanford, người cũng có các công việc về thần kinh học và kỹ thuật điện. OpenAI đã phát hành ChatGPT cùng năm đó, tạo nên làn sóng quan tâm trong lĩnh vực hiện được gọi là trí tuệ nhân tạo (AI) tạo sinh. Khi các nhà phát triển công nghệ đang nỗ lực xây dựng các mô hình ngày càng mạnh mẽ hơn, nhiều học giả vẫn tập trung vào việc tìm hiểu hoạt động bên trong của các hệ thống này.
Mason Kamb (trái) và Surya Ganguli nhận thấy rằng tính sáng tạo trong các mô hình khuếch tán là hệ quả của kiến trúc của chúng.(Nguồn ảnh: Charles Yang)
Với mục đích đó, Kamb cuối cùng đã phát triển một giả thuyết rằng tính cục bộ và phương sai tương đương dẫn đến sự sáng tạo. Điều đó đã gợi lên một khả năng thực nghiệm hấp dẫn: Nếu ông có thể thiết kế một hệ thống chỉ để tối ưu hóa tính cục bộ và phương sai tương đương, thì nó sẽ hoạt động giống như một mô hình khuếch tán. Thí nghiệm này là trọng tâm trong bài báo mới của ông, được viết cùng với Ganguli là đồng tác giả.
Kamb và Ganguli gọi hệ thống của họ là máy ELS (equivariant local score - điểm số cục bộ tương đương). Đây không phải là một mô hình khuếch tán đã được huấn luyện, mà là một tập hợp các phương trình có thể phân tích dự đoán thành phần của các hình ảnh đã khử nhiễu chỉ dựa trên cơ chế định xứ và phương sai tương đương. Sau đó, họ lấy một loạt hình ảnh đã được chuyển đổi thành nhiễu kỹ thuật số và chạy chúng qua cả máy ELS và một số mô hình khuếch tán mạnh mẽ, bao gồm ResNet và UNet.
Ganguli cho biết kết quả thật "gây sốc": Nhìn chung, máy ELS có thể khớp chính xác kết quả đầu ra của các mô hình khuếch tán đã được đào tạo với độ chính xác trung bình là 90%, một kết quả "chưa từng có trong học máy", Ganguli cho biết.
Kết quả dường như ủng hộ giả thuyết của Kamb. "Ngay khi bạn áp đặt tính cục bộ, [sự sáng tạo] diễn ra một cách tự động; nó hoàn toàn tự nhiên bị loại bỏ khỏi động lực học", ông nói. Ông nhận thấy chính những cơ chế hạn chế phạm vi chú ý của các mô hình khuếch tán trong quá trình khử nhiễ, buộc chúng phải tập trung vào từng mảng riêng lẻ, bất kể vị trí cuối cùng của chúng trong sản phẩm cuối cùng, cũng chính là những cơ chế cho phép chúng sáng tạo, ông nhận thấy. Hiện tượng ngón tay thừa thấy trong các mô hình khuếch tán cũng là một sản phẩm phụ trực tiếp của việc mô hình quá tập trung vào việc tạo ra các mảng điểm ảnh cục bộ mà không có bất kỳ bối cảnh rộng hơn nào.
Các chuyên gia được phỏng vấn cho bài viết này nhìn chung đều đồng ý rằng mặc dù bài báo của Kamb và Ganguli làm sáng tỏ các cơ chế đằng sau sự sáng tạo trong các mô hình khuếch tán, nhưng vẫn còn nhiều điều bí ẩn. Ví dụ, các mô hình ngôn ngữ lớn và các hệ thống AI khác dường như cũng thể hiện sự sáng tạo, nhưng chúng không khai thác được tính cục bộ và tính tương đương.
Biroli cho biết: "Tôi nghĩ đây là một phần rất quan trọng của câu chuyện, [nhưng] đó không phải là toàn bộ câu chuyện".
Việc so sánh với khoa học thần kinh có thể vượt ra ngoài phạm vi ẩn dụ: công trình của Kamb và Ganguli cũng có thể cung cấp cái nhìn sâu sắc về hộp đen của tâm trí con người. "Sáng tạo của con người và AI có thể không quá khác biệt", Benjamin Hoover, một nhà nghiên cứu về máy học tại Viện Công nghệ Georgia và IBM Research, người chuyên nghiên cứu các mô hình khuếch tán, cho biết. "Chúng ta lắp ráp mọi thứ dựa trên những gì chúng ta trải nghiệm, những gì chúng ta mơ ước, những gì chúng ta thấy, nghe hoặc mong muốn. AI cũng chỉ đang lắp ráp các khối xây dựng từ những gì nó nhìn thấy và những gì nó được yêu cầu làm." Theo quan điểm này, cả sáng tạo của con người và nhân tạo về cơ bản có thể bắt nguồn từ sự hiểu biết chưa đầy đủ về thế giới: Tất cả chúng ta đều đang cố gắng hết sức để lấp đầy những khoảng trống kiến thức của mình, và thỉnh thoảng chúng ta lại tạo ra một thứ gì đó vừa mới mẻ vừa có giá trị. Có lẽ đây chính là cái mà chúng ta gọi là sáng tạo.
Một điều ngạc nhiên khác khiến các nhà nghiên cứu bối rối từ lâu là khả năng sáng tạo kỳ lạ của các thuật toán này.
Các mô hình khuếch tán, xương sống của các công cụ tạo ảnh như DALL·E, Imagen và Stable Diffusion, được thiết kế để tạo ra các bản sao carbon của những hình ảnh mà chúng đã được huấn luyện. Tuy nhiên, trên thực tế, chúng dường như ứng biến, pha trộn các yếu tố trong hình ảnh để tạo ra một cái gì đó mới mẻ, không chỉ là những đốm màu vô nghĩa, mà là những hình ảnh mạch lạc, có ý nghĩa ngữ nghĩa. Giulio Biroli, một nhà nghiên cứu AI và nhà vật lý tại École Normale Supérieure ở Paris, cho biết đây chính là "nghịch lý" đằng sau các mô hình khuếch tán: "Nếu chúng hoạt động hoàn hảo, chúng chỉ cần ghi nhớ," ông nói. "Nhưng chúng không làm vậy, chúng thực sự có thể tạo ra các mẫu mới."
Để tạo ra hình ảnh, các mô hình khuếch tán sử dụng một quy trình được gọi là khử nhiễu . Chúng chuyển đổi hình ảnh thành nhiễu kỹ thuật số (một tập hợp các điểm ảnh rời rạc), sau đó ghép lại. Nó giống như việc liên tục cho một bức tranh vào máy hủy tài liệu cho đến khi chỉ còn lại một đống bụi mịn, rồi lại ghép các mảnh lại với nhau. Trong nhiều năm, các nhà nghiên cứu đã tự hỏi: Nếu các mô hình chỉ đang ghép lại, thì làm thế nào sự mới lạ lại xuất hiện trong bức tranh? Nó giống như việc ghép lại bức tranh đã bị xé vụn của bạn thành một tác phẩm nghệ thuật hoàn toàn mới.
Giờ đây, hai nhà vật lý đã đưa ra một tuyên bố gây sốc: Chính những khiếm khuyết kỹ thuật trong quá trình khử nhiễu đã dẫn đến sự sáng tạo của các mô hình khuếch tán. Trong một bài báo sẽ được trình bày tại Hội nghị Quốc tế về Học máy 2025, bộ đôi này đã phát triển một mô hình toán học về các mô hình khuếch tán đã được huấn luyện để chứng minh rằng cái gọi là sự sáng tạo của họ thực chất là một quá trình tất định, một hệ quả trực tiếp, tất yếu của kiến trúc của họ.
Bằng cách làm sáng tỏ hộp đen của các mô hình khuếch tán, nghiên cứu mới này có thể mang lại những hàm ý to lớn cho nghiên cứu AI trong tương lai và thậm chí có thể cho cả sự hiểu biết của chúng ta về khả năng sáng tạo của con người. "Điểm mạnh thực sự của bài báo là nó đưa ra những dự đoán rất chính xác về một điều gì đó rất phi thường", Luca Ambrogioni, một nhà khoa học máy tính tại Đại học Radboud ở Hà Lan, cho biết.
Mason Kamb , một nghiên cứu sinh chuyên ngành vật lý ứng dụng tại Đại học Stanford và là tác giả chính của bài báo mới, từ lâu đã bị cuốn hút bởi quá trình hình thái học: quá trình mà các hệ thống sống tự lắp ráp.
Một cách để hiểu sự phát triển của phôi thai ở người và các loài động vật khác là thông qua cái được gọi là mô hình Turing , được đặt theo tên nhà toán học thế kỷ 20 Alan Turing. Mô hình Turing giải thích cách các nhóm tế bào có thể tự tổ chức thành các cơ quan và chi riêng biệt. Điều quan trọng là, tất cả sự phối hợp này đều diễn ra ở cấp độ cục bộ. Không có giám đốc điều hành nào giám sát hàng nghìn tỷ tế bào để đảm bảo rằng tất cả chúng đều tuân theo một kế hoạch cơ thể cuối cùng. Nói cách khác, các tế bào riêng lẻ không có bản thiết kế hoàn chỉnh nào về cơ thể để làm cơ sở cho công việc của chúng. Chúng chỉ hành động và thực hiện các điều chỉnh để đáp ứng với các tín hiệu từ những tế bào lân cận. Hệ thống từ dưới lên này thường chạy trơn tru, nhưng thỉnh thoảng nó lại gặp trục trặc - ví dụ như tạo ra bàn tay có thêm ngón tay.
Khi những hình ảnh đầu tiên do AI tạo ra bắt đầu xuất hiện trực tuyến, nhiều bức trông giống như tranh siêu thực, mô tả con người có thêm ngón tay. Những hình ảnh này ngay lập tức khiến Kamb nghĩ đến sự hình thái học: "Nó có mùi giống như một thất bại mà ta thường thấy ở một hệ thống [từ dưới lên]", ông nói.
Vào thời điểm đó, các nhà nghiên cứu AI đã biết rằng các mô hình khuếch tán sử dụng một vài thủ thuật kỹ thuật khi tạo hình ảnh. Thủ thuật đầu tiên được gọi là tính cục bộ: Chúng chỉ chú ý đến một nhóm, hay "mảng", pixel tại một thời điểm. Thủ thuật thứ hai là chúng tuân thủ một quy tắc nghiêm ngặt khi tạo hình ảnh: Ví dụ, nếu bạn dịch chuyển hình ảnh đầu vào chỉ vài pixel theo bất kỳ hướng nào, hệ thống sẽ tự động điều chỉnh để tạo ra cùng một thay đổi trong hình ảnh mà nó tạo ra. Tính năng này, được gọi là tính tương đương tịnh tiến, là cách mô hình duy trì cấu trúc mạch lạc; nếu không có nó, việc tạo ra hình ảnh chân thực sẽ khó khăn hơn nhiều.
Một phần vì những đặc điểm này, các mô hình khuếch tán không chú ý đến vị trí của một mảng cụ thể trên hình ảnh cuối cùng. Chúng chỉ tập trung vào việc tạo ra từng mảng một và sau đó tự động khớp chúng vào vị trí bằng một mô hình toán học được gọi là hàm điểm, có thể được coi là một mẫu Turing kỹ thuật số.
Các nhà nghiên cứu từ lâu đã coi tính cục bộ và tính tương đương chỉ là những hạn chế của quá trình khử nhiễu, những đặc điểm kỹ thuật khiến các mô hình khuếch tán không thể tạo ra bản sao hoàn hảo của hình ảnh. Họ không liên hệ chúng với sự sáng tạo, vốn được coi là một hiện tượng bậc cao.
Họ lại phải ngạc nhiên thêm lần nữa.
Kamb bắt đầu nghiên cứu sau đại học vào năm 2022 tại phòng thí nghiệm của Surya Ganguli , một nhà vật lý tại Stanford, người cũng có các công việc về thần kinh học và kỹ thuật điện. OpenAI đã phát hành ChatGPT cùng năm đó, tạo nên làn sóng quan tâm trong lĩnh vực hiện được gọi là trí tuệ nhân tạo (AI) tạo sinh. Khi các nhà phát triển công nghệ đang nỗ lực xây dựng các mô hình ngày càng mạnh mẽ hơn, nhiều học giả vẫn tập trung vào việc tìm hiểu hoạt động bên trong của các hệ thống này.
Mason Kamb (trái) và Surya Ganguli nhận thấy rằng tính sáng tạo trong các mô hình khuếch tán là hệ quả của kiến trúc của chúng.(Nguồn ảnh: Charles Yang)
Với mục đích đó, Kamb cuối cùng đã phát triển một giả thuyết rằng tính cục bộ và phương sai tương đương dẫn đến sự sáng tạo. Điều đó đã gợi lên một khả năng thực nghiệm hấp dẫn: Nếu ông có thể thiết kế một hệ thống chỉ để tối ưu hóa tính cục bộ và phương sai tương đương, thì nó sẽ hoạt động giống như một mô hình khuếch tán. Thí nghiệm này là trọng tâm trong bài báo mới của ông, được viết cùng với Ganguli là đồng tác giả.
Kamb và Ganguli gọi hệ thống của họ là máy ELS (equivariant local score - điểm số cục bộ tương đương). Đây không phải là một mô hình khuếch tán đã được huấn luyện, mà là một tập hợp các phương trình có thể phân tích dự đoán thành phần của các hình ảnh đã khử nhiễu chỉ dựa trên cơ chế định xứ và phương sai tương đương. Sau đó, họ lấy một loạt hình ảnh đã được chuyển đổi thành nhiễu kỹ thuật số và chạy chúng qua cả máy ELS và một số mô hình khuếch tán mạnh mẽ, bao gồm ResNet và UNet.
Ganguli cho biết kết quả thật "gây sốc": Nhìn chung, máy ELS có thể khớp chính xác kết quả đầu ra của các mô hình khuếch tán đã được đào tạo với độ chính xác trung bình là 90%, một kết quả "chưa từng có trong học máy", Ganguli cho biết.
Kết quả dường như ủng hộ giả thuyết của Kamb. "Ngay khi bạn áp đặt tính cục bộ, [sự sáng tạo] diễn ra một cách tự động; nó hoàn toàn tự nhiên bị loại bỏ khỏi động lực học", ông nói. Ông nhận thấy chính những cơ chế hạn chế phạm vi chú ý của các mô hình khuếch tán trong quá trình khử nhiễ, buộc chúng phải tập trung vào từng mảng riêng lẻ, bất kể vị trí cuối cùng của chúng trong sản phẩm cuối cùng, cũng chính là những cơ chế cho phép chúng sáng tạo, ông nhận thấy. Hiện tượng ngón tay thừa thấy trong các mô hình khuếch tán cũng là một sản phẩm phụ trực tiếp của việc mô hình quá tập trung vào việc tạo ra các mảng điểm ảnh cục bộ mà không có bất kỳ bối cảnh rộng hơn nào.
Các chuyên gia được phỏng vấn cho bài viết này nhìn chung đều đồng ý rằng mặc dù bài báo của Kamb và Ganguli làm sáng tỏ các cơ chế đằng sau sự sáng tạo trong các mô hình khuếch tán, nhưng vẫn còn nhiều điều bí ẩn. Ví dụ, các mô hình ngôn ngữ lớn và các hệ thống AI khác dường như cũng thể hiện sự sáng tạo, nhưng chúng không khai thác được tính cục bộ và tính tương đương.
Biroli cho biết: "Tôi nghĩ đây là một phần rất quan trọng của câu chuyện, [nhưng] đó không phải là toàn bộ câu chuyện".
Tạo ra sự sáng tạo
Lần đầu tiên, các nhà nghiên cứu đã chứng minh được rằng tính sáng tạo của các mô hình khuếch tán có thể được xem như một sản phẩm phụ của chính quá trình khử nhiễu, một quá trình có thể được chính thức hóa về mặt toán học và dự đoán với độ chính xác cao chưa từng có. Gần giống như các nhà khoa học thần kinh đã đưa một nhóm nghệ sĩ vào một máy chụp cộng hưởng từ (MRI) và tìm ra một cơ chế thần kinh chung đằng sau sự sáng tạo của họ, có thể được viết thành một tập hợp các phương trình.Việc so sánh với khoa học thần kinh có thể vượt ra ngoài phạm vi ẩn dụ: công trình của Kamb và Ganguli cũng có thể cung cấp cái nhìn sâu sắc về hộp đen của tâm trí con người. "Sáng tạo của con người và AI có thể không quá khác biệt", Benjamin Hoover, một nhà nghiên cứu về máy học tại Viện Công nghệ Georgia và IBM Research, người chuyên nghiên cứu các mô hình khuếch tán, cho biết. "Chúng ta lắp ráp mọi thứ dựa trên những gì chúng ta trải nghiệm, những gì chúng ta mơ ước, những gì chúng ta thấy, nghe hoặc mong muốn. AI cũng chỉ đang lắp ráp các khối xây dựng từ những gì nó nhìn thấy và những gì nó được yêu cầu làm." Theo quan điểm này, cả sáng tạo của con người và nhân tạo về cơ bản có thể bắt nguồn từ sự hiểu biết chưa đầy đủ về thế giới: Tất cả chúng ta đều đang cố gắng hết sức để lấp đầy những khoảng trống kiến thức của mình, và thỉnh thoảng chúng ta lại tạo ra một thứ gì đó vừa mới mẻ vừa có giá trị. Có lẽ đây chính là cái mà chúng ta gọi là sáng tạo.