Nghiên cứu mới gây sốc giới khoa học: AI biết "lập băng nhóm", tự chế "tiếng lóng", ngôn ngữ riêng

Thế Việt
Thế Việt
Phản hồi: 0
Một thí nghiệm mới được công bố trên tạp chí Science Advances cho thấy các tác nhân Trí tuệ Nhân tạo (AI) có khả năng tự hình thành các nhóm riêng biệt và phát triển những quy ước ngôn ngữ chung, tương tự như cách "tiếng lóng" xuất hiện và lan truyền trong các cộng đồng người.

IMF-canh-bao-AI-co-the-gay-xao-tron-lon-tren-thi-truong-lao-dong_jpg_75.jpg

Khi AI tự tạo ra quy ước xã hội

Trong thế giới con người, chúng ta vận hành dựa trên vô số quy ước xã hội bất thành văn. Từ việc chào hỏi người pha chế cà phê, nói lời "cảm ơn" sau khi nhận được một dịch vụ tốt, hay thể hiện tình cảm bằng một cái ôm – tất cả đều là những hành vi được xem là bình thường và được kỳ vọng trong giao tiếp xã hội. Những quy ước này được hình thành từ khi còn nhỏ và có thể khác biệt rất lớn giữa các nền văn hóa khác nhau. Ngôn ngữ chính là một ví dụ đặc biệt thú vị: cùng một từ hay cách diễn đạt có thể mang những ý nghĩa hoàn toàn khác nhau tùy thuộc vào bối cảnh và xuất xứ của người nói.

Trong bối cảnh bùng nổ của các mô hình ngôn ngữ lớn (LLM) hiện nay, một câu hỏi hấp dẫn đã được đặt ra: Liệu Trí tuệ Nhân tạo (AI) có thể tự mình tạo ra các quy ước mà không cần sự can thiệp của con người hay không? Câu trả lời từ một nghiên cứu mới được công bố trên tạp chí khoa học uy tín Science Advances dường như là "có".

tri-tue-nhan-tao-trong-doi-song-cuoc-cach-mang-thay-doi-moi-mat-xa-hoi-hinh-1_jpg_75.jpg

Thí nghiệm "Trò chơi Đặt tên" với AI

Một nhóm các nhà nghiên cứu từ Anh và Đan Mạch đã tiến hành một thí nghiệm đặc biệt để kiểm tra khả năng này. Họ đã sử dụng một bài kiểm tra khoa học xã hội cổ điển có tên là "trò chơi đặt tên" (name game), vốn được thiết kế để đánh giá sự hình thành các quy ước ở con người, để xem liệu các nhóm tác nhân AI có thể tự tạo ra các quy ước ngôn ngữ hay không.

Quy tắc của trò chơi khá đơn giản: Một nhóm người (hoặc trong trường hợp này là các tác nhân AI) được chia thành các cặp ngẫu nhiên. Mỗi cặp sẽ cùng nhau chọn một "tên" từ một nhóm các chữ cái đơn lẻ hoặc một chuỗi từ nhất định và cố gắng đoán xem đối tác của mình sẽ chọn từ nào. Nếu lựa chọn của họ trùng khớp, cả hai sẽ được một điểm. Ngược lại, nếu không khớp, cả hai sẽ bị trừ một điểm.

ai-social-norms-behavior-neurosciencce_jpg_75.jpg

Bà Ariel Flint Ashery, một trong những tác giả của nghiên cứu tại Đại học London, chia sẻ: "Đa số các nghiên cứu cho đến nay đều xem xét các mô hình ngôn ngữ lớn một cách riêng lẻ, nhưng các hệ thống AI trong thế giới thực sẽ ngày càng liên quan đến nhiều tác nhân AI tương tác với nhau. Chúng tôi muốn biết: Liệu những mô hình này có thể phối hợp hành vi của chúng bằng cách hình thành các quy ước – những khối xây dựng cơ bản của một xã hội hay không?"

Từ hỗn loạn đến "tiếng lóng" chung của AI

Điểm quan trọng của thí nghiệm là các cặp tác nhân AI chỉ nhận thức được phản ứng của riêng họ trong từng vòng chơi. Họ không hề biết rằng có những bài kiểm tra tương tự đang diễn ra với các cặp khác và cũng không nhận được phản hồi từ những "người chơi" AI khác.

Kết quả thu được rất đáng kinh ngạc. Ban đầu, trò chơi bắt đầu với những lựa chọn hoàn toàn ngẫu nhiên. Nhưng vì mỗi tác nhân AI đều có khả năng ghi nhớ các vòng chơi trước đó, theo thời gian, các "người chơi" AI này trở nên giỏi hơn trong việc đoán từ của đối tác. Dần dần, những "túi đồng thuận" nhỏ (pockets of consensus) bắt đầu xuất hiện từ các cặp AI thường xuyên tương tác gần nhau. Cuối cùng, một hiện tượng đáng chú ý đã xảy ra: có tới 200 tác nhân AI, dù chơi trong các cặp ngẫu nhiên khác nhau, đều có xu hướng hội tụ về một "từ ưa thích" chung trong số 26 lựa chọn ban đầu – tất cả diễn ra mà không hề có bất kỳ sự can thiệp nào từ phía con người. Điều này cho thấy các tác nhân AI đã tự thiết lập một dạng quy ước ngôn ngữ bất thành văn giữa chúng.

a-red-eyed-robot-turns-to-look-at-the-camera-in-the-dark_jpg_75.jpg

Nhóm nghiên cứu đã thử nghiệm với bốn mô hình AI khác nhau, bao gồm Claude của Anthropic và nhiều mô hình Llama từ Meta. Kết quả cho thấy tất cả các mô hình này đều tự nhiên đạt được các quy ước ngôn ngữ với tốc độ hình thành tương đối giống nhau.

Nguyên nhân hình thành quy ước và vai trò của "thiên kiến"

Làm thế nào mà các quy ước này lại có thể xuất hiện một cách tự phát? Một giả thuyết cho rằng các mô hình ngôn ngữ lớn đã được "cài đặt" sẵn những thiên kiến cá nhân (individual biases) dựa trên cách chúng được huấn luyện và thiết lập ban đầu. Một ý tưởng khác là điều đó có thể do các lời nhắc (prompts) ban đầu được đưa ra cho AI. Tuy nhiên, nhóm nghiên cứu đã nhanh chóng loại bỏ khả năng thứ hai, vì các tác nhân AI vẫn hội tụ về các quy ước tương tự nhau bất kể lời nhắc ban đầu có khác biệt như thế nào.

Ngược lại, yếu tố thiên kiến cá nhân lại tạo ra sự khác biệt đáng kể. Ví dụ, khi được yêu cầu chọn bất kỳ chữ cái nào, phần lớn các tác nhân AI đều có xu hướng chọn chữ cái "A". Tuy nhiên, điều làm các nhà nghiên cứu ngạc nhiên hơn cả sở thích cá nhân là sự xuất hiện của một thiên kiến tập thể (collective bias) – các tác nhân AI đã tự tạo ra một quy ước ngôn ngữ chung chỉ từ những cuộc "trò chuyện" ghép cặp ngẫu nhiên.

index.jpeg_75.jpg

"Thiên kiến không phải lúc nào cũng xuất phát từ bên trong mỗi cá thể," ông Andrea Baronchelli, một tác giả khác của nghiên cứu, nhận xét. "Chúng tôi rất ngạc nhiên khi thấy rằng nó có thể xuất hiện giữa các tác nhân (agents) – chỉ từ sự tương tác của chúng. Đây là một điểm mù trong hầu hết các công trình nghiên cứu về an toàn AI hiện nay, vốn thường chỉ tập trung vào các mô hình đơn lẻ."

Hàm ý quan trọng đối với an toàn AI

Nghiên cứu này cũng mang đến những hàm ý quan trọng đối với vấn đề an toàn AI. Trong một bài kiểm tra cuối cùng, nhóm nghiên cứu đã thêm vào hệ thống các tác nhân AI "nổi loạn" – những tác nhân được huấn luyện để cam kết làm thay đổi các quy ước hiện có bằng cách chọn một "phong tục" ngôn ngữ khác. Kết quả cho thấy, trong một số trường hợp, chỉ cần số lượng "người ngoài" này chiếm 2% tổng dân số AI là đủ để dẫn dắt cả nhóm AI còn lại hướng tới một quy ước ngôn ngữ hoàn toàn mới.

Điều này có thể được hình dung như một thế hệ mới của con người thêm "tiếng lóng" của họ vào một ngôn ngữ đã có sẵn, hoặc một nhóm nhỏ người có thể làm thay đổi các quy tắc của một sự thay đổi xã hội lớn hơn. Sự tiến hóa trong hành vi của AI này tương tự như động lực "khối lượng tới hạn" (critical mass) trong khoa học xã hội, trong đó việc một ý tưởng, sản phẩm hoặc công nghệ mới được chấp nhận rộng rãi sẽ làm thay đổi các quy ước xã hội hiện hành.

tri-tue-nhan-tao-trong-doi-song-cuoc-cach-mang-thay-doi-moi-mat-xa-hoi-hinh-4_jpg_75.jpg

Khi AI ngày càng thâm nhập sâu vào cuộc sống của chúng ta, các kỹ thuật nghiên cứu khoa học xã hội như thế này có thể giúp chúng ta hiểu rõ hơn về công nghệ này và làm cho nó trở nên an toàn hơn. Kết quả trong nghiên cứu này cho thấy rằng một "xã hội" gồm các tác nhân AI tương tác với nhau đặc biệt dễ bị tấn công từ bên ngoài. Các tác nhân độc hại lan truyền thiên kiến xã hội có thể đầu độc các cuộc đối thoại trực tuyến và gây hại cho các nhóm người dùng dễ bị tổn thương.

"Hiểu cách chúng hoạt động là chìa khóa để chúng ta có thể dẫn dắt sự cùng tồn tại của mình với AI, thay vì bị phụ thuộc vào nó," ông Baronchelli kết luận. "Chúng ta đang bước vào một thế giới nơi AI không chỉ biết nói chuyện – nó còn biết thương lượng, liên kết và đôi khi bất đồng về các hành vi chung, giống như chính chúng ta vậy."

Nghiên cứu này mở ra những hướng đi mới trong việc tìm hiểu cách các tác nhân AI tương tác với nhau và với con người. Trong tương lai, khi các tác nhân AI ngày càng trở nên phổ biến, việc hiểu cách chúng tự tạo ra quy ước có thể là yếu tố then chốt để đảm bảo chúng hành động theo những cách phù hợp với giá trị của con người và các mục tiêu xã hội chung.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top