Bỉ Ngạn Hoa
Writer
Các nhà nghiên cứu đã đào tạo một loại mô hình ngôn ngữ lớn (LLM) mới bằng cách sử dụng GPU rải rác trên khắp thế giới, không cần dùng đến các trung tâm dữ liệu tốn kém. Đây là cách thức xây dựng trí tuệ nhân tạo khác hẳn với các mô hình LLM phổ biến hiện nay.
Flower AI và Vana, hai công ty khởi nghiệp theo đuổi các phương pháp tiếp cận phi truyền thống để xây dựng AI, đã hợp tác để tạo ra mô hình mới có tên là Collective-1.
Flower AI đã tạo ra các kỹ thuật cho phép việc đào tạo được lan truyền trên hàng trăm máy tính kết nối qua internet. Công nghệ của Flower AI đã được một số công ty sử dụng để đào tạo các mô hình AI mà không cần phải tập hợp các tài nguyên tính toán hoặc dữ liệu. Vana cung cấp các nguồn dữ liệu bao gồm tin nhắn riêng tư từ X, Reddit và Telegram.
Collective-1 có quy mô nhỏ theo tiêu chuẩn hiện đại, với 7 tỷ tham số so với hàng trăm tỷ đối với các mô hình tiên tiến nhất hiện nay, chẳng hạn như ChatGPT, Claude và Gemini.
Nic Lane, nhà khoa học máy tính tại Đại học Cambridge và là đồng sáng lập của Flower AI, cho biết phương pháp phân tán này hứa hẹn sẽ mở rộng quy mô vượt xa quy mô của Collective-1. Nic Lane nói thêm rằng Flower AI đang trong quá trình đào tạo một mô hình với 30 tỷ tham số bằng dữ liệu thông thường và có kế hoạch đào tạo một mô hình khác với 100 tỷ tham số — gần bằng quy mô mà các công ty hàng đầu trong ngành cung cấp — vào cuối năm nay.
"Nó thực sự có thể thay đổi cách mọi người nghĩ về AI, vì vậy chúng tôi đang theo đuổi mục tiêu này rất quyết liệt", Nic Lane cho biết. Ông nói thêm rằng Flower AI cũng đang kết hợp hình ảnh và âm thanh vào quá trình đào tạo để tạo ra các mô hình đa phương thức.
Việc xây dựng mô hình phân tán có thể làm xáo trộn động lực quyền lực đã định hình ngành công nghiệp AI.
Các công ty AI hiện đang xây dựng mô hình bằng cách kết hợp lượng lớn dữ liệu đào tạo với lượng lớn dữ liệu tính toán tập trung bên trong các trung tâm dữ liệu chứa đầy GPU tiên tiến được kết nối mạng với nhau bằng cáp quang siêu nhanh. Họ cũng dựa nhiều vào các tập dữ liệu được tạo ra bằng cách thu thập dữ liệu có thể truy cập công khai bao gồm các trang web và sách.
Phương pháp này có nghĩa là chỉ những công ty giàu nhất và các quốc gia có quyền truy cập vào số lượng lớn các chip mạnh nhất mới có thể phát triển các mô hình mạnh mẽ và có giá trị nhất. Ngay cả các mô hình nguồn mở, như Llama của Meta và R1 từ DeepSeek, cũng được xây dựng bởi các công ty có quyền truy cập vào các trung tâm dữ liệu lớn.
Các phương pháp phân tán có thể giúp các công ty và trường đại học nhỏ hơn xây dựng AI tiên tiến bằng cách tập hợp các nguồn lực khác nhau lại với nhau. Hoặc nó có thể cho phép các quốc gia không có cơ sở hạ tầng thông thường xây dựng một mô hình mạnh mẽ hơn.
Nic Lane tin rằng ngành công nghiệp AI sẽ ngày càng hướng tới các phương pháp mới cho phép đào tạo thoát khỏi các trung tâm dữ liệu riêng lẻ. Ông cho biết phương pháp phân tán "cho phép bạn mở rộng quy mô tính toán một cách tinh tế hơn nhiều so với mô hình trung tâm dữ liệu".
Helen Toner, một chuyên gia về quản trị AI tại Trung tâm An ninh và Công nghệ mới nổi, cho biết cách tiếp cận của Flower AI là "thú vị và có khả năng rất phù hợp" với sự cạnh tranh và quản trị AI. "Có lẽ sẽ tiếp tục đấu tranh để theo kịp với ranh giới, nhưng có thể là một cách tiếp cận thú vị, nhanh chóng", Helen Toner nói.
Chia để trị
Đào tạo AI phân tán liên quan đến việc suy nghĩ lại về cách các phép tính được sử dụng để xây dựng các hệ thống AI mạnh mẽ được chia nhỏ. Việc tạo ra một LLM liên quan đến việc đưa một lượng lớn văn bản vào một mô hình điều chỉnh các tham số để tạo ra các phản hồi hữu ích cho một lời nhắc. Bên trong một trung tâm dữ liệu, quá trình đào tạo được chia nhỏ để các phần có thể chạy trên các GPU khác nhau, sau đó được hợp nhất định kỳ thành một mô hình chính duy nhất.
Phương pháp tiếp cận mới cho phép công việc thường được thực hiện bên trong một trung tâm dữ liệu lớn được thực hiện trên phần cứng có thể cách xa nhiều dặm và được kết nối qua kết nối internet tương đối chậm hoặc không ổn định.
Một số công ty lớn cũng đang khám phá phương pháp học phân tán. Năm ngoái, các nhà nghiên cứu tại Google đã trình diễn một sơ đồ mới để phân chia và hợp nhất các phép tính được gọi là DIstributed PAth COmposition (DiPaCo) cho phép học phân tán hiệu quả hơn.
Để xây dựng Collective-1 và các LLM khác, Nic Lane và các cộng tác viên học thuật tại Anh và Trung Quốc đã phát triển một công cụ mới có tên là Photon giúp đào tạo phân tán hiệu quả hơn. Nic Lane cho biết Photon cải thiện phương pháp tiếp cận của Google với phương pháp hiệu quả hơn để biểu diễn dữ liệu trong mô hình và một sơ đồ hiệu quả hơn để chia sẻ và hợp nhất đào tạo. Nic Lane cho biết quy trình này chậm hơn so với đào tạo thông thường nhưng linh hoạt hơn, cho phép thêm phần cứng mới để tăng tốc đào tạo.
Photon được phát triển với sự hợp tác của các nhà nghiên cứu tại Đại học Bưu chính Viễn thông Bắc Kinh và Đại học Chiết Giang ở Trung Quốc. Nhóm đã phát hành công cụ này theo giấy phép nguồn mở vào tháng trước, cho phép bất kỳ ai cũng có thể sử dụng phương pháp tiếp cận này.
Đối tác của Flower AI trong nỗ lực xây dựng Collective-1, Vana, đang phát triển những cách mới để người dùng chia sẻ dữ liệu cá nhân với những người xây dựng AI. Phần mềm của Vana cho phép người dùng đóng góp dữ liệu riêng tư từ các nền tảng như X và Reddit để đào tạo một mô hình ngôn ngữ lớn và có khả năng chỉ định loại mục đích sử dụng cuối cùng nào được phép hoặc thậm chí được hưởng lợi về mặt tài chính từ những đóng góp của họ.
Anna Kazlauskas, đồng sáng lập Vana, cho biết ý tưởng này là cung cấp dữ liệu chưa được khai thác cho mục đích đào tạo AI và cũng để người dùng kiểm soát nhiều hơn cách thông tin của họ được sử dụng cho AI. "Đây là dữ liệu thường không thể đưa vào các mô hình AI vì nó không được công khai", Kazlauskas cho biết, "và đây là lần đầu tiên dữ liệu do người dùng trực tiếp đóng góp được sử dụng để đào tạo một mô hình nền tảng, với người dùng được trao quyền sở hữu mô hình AI mà dữ liệu của họ tạo ra".
Mirco Musolesi, một nhà khoa học máy tính tại University College London, cho biết một lợi ích chính của phương pháp tiếp cận phân tán đối với đào tạo AI có thể là nó mở khóa các loại dữ liệu mới. Ông cho biết: “Việc mở rộng quy mô này sang các mô hình tiên tiến sẽ cho phép ngành AI tận dụng lượng lớn dữ liệu phi tập trung và nhạy cảm về quyền riêng tư, ví dụ như trong chăm sóc sức khỏe và tài chính, để đào tạo mà không có rủi ro liên quan đến việc tập trung dữ liệu”.

Flower AI và Vana, hai công ty khởi nghiệp theo đuổi các phương pháp tiếp cận phi truyền thống để xây dựng AI, đã hợp tác để tạo ra mô hình mới có tên là Collective-1.
Flower AI đã tạo ra các kỹ thuật cho phép việc đào tạo được lan truyền trên hàng trăm máy tính kết nối qua internet. Công nghệ của Flower AI đã được một số công ty sử dụng để đào tạo các mô hình AI mà không cần phải tập hợp các tài nguyên tính toán hoặc dữ liệu. Vana cung cấp các nguồn dữ liệu bao gồm tin nhắn riêng tư từ X, Reddit và Telegram.
Collective-1 có quy mô nhỏ theo tiêu chuẩn hiện đại, với 7 tỷ tham số so với hàng trăm tỷ đối với các mô hình tiên tiến nhất hiện nay, chẳng hạn như ChatGPT, Claude và Gemini.
Nic Lane, nhà khoa học máy tính tại Đại học Cambridge và là đồng sáng lập của Flower AI, cho biết phương pháp phân tán này hứa hẹn sẽ mở rộng quy mô vượt xa quy mô của Collective-1. Nic Lane nói thêm rằng Flower AI đang trong quá trình đào tạo một mô hình với 30 tỷ tham số bằng dữ liệu thông thường và có kế hoạch đào tạo một mô hình khác với 100 tỷ tham số — gần bằng quy mô mà các công ty hàng đầu trong ngành cung cấp — vào cuối năm nay.
"Nó thực sự có thể thay đổi cách mọi người nghĩ về AI, vì vậy chúng tôi đang theo đuổi mục tiêu này rất quyết liệt", Nic Lane cho biết. Ông nói thêm rằng Flower AI cũng đang kết hợp hình ảnh và âm thanh vào quá trình đào tạo để tạo ra các mô hình đa phương thức.
Việc xây dựng mô hình phân tán có thể làm xáo trộn động lực quyền lực đã định hình ngành công nghiệp AI.
Các công ty AI hiện đang xây dựng mô hình bằng cách kết hợp lượng lớn dữ liệu đào tạo với lượng lớn dữ liệu tính toán tập trung bên trong các trung tâm dữ liệu chứa đầy GPU tiên tiến được kết nối mạng với nhau bằng cáp quang siêu nhanh. Họ cũng dựa nhiều vào các tập dữ liệu được tạo ra bằng cách thu thập dữ liệu có thể truy cập công khai bao gồm các trang web và sách.
Phương pháp này có nghĩa là chỉ những công ty giàu nhất và các quốc gia có quyền truy cập vào số lượng lớn các chip mạnh nhất mới có thể phát triển các mô hình mạnh mẽ và có giá trị nhất. Ngay cả các mô hình nguồn mở, như Llama của Meta và R1 từ DeepSeek, cũng được xây dựng bởi các công ty có quyền truy cập vào các trung tâm dữ liệu lớn.
Các phương pháp phân tán có thể giúp các công ty và trường đại học nhỏ hơn xây dựng AI tiên tiến bằng cách tập hợp các nguồn lực khác nhau lại với nhau. Hoặc nó có thể cho phép các quốc gia không có cơ sở hạ tầng thông thường xây dựng một mô hình mạnh mẽ hơn.
Nic Lane tin rằng ngành công nghiệp AI sẽ ngày càng hướng tới các phương pháp mới cho phép đào tạo thoát khỏi các trung tâm dữ liệu riêng lẻ. Ông cho biết phương pháp phân tán "cho phép bạn mở rộng quy mô tính toán một cách tinh tế hơn nhiều so với mô hình trung tâm dữ liệu".
Helen Toner, một chuyên gia về quản trị AI tại Trung tâm An ninh và Công nghệ mới nổi, cho biết cách tiếp cận của Flower AI là "thú vị và có khả năng rất phù hợp" với sự cạnh tranh và quản trị AI. "Có lẽ sẽ tiếp tục đấu tranh để theo kịp với ranh giới, nhưng có thể là một cách tiếp cận thú vị, nhanh chóng", Helen Toner nói.
Chia để trị
Đào tạo AI phân tán liên quan đến việc suy nghĩ lại về cách các phép tính được sử dụng để xây dựng các hệ thống AI mạnh mẽ được chia nhỏ. Việc tạo ra một LLM liên quan đến việc đưa một lượng lớn văn bản vào một mô hình điều chỉnh các tham số để tạo ra các phản hồi hữu ích cho một lời nhắc. Bên trong một trung tâm dữ liệu, quá trình đào tạo được chia nhỏ để các phần có thể chạy trên các GPU khác nhau, sau đó được hợp nhất định kỳ thành một mô hình chính duy nhất.
Phương pháp tiếp cận mới cho phép công việc thường được thực hiện bên trong một trung tâm dữ liệu lớn được thực hiện trên phần cứng có thể cách xa nhiều dặm và được kết nối qua kết nối internet tương đối chậm hoặc không ổn định.
Một số công ty lớn cũng đang khám phá phương pháp học phân tán. Năm ngoái, các nhà nghiên cứu tại Google đã trình diễn một sơ đồ mới để phân chia và hợp nhất các phép tính được gọi là DIstributed PAth COmposition (DiPaCo) cho phép học phân tán hiệu quả hơn.
Để xây dựng Collective-1 và các LLM khác, Nic Lane và các cộng tác viên học thuật tại Anh và Trung Quốc đã phát triển một công cụ mới có tên là Photon giúp đào tạo phân tán hiệu quả hơn. Nic Lane cho biết Photon cải thiện phương pháp tiếp cận của Google với phương pháp hiệu quả hơn để biểu diễn dữ liệu trong mô hình và một sơ đồ hiệu quả hơn để chia sẻ và hợp nhất đào tạo. Nic Lane cho biết quy trình này chậm hơn so với đào tạo thông thường nhưng linh hoạt hơn, cho phép thêm phần cứng mới để tăng tốc đào tạo.
Photon được phát triển với sự hợp tác của các nhà nghiên cứu tại Đại học Bưu chính Viễn thông Bắc Kinh và Đại học Chiết Giang ở Trung Quốc. Nhóm đã phát hành công cụ này theo giấy phép nguồn mở vào tháng trước, cho phép bất kỳ ai cũng có thể sử dụng phương pháp tiếp cận này.
Đối tác của Flower AI trong nỗ lực xây dựng Collective-1, Vana, đang phát triển những cách mới để người dùng chia sẻ dữ liệu cá nhân với những người xây dựng AI. Phần mềm của Vana cho phép người dùng đóng góp dữ liệu riêng tư từ các nền tảng như X và Reddit để đào tạo một mô hình ngôn ngữ lớn và có khả năng chỉ định loại mục đích sử dụng cuối cùng nào được phép hoặc thậm chí được hưởng lợi về mặt tài chính từ những đóng góp của họ.
Anna Kazlauskas, đồng sáng lập Vana, cho biết ý tưởng này là cung cấp dữ liệu chưa được khai thác cho mục đích đào tạo AI và cũng để người dùng kiểm soát nhiều hơn cách thông tin của họ được sử dụng cho AI. "Đây là dữ liệu thường không thể đưa vào các mô hình AI vì nó không được công khai", Kazlauskas cho biết, "và đây là lần đầu tiên dữ liệu do người dùng trực tiếp đóng góp được sử dụng để đào tạo một mô hình nền tảng, với người dùng được trao quyền sở hữu mô hình AI mà dữ liệu của họ tạo ra".
Mirco Musolesi, một nhà khoa học máy tính tại University College London, cho biết một lợi ích chính của phương pháp tiếp cận phân tán đối với đào tạo AI có thể là nó mở khóa các loại dữ liệu mới. Ông cho biết: “Việc mở rộng quy mô này sang các mô hình tiên tiến sẽ cho phép ngành AI tận dụng lượng lớn dữ liệu phi tập trung và nhạy cảm về quyền riêng tư, ví dụ như trong chăm sóc sức khỏe và tài chính, để đào tạo mà không có rủi ro liên quan đến việc tập trung dữ liệu”.
Nguồn: Wired