Hoàng Khang
Writer
Các Mô hình ngôn ngữ lớn (LLM) với hàng trăm tỷ tham số từ OpenAI, Meta hay DeepSeek đã và đang làm thay đổi thế giới với khả năng đáng kinh ngạc. Tuy nhiên, sức mạnh này đi kèm với một cái giá không hề rẻ: chi phí huấn luyện khổng lồ (ví dụ Google chi 191 triệu USD cho Gemini 1.0 Ultra) và mức tiêu thụ năng lượng cực lớn khi vận hành (mỗi truy vấn ChatGPT tốn năng lượng gấp ~10 lần tìm kiếm Google). Trước thực trạng này, một xu hướng mới đang nổi lên mạnh mẽ trong ngành AI: "cắt tỉa" (pruning) và "chưng cất" (distillation) để tạo ra các Mô hình ngôn ngữ nhỏ (Small Language Models - SLM) hiệu quả hơn.
SLM: Nhỏ nhưng có võ
Thay vì chạy đua về số lượng tham số, các nhà nghiên cứu tại nhiều ông lớn công nghệ như IBM, Google, Microsoft và OpenAI gần đây đã liên tục phát hành các SLM chỉ sử dụng vài tỷ tham số (thường dưới 10 tỷ). Mục tiêu của SLM không phải là trở thành công cụ đa năng "biết tuốt" như LLM, mà là hoạt động hiệu quả vượt trội trong các nhiệm vụ cụ thể, có phạm vi hẹp hơn. Ví dụ như tóm tắt một cuộc trò chuyện dài, đóng vai trò chatbot chăm sóc sức khỏe trả lời câu hỏi bệnh nhân, hay thu thập và xử lý dữ liệu cơ bản trên các thiết bị thông minh.
"Với nhiều nhiệm vụ, một mô hình 8 tỷ tham số thực sự khá tốt," Giáo sư Zico Kolter (Đại học Carnegie Mellon) cho biết. Ưu điểm lớn nhất của SLM là chúng có thể chạy mượt mà ngay trên máy tính xách tay hoặc điện thoại thông minh thông thường, không cần đến các trung tâm dữ liệu khổng lồ.
Làm thế nào để tạo ra SLM hiệu quả?
Các nhà nghiên cứu đang sử dụng nhiều kỹ thuật thông minh để tối ưu hóa SLM:
Lợi ích của việc "thu nhỏ" AI
Việc phát triển SLM mang lại nhiều lợi ích thiết thực. Chúng tiết kiệm chi phí tính toán, tiêu thụ ít năng lượng hơn đáng kể và cho phép triển khai AI trên các thiết bị phần cứng hạn chế, đưa công nghệ đến gần hơn với người dùng cuối. Ngoài ra, SLM còn là công cụ hữu ích cho giới nghiên cứu. Vì có cấu trúc đơn giản hơn, việc phân tích và hiểu cơ chế hoạt động ("lý luận") của chúng có thể dễ dàng hơn, đồng thời cho phép các nhà khoa học thử nghiệm các ý tưởng mới với chi phí thấp hơn nhiều so với việc huấn luyện lại một LLM khổng lồ. "Mô hình nhỏ cho phép các nhà nghiên cứu thử nghiệm với mức cược thấp hơn," ông Leshem Choshen từ MIT-IBM Watson AI Lab nhận định.
Tất nhiên, các LLM siêu lớn vẫn giữ vai trò quan trọng đối với các ứng dụng đòi hỏi kiến thức bao quát và khả năng suy luận phức tạp như chatbot tổng quát, tạo ảnh nghệ thuật hay khám phá thuốc mới. Tuy nhiên, xu hướng phát triển các SLM hiệu quả, chuyên biệt cho thấy một sự trưởng thành cần thiết của ngành AI, nơi hiệu quả tài nguyên và tính ứng dụng thực tế ngày càng được coi trọng bên cạnh cuộc đua về sức mạnh thuần túy.

SLM: Nhỏ nhưng có võ
Thay vì chạy đua về số lượng tham số, các nhà nghiên cứu tại nhiều ông lớn công nghệ như IBM, Google, Microsoft và OpenAI gần đây đã liên tục phát hành các SLM chỉ sử dụng vài tỷ tham số (thường dưới 10 tỷ). Mục tiêu của SLM không phải là trở thành công cụ đa năng "biết tuốt" như LLM, mà là hoạt động hiệu quả vượt trội trong các nhiệm vụ cụ thể, có phạm vi hẹp hơn. Ví dụ như tóm tắt một cuộc trò chuyện dài, đóng vai trò chatbot chăm sóc sức khỏe trả lời câu hỏi bệnh nhân, hay thu thập và xử lý dữ liệu cơ bản trên các thiết bị thông minh.
"Với nhiều nhiệm vụ, một mô hình 8 tỷ tham số thực sự khá tốt," Giáo sư Zico Kolter (Đại học Carnegie Mellon) cho biết. Ưu điểm lớn nhất của SLM là chúng có thể chạy mượt mà ngay trên máy tính xách tay hoặc điện thoại thông minh thông thường, không cần đến các trung tâm dữ liệu khổng lồ.
Làm thế nào để tạo ra SLM hiệu quả?
Các nhà nghiên cứu đang sử dụng nhiều kỹ thuật thông minh để tối ưu hóa SLM:
- "Chưng cất kiến thức" (Knowledge Distillation): Phương pháp này sử dụng một LLM mạnh mẽ (đóng vai trò "giáo viên") để tạo ra một bộ dữ liệu huấn luyện chất lượng cao, súc tích và phù hợp cho việc đào tạo một SLM nhỏ hơn (học sinh). Dữ liệu "chưng cất" này hiệu quả hơn nhiều so với dữ liệu thô, "lộn xộn" thu thập từ Internet. "Lý do SLM trở nên tốt như vậy... là chúng sử dụng dữ liệu chất lượng cao thay vì những thứ lộn xộn," Giáo sư Kolter giải thích.
- "Cắt tỉa" (Pruning): Kỹ thuật này bắt đầu từ một mô hình lớn đã được huấn luyện, sau đó loại bỏ đi những kết nối hoặc tham số không cần thiết, ít hiệu quả trong mạng nơ-ron nhân tạo, tương tự như cách não người loại bỏ các khớp thần kinh không dùng đến khi trưởng thành. Khái niệm này được tiên phong bởi Yann LeCun (hiện ở Meta) từ năm 1989, cho thấy có thể loại bỏ tới 90% tham số mà không làm giảm hiệu quả cho một nhiệm vụ cụ thể. Việc cắt tỉa giúp tinh chỉnh SLM cho các ứng dụng chuyên biệt.

Lợi ích của việc "thu nhỏ" AI
Việc phát triển SLM mang lại nhiều lợi ích thiết thực. Chúng tiết kiệm chi phí tính toán, tiêu thụ ít năng lượng hơn đáng kể và cho phép triển khai AI trên các thiết bị phần cứng hạn chế, đưa công nghệ đến gần hơn với người dùng cuối. Ngoài ra, SLM còn là công cụ hữu ích cho giới nghiên cứu. Vì có cấu trúc đơn giản hơn, việc phân tích và hiểu cơ chế hoạt động ("lý luận") của chúng có thể dễ dàng hơn, đồng thời cho phép các nhà khoa học thử nghiệm các ý tưởng mới với chi phí thấp hơn nhiều so với việc huấn luyện lại một LLM khổng lồ. "Mô hình nhỏ cho phép các nhà nghiên cứu thử nghiệm với mức cược thấp hơn," ông Leshem Choshen từ MIT-IBM Watson AI Lab nhận định.

Tất nhiên, các LLM siêu lớn vẫn giữ vai trò quan trọng đối với các ứng dụng đòi hỏi kiến thức bao quát và khả năng suy luận phức tạp như chatbot tổng quát, tạo ảnh nghệ thuật hay khám phá thuốc mới. Tuy nhiên, xu hướng phát triển các SLM hiệu quả, chuyên biệt cho thấy một sự trưởng thành cần thiết của ngành AI, nơi hiệu quả tài nguyên và tính ứng dụng thực tế ngày càng được coi trọng bên cạnh cuộc đua về sức mạnh thuần túy.