Jinu
Intern Writer
Tưởng tượng xem, một sinh vật bé tí hon nhưng lại là "trái tim" của cả một hệ sinh thái khổng lồ, quyết định sự sống còn của cá, cá voi, chim cánh cụt và hải cẩu ở Nam Cực. Đó chính là nhuyễn thể Nam Cực (Antarctic krill). Số lượng và sự phân bố của chúng không chỉ ảnh hưởng đến chuỗi thức ăn mà còn là một phong vũ biểu quan trọng cho biến đổi khí hậu toàn cầu. Thế nhưng, suốt hàng trăm năm qua, các nhà khoa học vẫn luôn trăn trở với hai câu hỏi lớn: Có bao nhiêu nhuyễn thể ở Nam Đại Dương? Và chúng phân bố ở đâu?
Mới đây, một bước đột phá đã xuất hiện. Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải (Shanghai AI Lab) cùng với Trung tâm Dữ liệu Khoa học Cực quốc gia (National Polar Science Data Center) đã bắt tay nhau, sử dụng hệ thống khám phá khoa học "Shusheng" Intern·Agent để tạo ra một "trợ lý" AI đặc biệt mang tên SciDataCopilot. "Trợ lý" này đã tổng hợp dữ liệu quan sát nhuyễn thể toàn cầu trong gần một thế kỷ, xây dựng nên một bộ dữ liệu chuẩn hóa khổng lồ. Bộ dữ liệu này chứa hơn 80.000 bản ghi về sự xuất hiện của nhuyễn thể và hơn 10.000 bản ghi về mật độ, vượt xa các cơ sở dữ liệu chuẩn quốc tế hiện có. Có thể nói, đây chính là một "bản đồ" nhuyễn thể toàn cầu, giúp các nhà nghiên cứu hiểu rõ hơn về xu hướng phân bố theo mùa của chúng, từ đó cung cấp cơ sở khoa học vững chắc để bảo vệ hệ sinh thái biển Nam Cực trong bối cảnh biến đổi khí hậu.
Tại sao việc này lại khó đến vậy? Bởi vì nhuyễn thể Nam Cực là loài chủ chốt, kết nối từ thực vật phù du đến cá voi, chim cánh cụt trong chuỗi thức ăn. Sự phân bố và số lượng của chúng phản ánh trực tiếp tốc độ tan chảy của băng Nam Cực và sự ấm lên của các dòng hải lưu. Suốt hàng trăm năm, các quốc gia như Trung Quốc, Mỹ, Úc và nhiều nước châu Âu đã liên tục thực hiện các cuộc khảo sát thực địa, thu thập được một lượng lớn dữ liệu.
Tuy nhiên, ngành khoa học này luôn phải đối mặt với một vấn đề nan giải về quản lý dữ liệu. Một mặt, dữ liệu quan sát nhuyễn thể Nam Cực đến từ nhiều nguồn khác nhau và không có một tiêu chuẩn chung. Chúng nằm rải rác trong các hồ sơ khảo sát, báo cáo chuyến đi, tài liệu học thuật và cơ sở dữ liệu công cộng của nhiều quốc gia, với đủ loại định dạng tệp. Việc tích hợp chúng từ các nguồn khác nhau là cực kỳ khó khăn. Hơn nữa, các chuyến khảo sát khác nhau lại sử dụng thiết bị lấy mẫu, phương pháp thống kê và đơn vị đo lường không đồng nhất, khiến việc so sánh dữ liệu trực tiếp trở nên bất khả thi. Mặt khác, nếu dựa vào con người để tổng hợp lượng dữ liệu khổng lồ này, quá trình đó có thể kéo dài hàng năm trời, không chỉ kém hiệu quả mà còn dễ phát sinh lỗi. Việc xử lý thủ công cũng thiếu một hệ thống truy xuất nguồn gốc dữ liệu hoàn chỉnh, khó đáp ứng yêu cầu về độ tin cậy cho việc tái hiện kết quả nghiên cứu, kiểm toán tuân thủ dữ liệu và quản lý tài nguyên vùng cực.
Để giải quyết những thách thức này, nhóm nghiên cứu đã tận dụng khả năng tự động hóa hoàn toàn của hệ thống khám phá khoa học "Shusheng" và SciDataCopilot. Hệ thống này tự động phân tích, chuẩn hóa, kiểm soát chất lượng và quản lý truy xuất nguồn gốc cho hàng loạt dữ liệu không đồng nhất trên toàn cầu. Nhờ đó, mỗi bản ghi đều có thể được đưa vào tính toán thống nhất và truy ngược về nguồn gốc, cuối cùng tạo nên bộ dữ liệu nhuyễn thể Nam Cực hoàn chỉnh.
Bộ dữ liệu này bao gồm lịch sử quan sát nhuyễn thể Nam Cực kéo dài gần một thế kỷ, từ năm 1926 đến năm 2025. Nó không chỉ bổ sung thêm hơn 80.000 bản ghi vị trí khảo sát mới mà còn mở rộng đáng kể quy mô và phạm vi phân bố dữ liệu nhuyễn thể so với các dữ liệu quốc tế thông thường, đồng thời bổ sung và hoàn thiện các dữ liệu hiện có. Điều này hứa hẹn sẽ hỗ trợ nhiều khám phá khoa học hơn về sự phân bố loài và biến đổi khí hậu toàn cầu ở Nam Đại Dương.
Điểm mấu chốt để "dịch" được bộ dữ liệu chuẩn hóa này từ hàng trăm năm ghi chép khoa học một cách hiệu quả và chính xác chính là SciDataCopilot. "Trợ lý" AI này được phát triển dựa trên hệ thống "Shusheng", tích hợp công cụ phân tích tài liệu thông minh MinerU. Nó được thiết kế đặc biệt để giải quyết các vấn đề trong quá trình chuẩn bị dữ liệu khoa học, như đa dạng về hình thức, cơ chế khoa học ngầm định, phụ thuộc vào kiến thức chuyên môn, công cụ phân tán và mức độ tùy chỉnh nhiệm vụ cao. Nhờ đó, nó có thể tự động hóa toàn bộ quy trình chuẩn bị dữ liệu, từ ý định ngôn ngữ tự nhiên đến dữ liệu khoa học chất lượng cao.
Trong dự án này, nhóm nghiên cứu đã sử dụng SciDataCopilot để xây dựng một quy trình tổng hợp tích hợp: "lập kế hoạch dữ liệu thông minh – tự động tạo script – chuyên gia kiểm tra và hoàn thiện". Hệ thống có thể tự động nhận diện một bản ghi quan sát có thuộc về dữ liệu nhuyễn thể trưởng thành hay không, xác định loại dữ liệu, và thống nhất các thông tin quan trọng như vĩ độ, kinh độ, thời gian, độ sâu lấy mẫu, loại lưới, nguồn gốc. Nó cũng chuyển đổi các giá trị mật độ từ các đơn vị đo lường khác nhau thành mật độ chuẩn có thể so sánh được. Đồng thời, hệ thống tự động sàng lọc các bản ghi trùng lặp, thiếu sót hoặc bất thường, hỗ trợ các chuyên gia rà soát thủ công và lưu giữ đầy đủ nhật ký hoạt động để kiểm toán.
"Trợ lý" AI này đã đẩy nhanh đáng kể quá trình xây dựng bộ dữ liệu nhuyễn thể Nam Cực. Toàn bộ quy trình chỉ cần gọi mô hình lớn khoảng 2.000 lần để hoàn thành, đồng thời tích lũy được toàn bộ kỹ năng xử lý dữ liệu nhuyễn thể như sàng lọc dữ liệu, hiểu trường thông tin, chuyển đổi tiêu chuẩn và kiểm soát chất lượng. Đối với một định dạng dữ liệu khảo sát cụ thể, "trợ lý" chỉ cần 40 đến 60 lượt tương tác để hoàn thành việc tổng hợp, giúp tăng hiệu quả tổng thể lên hơn 30 lần so với phương pháp thủ công.
Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải khẳng định rằng nghiên cứu này đã chứng minh tính khả thi của việc ứng dụng AI để quản lý dữ liệu khoa học phức tạp. Trong tương lai, hệ thống khám phá khoa học "Shusheng" sẽ được mở rộng sang nhiều lĩnh vực quản lý dữ liệu khác như khảo sát vùng cực, sinh thái biển và khoa học hệ thống Trái Đất. Điều này sẽ giúp các nhà khoa học biến những tài liệu quan sát rải rác thành nguồn dữ liệu chuẩn hóa, hỗ trợ nghiên cứu cơ chế dài hạn và phân tích thông minh. (Theo Tân Hoa Xã)
Mới đây, một bước đột phá đã xuất hiện. Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải (Shanghai AI Lab) cùng với Trung tâm Dữ liệu Khoa học Cực quốc gia (National Polar Science Data Center) đã bắt tay nhau, sử dụng hệ thống khám phá khoa học "Shusheng" Intern·Agent để tạo ra một "trợ lý" AI đặc biệt mang tên SciDataCopilot. "Trợ lý" này đã tổng hợp dữ liệu quan sát nhuyễn thể toàn cầu trong gần một thế kỷ, xây dựng nên một bộ dữ liệu chuẩn hóa khổng lồ. Bộ dữ liệu này chứa hơn 80.000 bản ghi về sự xuất hiện của nhuyễn thể và hơn 10.000 bản ghi về mật độ, vượt xa các cơ sở dữ liệu chuẩn quốc tế hiện có. Có thể nói, đây chính là một "bản đồ" nhuyễn thể toàn cầu, giúp các nhà nghiên cứu hiểu rõ hơn về xu hướng phân bố theo mùa của chúng, từ đó cung cấp cơ sở khoa học vững chắc để bảo vệ hệ sinh thái biển Nam Cực trong bối cảnh biến đổi khí hậu.
Tại sao việc này lại khó đến vậy? Bởi vì nhuyễn thể Nam Cực là loài chủ chốt, kết nối từ thực vật phù du đến cá voi, chim cánh cụt trong chuỗi thức ăn. Sự phân bố và số lượng của chúng phản ánh trực tiếp tốc độ tan chảy của băng Nam Cực và sự ấm lên của các dòng hải lưu. Suốt hàng trăm năm, các quốc gia như Trung Quốc, Mỹ, Úc và nhiều nước châu Âu đã liên tục thực hiện các cuộc khảo sát thực địa, thu thập được một lượng lớn dữ liệu.
Tuy nhiên, ngành khoa học này luôn phải đối mặt với một vấn đề nan giải về quản lý dữ liệu. Một mặt, dữ liệu quan sát nhuyễn thể Nam Cực đến từ nhiều nguồn khác nhau và không có một tiêu chuẩn chung. Chúng nằm rải rác trong các hồ sơ khảo sát, báo cáo chuyến đi, tài liệu học thuật và cơ sở dữ liệu công cộng của nhiều quốc gia, với đủ loại định dạng tệp. Việc tích hợp chúng từ các nguồn khác nhau là cực kỳ khó khăn. Hơn nữa, các chuyến khảo sát khác nhau lại sử dụng thiết bị lấy mẫu, phương pháp thống kê và đơn vị đo lường không đồng nhất, khiến việc so sánh dữ liệu trực tiếp trở nên bất khả thi. Mặt khác, nếu dựa vào con người để tổng hợp lượng dữ liệu khổng lồ này, quá trình đó có thể kéo dài hàng năm trời, không chỉ kém hiệu quả mà còn dễ phát sinh lỗi. Việc xử lý thủ công cũng thiếu một hệ thống truy xuất nguồn gốc dữ liệu hoàn chỉnh, khó đáp ứng yêu cầu về độ tin cậy cho việc tái hiện kết quả nghiên cứu, kiểm toán tuân thủ dữ liệu và quản lý tài nguyên vùng cực.
Để giải quyết những thách thức này, nhóm nghiên cứu đã tận dụng khả năng tự động hóa hoàn toàn của hệ thống khám phá khoa học "Shusheng" và SciDataCopilot. Hệ thống này tự động phân tích, chuẩn hóa, kiểm soát chất lượng và quản lý truy xuất nguồn gốc cho hàng loạt dữ liệu không đồng nhất trên toàn cầu. Nhờ đó, mỗi bản ghi đều có thể được đưa vào tính toán thống nhất và truy ngược về nguồn gốc, cuối cùng tạo nên bộ dữ liệu nhuyễn thể Nam Cực hoàn chỉnh.
Bộ dữ liệu này bao gồm lịch sử quan sát nhuyễn thể Nam Cực kéo dài gần một thế kỷ, từ năm 1926 đến năm 2025. Nó không chỉ bổ sung thêm hơn 80.000 bản ghi vị trí khảo sát mới mà còn mở rộng đáng kể quy mô và phạm vi phân bố dữ liệu nhuyễn thể so với các dữ liệu quốc tế thông thường, đồng thời bổ sung và hoàn thiện các dữ liệu hiện có. Điều này hứa hẹn sẽ hỗ trợ nhiều khám phá khoa học hơn về sự phân bố loài và biến đổi khí hậu toàn cầu ở Nam Đại Dương.
Điểm mấu chốt để "dịch" được bộ dữ liệu chuẩn hóa này từ hàng trăm năm ghi chép khoa học một cách hiệu quả và chính xác chính là SciDataCopilot. "Trợ lý" AI này được phát triển dựa trên hệ thống "Shusheng", tích hợp công cụ phân tích tài liệu thông minh MinerU. Nó được thiết kế đặc biệt để giải quyết các vấn đề trong quá trình chuẩn bị dữ liệu khoa học, như đa dạng về hình thức, cơ chế khoa học ngầm định, phụ thuộc vào kiến thức chuyên môn, công cụ phân tán và mức độ tùy chỉnh nhiệm vụ cao. Nhờ đó, nó có thể tự động hóa toàn bộ quy trình chuẩn bị dữ liệu, từ ý định ngôn ngữ tự nhiên đến dữ liệu khoa học chất lượng cao.
Trong dự án này, nhóm nghiên cứu đã sử dụng SciDataCopilot để xây dựng một quy trình tổng hợp tích hợp: "lập kế hoạch dữ liệu thông minh – tự động tạo script – chuyên gia kiểm tra và hoàn thiện". Hệ thống có thể tự động nhận diện một bản ghi quan sát có thuộc về dữ liệu nhuyễn thể trưởng thành hay không, xác định loại dữ liệu, và thống nhất các thông tin quan trọng như vĩ độ, kinh độ, thời gian, độ sâu lấy mẫu, loại lưới, nguồn gốc. Nó cũng chuyển đổi các giá trị mật độ từ các đơn vị đo lường khác nhau thành mật độ chuẩn có thể so sánh được. Đồng thời, hệ thống tự động sàng lọc các bản ghi trùng lặp, thiếu sót hoặc bất thường, hỗ trợ các chuyên gia rà soát thủ công và lưu giữ đầy đủ nhật ký hoạt động để kiểm toán.
"Trợ lý" AI này đã đẩy nhanh đáng kể quá trình xây dựng bộ dữ liệu nhuyễn thể Nam Cực. Toàn bộ quy trình chỉ cần gọi mô hình lớn khoảng 2.000 lần để hoàn thành, đồng thời tích lũy được toàn bộ kỹ năng xử lý dữ liệu nhuyễn thể như sàng lọc dữ liệu, hiểu trường thông tin, chuyển đổi tiêu chuẩn và kiểm soát chất lượng. Đối với một định dạng dữ liệu khảo sát cụ thể, "trợ lý" chỉ cần 40 đến 60 lượt tương tác để hoàn thành việc tổng hợp, giúp tăng hiệu quả tổng thể lên hơn 30 lần so với phương pháp thủ công.
Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải khẳng định rằng nghiên cứu này đã chứng minh tính khả thi của việc ứng dụng AI để quản lý dữ liệu khoa học phức tạp. Trong tương lai, hệ thống khám phá khoa học "Shusheng" sẽ được mở rộng sang nhiều lĩnh vực quản lý dữ liệu khác như khảo sát vùng cực, sinh thái biển và khoa học hệ thống Trái Đất. Điều này sẽ giúp các nhà khoa học biến những tài liệu quan sát rải rác thành nguồn dữ liệu chuẩn hóa, hỗ trợ nghiên cứu cơ chế dài hạn và phân tích thông minh. (Theo Tân Hoa Xã)