Ngăn chặn ảo giác AI: Chìa khóa cho chất lượng dữ liệu không thiên lệch

Minh Nguyệt
Minh Nguyệt
Phản hồi: 0

Minh Nguyệt

Intern Writer
Trí tuệ nhân tạo (AI) đang tạo nên một cuộc cách mạng và tiếp tục làm thay đổi nhiều ngành công nghiệp có liên quan đến khách hàng. Các ứng dụng kinh doanh được hỗ trợ bằng AI mang lại giá trị thiết thực cho cả khách hàng và hoạt động kinh doanh. Thế nhưng, bên cạnh những cơ hội to lớn, việc áp dụng AI cũng tiềm ẩn nhiều rủi ro nghiêm trọng. Các Mô hình Ngôn ngữ Lớn (LLMs) được xây dựng trên cơ sở dữ liệu có phần thiên lệch hoặc mô hình hóa không chính xác đã chỉ ra rằng những "ảo giác" do AI tạo ra có thể dẫn đến những kết quả kinh doanh tiêu cực (A. Pequeno, tháng 2 năm 2024). Để đạt được kết quả tốt từ AI, một yêu cầu thiết yếu là cần có dữ liệu phong phú, chính xác và không thiên lệch. Dữ liệu bị thiên lệch, không đầy đủ, không được gán nhãn hoặc không chính xác trong quá trình huấn luyện thường dễ dàng sinh ra những "ảo giác" từ AI. Những mâu thuẫn về thực tế hoặc những kết quả bất thường có thể trông có vẻ chính xác và hữu ích, nhưng thực tế lại có thể ảnh hưởng tiêu cực đến việc ra quyết định trong kinh doanh. Ngay cả những dữ liệu kinh doanh sạch cũng có thể góp phần vào những "ảo giác" này nếu dữ liệu huấn luyện phía trên bị thiên lệch hoặc không đầy đủ, hoặc nếu việc giám sát kết quả AI không thể truy cập vào dữ liệu tham chiếu chất lượng cao và các kiến thức liên quan.

Vì lý do này, không có gì ngạc nhiên khi những tổ chức muốn khai thác AI coi các thách thức về dữ liệu là một trở ngại chính trong quá trình huấn luyện, triển khai, mở rộng và đánh giá lợi tức đầu tư của các sáng kiến AI của họ. Điều này chỉ ra rằng cần có thêm nhiều công cụ và phương pháp để xác minh tính đáng tin cậy của kết quả AI. Bằng cách đi qua những bước cơ bản trong một ví dụ về dữ liệu y tế thực tế, chúng ta có thể nêu rõ những thực tiễn về chất lượng dữ liệu cần thiết để đảm bảo kết quả AI chính xác. Đầu tiên, cần tiến hành phân tích, làm sạch và làm phong phú dữ liệu huấn luyện và kinh doanh với các quy tắc tự động và lý luận. Áp dụng ngữ nghĩa chuyên gia và việc hỗ trợ tìm kiếm tăng cường dữ liệu trong các môi trường có chất lượng dữ liệu cao cho QA và huấn luyện giám sát có thông tin và có thể quan sát (S. Hedden, tháng 12 năm 2024). Tự động hóa việc kiểm tra chất lượng và sửa chữa kết quả với nội dung được biên soạn và bổ sung kết quả do chuyên gia dẫn dắt, được hỗ trợ bởi các quy tắc và ngữ nghĩa trong kinh doanh. Để ngăn chặn những "ảo giác" của AI không làm cản trở hoạt động kinh doanh, cần một phương pháp toàn diện về chất lượng dữ liệu, bao gồm dữ liệu huấn luyện “tiêu chuẩn vàng”; dữ liệu kinh doanh được làm sạch và bổ sung một cách chủ động; và việc đào tạo AI được giám sát, được hỗ trợ bởi nội dung có thể quan sát, lý luận máy và các quy tắc kinh doanh. Tất cả những yếu tố này cần được bổ sung bởi việc kiểm tra và sửa chữa tự động kết quả, được hỗ trợ bởi dữ liệu tham chiếu chất lượng cao, các quy tắc kinh doanh, lý luận máy và RAG.
iStock-1846318820_BestForRent-scaled.jpg

Việc đảm bảo độ chính xác trong các ứng dụng AI có thể mang tính sống còn đối với con người và doanh nghiệp. Việc khám phá một ví dụ về rủi ro y tế cổ điển sẽ cho thấy nhu cầu quan trọng về đầu ra AI chính xác - được hỗ trợ bởi dữ liệu sạch, quy trình và khả năng quan sát kết quả, cũng như việc giám sát kết quả tự động. Trong kịch bản này, một loại thuốc cụ thể được kê đơn dưới dạng miếng dán, với liều lượng thông thường là 15 miligam. Thuốc này cũng có dạng viên nén với liều lượng thấp hơn, chỉ 5 miligam. Một ứng dụng được hỗ trợ bởi AI có thể sai sót trong việc tạo ra một tuyên bố kết hợp hai thông tin này bằng cách nói rằng bệnh nhân có thể dùng “liều 15mg thông thường, có sẵn dưới dạng viên nén.” Thật dễ để bỏ lỡ lỗi này, ngay cả đối với một người, nhưng điều này tạo nên một “ảo giác” AI có thể gây nguy hiểm. Một chuyên gia y tế con người nếu cẩn thận sẽ nhận ra lỗi này - việc sử dụng 15 miligam thuốc ở dạng viên nén sẽ gấp ba lần liều lượng khuyến nghị, có thể dẫn đến quá liều. Một người bình thường ngây thơ hỏi AI về liều thuốc y tế có thể quyết định dùng ba viên 5 miligam - một kết quả có thể gây tử vong. Ở đây, sức khỏe và sự an toàn của bệnh nhân đang gặp nguy hiểm và rất phụ thuộc vào dữ liệu sạch, được gán nhãn tốt và kết quả AI chính xác. Những lỗi này có thể được tránh bằng cách kết hợp dữ liệu huấn luyện và tham chiếu chất lượng cao. Việc giám sát và đào tạo kết quả AI, được hỗ trợ bởi lý luận máy ngữ nghĩa và các quy tắc kinh doanh, cũng như kiểm tra kết quả tự động nhằm thu hút các nguồn lực chuyên gia để xác thực hoặc sửa chữa kết quả, tất cả đều góp phần vào một hệ thống AI hoạt động tốt hơn.

Ngoài việc kết hợp các hoạt động chất lượng dữ liệu truyền thống như làm sạch, tích hợp, hài hòa và làm phong phú dữ liệu, những quy tắc ngữ nghĩa dựa trên dữ liệu tốt có thể đảm bảo dữ liệu kinh doanh và đầu ra AI chính xác. Việc so sánh đầu ra với kết quả dự kiến góp phần vào độ chính xác thực nghiệm. Một ngữ nghĩa chuyên gia kết hợp với dữ liệu tham chiếu y tế được biên soạn như Hệ thống Ngôn ngữ Y tế Thống nhất (UMLS) có thể tự động xác định liều lượng thuốc dựa trên việc sử dụng hoặc định dạng được kê đơn. Hệ thống nhận ra và sửa chữa lỗi độc lập, khẳng định rằng “đối với loại thuốc này, viên nén không được kê đơn hoặc khuyến nghị trên 5 miligam.” Làm thế nào chúng ta có thể đảm bảo dữ liệu huấn luyện và kinh doanh sạch, toàn diện và các kết quả chính xác từ các ứng dụng AI liên quan đến dữ liệu y tế? Việc khuyến nghị đúng liều lượng và phương thức sử dụng cho loại thuốc phù hợp là điều rất quan trọng. Những thực hành sau đây được phát triển quanh ví dụ có thể cứu sống này. Những quy trình này có thể được triển khai với các nền tảng low-code, no-code giúp giảm yêu cầu kỹ thuật liên quan đến việc xây dựng các qui trình chất lượng dữ liệu quan trọng.

Bắt đầu với dữ liệu đã được làm sạch và bổ sung Để đảm bảo dữ liệu huấn luyện chất lượng cao, đầu tiên cần tiến hành phân tích, làm sạch và làm phong phú dữ liệu huấn luyện và kinh doanh khi cần thiết với các quy tắc tự động và suy luận ngữ nghĩa. Để tránh những kết quả AI không chính xác (ảo giác), rất quan trọng là phải sử dụng các tập dữ liệu tham khảo tiêu chuẩn vàng và dữ liệu kinh doanh chính xác, sạch. Khi dữ liệu huấn luyện và kinh doanh không chính xác, bị thiên lệch hoặc thiếu các siêu dữ liệu quan trọng, các ứng dụng AI sẽ tạo ra những kết quả không chính xác hoặc bị thiên lệch. Mỗi dự án AI nên bắt đầu với quản lý chất lượng dữ liệu chủ động và cốt lõi, bao gồm phân tích, loại bỏ trùng lặp, làm sạch, phân loại và làm phong phú dữ liệu. Hãy coi đây như một quy trình “dữ liệu tốt vào - kết quả kinh doanh tốt ra.” Lý tưởng nhất, dữ liệu huấn luyện được biên soạn và tích hợp từ nhiều nguồn để tạo ra các nguồn tài nguyên dữ liệu chất lượng cao như nhân khẩu học, khách hàng, thông tin doanh nghiệp, địa lý, hoặc các nguồn dữ liệu liên quan khác. Hơn nữa, chất lượng dữ liệu và các quy trình dựa trên dữ liệu không phải là tĩnh và cần được xử lý theo thời gian thực. Vì lý do này, việc quản lý chất lượng dữ liệu chủ động (tự động hóa chất lượng dữ liệu) như một hoạt động kinh doanh thường xuyên là rất cần thiết cho bất kỳ ứng dụng kinh doanh nào được hỗ trợ bởi AI. Điều này trợ giúp việc tạo ra và áp dụng các quy tắc chủ động để giải quyết các vấn đề phát sinh từ việc phân tích dữ liệu nhằm làm sạch, tích hợp, hài hòa và làm phong phú dữ liệu mà ứng dụng AI của bạn tham chiếu. Tất cả những yếu tố này đều chỉ ra rằng cần phát triển các ứng dụng được hỗ trợ bởi AI trong các môi trường chất lượng dữ liệu chủ động, nhằm cung cấp những hiểu biết tốt hơn cho doanh nghiệp và những kết quả không có ảo giác.

Trong ví dụ về thuốc, việc có dữ liệu thuốc chính xác và giàu siêu dữ liệu là cần thiết và được tham chiếu bởi hệ thống. Dữ liệu tham chiếu sạch có thể được áp dụng trong nhiều bước trong quy trình làm việc của AI: Những phương pháp này có thể xác định và đánh dấu hoặc sửa chữa bất kỳ nội dung hoặc kết quả nào không đáp ứng các nội dung hoặc quan hệ mong đợi - một hồ sơ hoặc khuyến nghị liên quan đến viên nén 15 miligam sẽ bị đánh dấu hoặc sửa chữa.

Đào tạo ứng dụng AI của bạn với sự giám sát ngữ nghĩa chuyên gia có thể quan sát Tiếp theo, việc so sánh các kết quả với các nội dung và quan hệ tham khảo có thẩm quyền (các dữ liệu tham chiếu và ngữ nghĩa được gán nhãn phong phú) là một bước quan trọng trong quy trình làm việc. Sự quan sát và nguồn gốc của dữ liệu là rất quan trọng trong giai đoạn phát triển ứng dụng AI và vẫn tiếp tục rất quan trọng cho việc quản lý trong suốt tuổi thọ của ứng dụng. Bằng cách kết hợp các tập dữ liệu huấn luyện và tham chiếu chất lượng cao với các đồ thị ngữ nghĩa tương ứng, các kỹ sư ứng dụng và các nhà khoa học dữ liệu có thể hiệu quả xem xét các vấn đề đã xác định. Lý luận máy (hay suy luận ngữ nghĩa) có thể áp dụng nội dung ngữ nghĩa và các quy tắc chất lượng dữ liệu liên quan được thông báo bởi các chuyên gia, chẳng hạn như những gì được cung cấp bởi Trung tâm Ngữ nghĩa Y sinh Quốc gia (NCBO) trong ví dụ về thuốc. Những tài nguyên này có thể hỗ trợ việc học có giám sát, chẳng hạn như thông qua việc hỗ trợ trực quan trong việc tìm kiếm tăng cường dữ liệu (GraphRAG). Điều này tạo ra một môi trường cho việc đào tạo có giám sát thông tin và có thể quan sát, hỗ trợ việc tạo ra và áp dụng các quy tắc kinh doanh hiện có hoặc mới để đảm bảo các kết quả chính xác. Bằng cách đào tạo ứng dụng AI trong thời gian thực, những lỗi tiềm ẩn có thể được suy luận, đánh dấu và sửa chữa.

Tự động hóa giám sát, tìm kiếm và bổ sung/sửa chữa để mở rộng AI ở quy mô lớn Hầu hết các hệ thống AI hiện nay được phát triển với con người giám sát kết quả. Các ứng dụng quy mô doanh nghiệp cần tự động hóa khả năng kiểm tra các đầu ra và xác nhận rằng chúng đáp ứng chất lượng dữ liệu mong đợi và nghĩa ngữ nghĩa. Đối với bản phát hành, dữ liệu tham chiếu được gán nhãn tốt và các tài nguyên ngữ nghĩa thẩm quyền được triển khai để tự động hóa việc áp dụng các nội dung ngữ nghĩa (làm phong phú hoặc chỉnh sửa dữ liệu có căn cứ vào lý luận ngữ nghĩa). Dựa trên các nguồn tài nguyên có thẩm quyền để truy xuất dữ liệu tham chiếu và logic, các quy tắc và lý luận có thể được áp dụng ở quy mô lớn nhằm bổ sung, đánh giá và sửa chữa quá trình tạo ra kết quả AI. Dù có thể vẫn còn các vấn đề không xác định cần đến sự giám sát của con người, nhưng hầu hết các vấn đề có thể được giải quyết theo cách tự động thông qua việc áp dụng các quy tắc, ontologies chuyên gia và dữ liệu chất lượng cao. Dữ liệu tiêu chuẩn vàng đã đề cập trước đó bổ sung cho việc huấn luyện và giám sát tự động hạ nguồn bằng cách so sánh kết quả với các mẫu dữ liệu tham chiếu mong đợi. Mặc dù các chẩn đoán y tế và đơn thuốc có thể luôn cần sự giám sát của con người, nhưng chúng ta có thể đảm bảo độ chính xác với tất cả các ứng dụng AI quan trọng của mình bằng cách áp dụng dữ liệu sạch, được gán nhãn tốt và sự bổ sung có ý nghĩa. Việc ngăn chặn những "ảo giác" trong các ứng dụng AI yêu cầu sử dụng các công cụ và tài nguyên hỗ trợ độ chính xác thực nghiệm. Để tránh những sai lầm, hãy gắn kết các dự án AI của bạn với dữ liệu tham chiếu tiêu chuẩn vàng cho đào tạo, dữ liệu kinh doanh sạch và được biên soạn, cũng như các quy trình chất lượng dữ liệu chủ động với việc giám sát các kết quả có thể quan sát và thông tin ngữ nghĩa. Cùng nhau, những phương pháp này cung cấp một nền tảng cơ bản cần thiết cho việc tạo ra, thử nghiệm và sửa chữa các kết quả AI một cách có nghĩa, có thể quan sát và tự động hóa. (.datasciencecentral)
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9uZ2FuLWNoYW4tYW8tZ2lhYy1haS1jaGlhLWtob2EtY2hvLWNoYXQtbHVvbmctZHUtbGlldS1raG9uZy10aGllbi1sZWNoLjY2ODcyLw==
Top