Kết quả của cuộc điều tra này cho thấy dữ liệu tổng hợp, được định nghĩa là dữ liệu được tạo ra một cách nhân tạo nhằm tái tạo các thuộc tính thống kê của các bộ dữ liệu trong thế giới thực ([Jordon et al., 2018]), mang lại một số lợi ích hữu hình và ứng dụng thực tế, đặc biệt là trong bối cảnh học máy. Việc tạo ra dữ liệu tổng hợp thường được thực hiện thông qua:
- Tạo theo thuật toán (ví dụ: lấy mẫu ngẫu nhiên)
- Các phương pháp dựa trên mô phỏng
- Các mô hình sinh như GANs ([Goodfellow et al., 2014])
Những phát hiện chính cho thấy:
- Bảo vệ quyền riêng tư: Các bộ dữ liệu tổng hợp không chứa thông tin cá nhân hoặc thông tin có thể nhận dạng thực tế nào, điều này giải quyết các yêu cầu tuân thủ theo các quy định như GDPR và HIPAA ([Patki et al., 2016]). Điều này cho phép chia sẻ và hợp tác dữ liệu rộng rãi hơn mà không gây rủi ro cho quyền riêng tư của người dùng.
- Tính sẵn có của dữ liệu: Dữ liệu tổng hợp hỗ trợ việc phát triển và huấn luyện các mô hình học máy ở những nơi dữ liệu thực được gán nhãn khan hiếm, tốn kém hoặc bị hạn chế. Điều này đặc biệt có giá trị trong lĩnh vực chăm sóc sức khỏe, tài chính và xe tự hành ([Kovalchuk et al., 2021]).
- Sự tương đồng về mặt thống kê: Khi được tạo ra bằng các kỹ thuật hiện đại, dữ liệu tổng hợp có thể xấp xỉ gần đúng các thuộc tính phân phối của dữ liệu thực, cho phép huấn luyện mô hình hợp lệ mà không gây ra sai lệch đáng kể ([Yoon et al., 2020]).
- Các kịch bản được kiểm soát: Các bộ dữ liệu tổng hợp cho phép tạo ra các trường hợp ngoại lệ hoặc các sự kiện hiếm gặp để đánh giá mô hình một cách mạnh mẽ—những kịch bản thường không được thể hiện đầy đủ hoặc không có trong các bộ dữ liệu thực.
Hạn chế được ghi nhận bao gồm:
- Nguy cơ rò rỉ: Dữ liệu tổng hợp được tạo ra kém chất lượng có thể vô tình mã hóa các mẫu tương tự như các bản ghi thực tế, làm suy yếu các tuyên bố về quyền riêng tư ([Choi et al., 2017]).
- Sự đánh đổi về độ trung thực: Thường có sự cân bằng giữa việc đảm bảo quyền riêng tư và tính hữu dụng của dữ liệu tổng hợp; quyền riêng tư cao hơn có thể làm giảm tính hữu ích của dữ liệu cho việc huấn luyện mô hình.
- Thách thức trong việc xác thực: Việc đảm bảo rằng dữ liệu tổng hợp phù hợp với hiệu suất trong thế giới thực và có khả năng tổng quát hóa một cách thích hợp vẫn là một nhiệm vụ không hề đơn giản ([Bowen & Liu, 2021]).
Tóm lại, phân tích cho thấy dữ liệu tổng hợp cung cấp một phương tiện thực tế, tôn trọng quyền riêng tư, và hiệu quả về chi phí để thúc đẩy nghiên cứu và phát triển dựa trên dữ liệu, với các phương pháp hay nhất đòi hỏi phải chú ý cẩn thận đến các phương pháp tạo và quy trình xác thực.
Tài liệu tham khảo
- Jordon, J., Yoon, J., & van der Schaar, M. (2018). Measuring the quality of synthetic data for use in competitions.
- Goodfellow, I. et al. (2014). Generative Adversarial Networks.
- Patki, N., Wedge, R., & Veeramachaneni, K. (2016). The Synthetic Data Vault.
- Kovalchuk, S. et al. (2021). Synthetic Data Generation for Machine Learning in Healthcare.
- Yoon, J., Jarrett, D., & van der Schaar, M. (2020). Anonymization through Data Synthesis using Generative Adversarial Networks.
- Choi, E. et al. (2017). Generating Multi-label Discrete Patient Records using Generative Adversarial Networks.
- Bowen, C., & Liu, J. (2021). A Comparative Evaluation of Synthetic Data Approaches for Machine Learning Applications.