August 9, 2025
4 min read
Học máy bảo toàn quyền riêng tư (PPML) bao gồm các phương pháp được thiết kế để tạo điều kiện cho việc huấn luyện cộng tác các mô hình học máy đồng thời bảo vệ dữ liệu nhạy cảm khỏi bị phơi bày hoặc rò rỉ. Thách thức quan trọng mà PPML giải quyết nằm ở việc cân bằng giữa lợi ích của việc huấn luyện mô hình chung với nguy cơ tiết lộ thông tin cá nhân.
Các kỹ thuật chính được sử dụng trong PPML bao gồm:
Quyền riêng tư vi phân (DP): DP đưa nhiễu đã được hiệu chỉnh vào các bộ dữ liệu hoặc đầu ra của mô hình, làm che khuất sự đóng góp của các điểm dữ liệu cá nhân. Như Dwork và cộng sự (2006) định nghĩa, “quyền riêng tư vi phân đảm bảo rằng việc xóa hoặc thêm một mục cơ sở dữ liệu duy nhất không ảnh hưởng đáng kể đến kết quả.” Cơ chế này giảm thiểu hiệu quả các rủi ro tái định danh, điều này rất quan trọng khi xử lý thông tin nhận dạng cá nhân (PII). Các kết quả thực nghiệm cho thấy DP có thể duy trì độ chính xác của mô hình trong giới hạn chấp nhận được đồng thời cung cấp các đảm bảo về quyền riêng tư có thể định lượng.
Học liên kết (FL): FL cho phép huấn luyện mô hình phi tập trung bằng cách cho phép các thiết bị hoặc nút cục bộ tính toán các bản cập nhật một cách độc lập mà không cần chuyển dữ liệu thô. McMahan và cộng sự (2017) cho thấy “học liên kết có thể đạt được hiệu suất mô hình cạnh tranh trong khi vẫn giữ dữ liệu được cục bộ hóa.” FL giảm thiểu rủi ro phơi bày dữ liệu và tuân thủ các yêu cầu quy định như GDPR ngay từ trong thiết kế.
Mã hóa đồng cấu (HE): HE tạo điều kiện cho các tính toán trực tiếp trên dữ liệu đã được mã hóa, bảo toàn tính bảo mật trong quá trình xử lý. Công trình tiên phong của Gentry’s (2009) nêu rõ, “mã hóa đồng cấu hoàn toàn cho phép các tính toán tùy ý trên các bản mã, tạo ra một kết quả được mã hóa mà khi giải mã, sẽ khớp với kết quả của các phép toán được thực hiện trên các bản rõ.” Mặc dù tốn kém về mặt tính toán, việc tích hợp của HE’s vào các quy trình PPML mang lại sự riêng tư mạnh mẽ mà không làm ảnh hưởng đến lợi ích của dữ liệu.
Sự tương tác của các phương pháp này cho phép tạo ra các khuôn khổ PPML mới, nơi:
Các nghiên cứu gần đây [Bonawitz và cộng sự, 2019] đã xác thực bằng thực nghiệm rằng việc kết hợp FL với các giao thức tổng hợp an toàn và quyền riêng tư vi phân tạo ra các giải pháp có thể mở rộng, thực tiễn để bảo toàn quyền riêng tư trong các ứng dụng thực tế.
Tóm lại, đóng góp quan trọng của PPML’s nằm ở việc cho phép học máy hiệu quả đồng thời giảm thiểu một cách có hệ thống các rủi ro về quyền riêng tư, một sự cân bằng cần thiết cho các ứng dụng nhạy cảm như chăm sóc sức khỏe, tài chính và các dịch vụ cá nhân hóa.