August 9, 2025
3 min read
حریم خصوصی تفاضلی یک چارچوب ریاضی است که برای حفاظت از حریم خصوصی افراد در تحلیل دادههای بزرگمقیاس از طریق افزودن نویز کنترلشده به مجموعهدادهها طراحی شده است. سازوکار اصلی آن تضمین میکند که خروجی هر تحلیل، چه دادههای یک فرد خاص در آن گنجانده شده باشد یا نه، از نظر آماری مشابه باقی بماند و بدین ترتیب از استنتاج اطلاعات حساس در مورد افراد خاص جلوگیری میکند.
تضمین حریم خصوصی از طریق پارامتر اپسیلون (ɛ)، که اغلب بودجه حریم خصوصی نامیده میشود، رسمیت مییابد. این پارامتر توازن بین حریم خصوصی و سودمندی داده را مشخص میکند:
این موازنه در پیادهسازی عملی حریم خصوصی تفاضلی نقش محوری دارد. بر اساس گفته Dwork و همکاران (2006)، این اصل را میتوان اینگونه خلاصه کرد: “خطر افشای حریم خصوصی یک فرد نباید در نتیجه مشارکت در یک مجموعهداده به طور قابل توجهی افزایش یابد.”
در عمل، سازوکارهایی مانند افزودن نویز Laplace یا Gaussian به خروجیهای پرسوجو یا محاسبات آماری اعمال میشود. به عنوان مثال، اگر f(D)f(D) نمایانگر یک پرسوجو بر روی مجموعهداده DD باشد، سازوکار حریم خصوصی تفاضلی خروجی زیر را ارائه میدهد:
f~(D)=f(D)+Noise(ɛ)\tilde{f}(D) = f(D) + \text{Noise}(ɛ)
که در آن توزیع نویز بر اساس ɛ و حساسیت ff (بیشترین تغییری که در خروجی به دلیل تغییر دادههای یک فرد ایجاد میشود) کالیبره میشود.
حریم خصوصی تفاضلی در سناریوهای دنیای واقعی به کار گرفته شده است، به ویژه توسط اداره سرشماری ایالات متحده (US Census Bureau) در سال 2020، که از آن برای حفاظت از دادههای دموگرافیک و در عین حال فراهم کردن بینشهای دقیق جمعیتی استفاده کرد. این امر قابلیت اجرای آن را فراتر از مدلهای نظری و در سیستمهای داده دولتی بزرگمقیاس نشان میدهد (Abowd, 2018).
پیامدهای کلیدی آن عبارتند از:
با وجود این نقاط قوت، چالشهایی در تعیین مقادیر مناسب ɛ و ایجاد توازن بین سودمندی و حریم خصوصی باقی میماند که به زمینه وابسته بوده و نیازمند تخصص در آن حوزه است.
به طور خلاصه، حریم خصوصی تفاضلی یک رویکرد دقیق و قابلاندازهگیری برای حفاظت از اطلاعات افراد در تحلیل داده ارائه میدهد که کاربرد آن هم در تحقیقات دانشگاهی و هم در برنامههای عملی رو به افزایش است.