علم البيانات

الخصوصية التفاضلية (Differential Privacy)

الخصوصية التفاضلية

Differential Privacy


  • مقدمة :

أعلنت شركة Apple قبل فترة ، في مؤتمر WWDC الرئيسي ، عن سلسلة من ميزات الأمان والخصوصية الجديدة ، بما في ذلك ميزة جذبت الانتباه قليلاً – والارتباك. على وجه التحديد ، أعلنت شركة Apple أنها ستستخدم تقنية تسمى “الخصوصية التفاضلية” (من الآن فصاعدًا: DP) لتحسين خصوصية ممارسات جمع البيانات الخاصة بها.

بدءا من iOS 10 ، تستخدم Apple تقنية الخصوصية التفاضلية للمساعدة في اكتشاف أنماط الاستخدام لعدد كبير من المستخدمين دون المساس بالخصوصية الفردية. لإخفاء هوية أحد الأفراد ، تضيف الخصوصية التفاضلية ضجيجًا رياضيًا إلى عينة صغيرة من نمط استخدام الفرد. نظرًا لتقاسم المزيد من الأشخاص للنمط نفسه ، تبدأ الأنماط العامة في الظهور ، مما يساعد على تحسين تجربة المستخدم وتحسينها. في نظام iOS 10 ، ستساعد هذه التقنية في تحسين اقتراحات QuickType و emoji ، واقتراحات Spotlight للارتباط العميق ، وتقارير البحث في Notes.

لإختصار القصة الطويلة ، يبدو أن أبل ستقوم بجمع الكثير من البيانات من هاتفك. إنهم يقومون بذلك أساسًا لجعل خدماتهم أفضل ، وليس لجمع عادات استخدام المستخدمين الفرديين. لضمان ذلك ، تعتزم Apple تطبيق تقنيات إحصائية متطورة لضمان ألا تسرّب هذه البيانات المجمّعة – الوظائف الإحصائية التي تحسبها عبر جميع معلوماتك – مساهماتك الفردية. من حيث المبدأ هذا يبدو جيدا جدا. لكن بالطبع ، الشيطان دائمًا في التفاصيل.على الرغم من أننا لا نملك هذه التفاصيل ، إلا أن هذا يبدو وقتًا مناسبًا على الأقل للتحدث قليلاً عن الخصوصية التفاضلية ، وكيفية تحقيقها ، وما قد يعنيه لـ Apple – ولآيفون الخاص بك.


في السنوات القليلة الماضية ، اعتاد “الأشخاص العاديون” على فكرة أنهم يرسلون الكثير من المعلومات الشخصية إلى العديد من الخدمات التي يستخدمونها. كما تخبرنا الدراسات الاستقصائية أنها بدأت تشعر بعدم الارتياح حيال ذلك.

هذا الانزعاج منطقي عندما تفكر في الشركات التي تستخدم بياناتنا الشخصية لتسويق (لنا). ولكن في بعض الأحيان هناك دوافع لائقة لجمع معلومات الاستخدام. على سبيل المثال ، أعلنت شركة Microsoft مؤخرًا عن أداة يمكنها تشخيص سرطان البنكرياس من خلال مراقبة استعلامات Bing. تشغّل Google اتجاهات Google Flu Trends. وبالطبع ، فإننا نستفيد جميعًا من البيانات التي يتم الحصول عليها من مصادر جماعية والتي تعمل على تحسين جودة الخدمات التي نستخدمها – بدءًا من تطبيقات الخرائط وحتى استعراض المطاعم.

للأسف ، جمع البيانات غالبا يكون بناءا على النوايا الحسنة ولكن ربما تصبح سيئة. على سبيل المثال ، في أواخر عام 2000 ، أجرت Netflix مسابقة لتطوير خوارزمية أفضل لتوصية الأفلام. لقيادة المنافسة ، أصدروا مجموعة بيانات عرض “مجهولة المصدر” تم تجريدها من معلومات التعريف. ولسوء الحظ ، تبين أن عملية إزالة الهوية هذه غير كافية. في عمل مشهور ، أظهر نارايانان وشماتيكوف أنه يمكن استخدام مجموعات البيانات هذه لإعادة تحديد مستخدمين محددين – وحتى التنبؤ بانتمائهم السياسي! – إذا كنت تعرف القليل من المعلومات الإضافية عن مستخدم معين.

يجب أن يكون هذا النوع من القلق مصدر قلق لنا. ليس فقط لأن الشركات تشارك البيانات بشكل روتيني (رغم أنها تقوم بذلك) ولكن لأن الاختراقات تحدث وتحدث دائما، ولأن حتى الإحصائيات حول مجموعة البيانات يمكن أن تسرّب أحيانًا معلومات حول السجلات الفردية المستخدمة في حسابها. الخصوصية التفاضلية هي مجموعة من الأدوات التي تم تصميمها لمعالجة هذه المشكلة.

  • الخصوصية التفاضلية :

الخصوصية التفاضلية هي تعريف خصوصية تم تطويره في الأصل بواسطة Dwork و Nissim و McSherry و Smith ، مع مساهمات كبيرة من العديد من الآخرين على مر السنين. تحدث بشكل تقريبي ، ما يمكن أن نلخصه بشكل حدسي على النحو التالي :

تخيل أن لديك قاعدتا بيانات متطابقتان ، أحدهما يحتوي على معلوماتك ، والآخرى بدونها. تضمن الخصوصية التفاضلية أن احتمال أي عملية إحصائية ستكون نتيجة هذه العملية (تقريبًا) هو نفسها سواء تم إجراؤها على قاعدة البيانات الأولى أو الثانية.

إحدى الطرق للنظر إلى هذا هو أن DP توفر طريقة لمعرفة ما إذا كانت البيانات الخاصة بك لها تأثير كبير على نتائج الاستعلام. إذا لم يحدث ذلك ، فربما تساهم أيضًا في قاعدة البيانات – نظرًا لعدم وجود أي ضرر تقريبًا. فكر في مثال:

تخيل أنك اخترت تمكين ميزة إعداد التقارير على iPhone الخاص بك والتي تخبر Apple إذا كنت ترغب في استخدام emoji بشكل روتيني في محادثات iMessage الخاصة بك. يتكون هذا التقرير من معلومات واحدة: يشير الرقم 1 إلى إعجابك بـ ، و 0 ليس كذلك. قد تتلقى Apple هذه التقارير وتعبئتها في قاعدة بيانات ضخمة. في نهاية اليوم ، يريد أن يتمكن من استخلاص عدد المستخدمين الذين يحبون هذه الرموز التعبيرية الخاصة.

الملاحظة الرئيسية لأبحاث الخصوصية التفاضلية هي أنه في العديد من الحالات ، يمكن أن تتحقق DP إذا كان طرف فرز البيانات على استعداد لإضافة ضوضاء عشوائية إلى النتيجة. على سبيل المثال ، بدلاً من مجرد جمع البيانات الحقيقية وفرزها، يمكن إدخال ضوضاء من توزيع لابلاس أو غاوشي ، مما ينتج عنه نتيجة غير دقيقة تمامًا – ولكنها تقدم وتكون محتويات أي صف محدد. (لوظائف أخرى مثيرة للاهتمام ، هناك العديد من التقنيات الأخرى أيضًا.)

والأكثر فائدة من ذلك ، يمكن حساب “الضجيج” الذي يجب ضخه دون معرفة محتويات قاعدة البيانات نفسها (أو حتى حجمها). بمعنى ، يمكن إجراء حساب الضوضاء استنادًا إلى معرفة الدالة المطلوب حسابها والكمية المقبولة من تسرب البيانات.


  • أحد الأوراق العلمية للبروفيسور Cynthia Dwork  و Adam Smith تتحدث عن هذا الموضوع رياضيا وأحصائيا.

الورقة هنا

  • معلومات أكثر وواضحة من جامعة هارفارد.

هنا

Tags:

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *