الإحصاء النظريالبيانات الضخمةعلم البيانات

تحديات البيانات الكبيرة (الضخمة)

تحديات البيانات الكبيرة (الضخمة)


ما هي أهداف تحليل البيانات الكبيرة؟  هناك هدفين رئيسيين لتحليل البيانات عالية الأبعاد (high dimensional data) في تطوير أساليب فعالة يمكنها التنبؤ بدقة بالمشاهدات المستقبلية وفي نفس الوقت لاكتساب نظرة ثاقبة على العلاقة بين المتغيرات المستقلة ومتغير أو متغيرات المعتمدة للأغراض العلمية. علاوة على ذلك ، نظرًا لحجم العينة الكبير ، تؤدي “البيانات الكبيرة” إلى تحقيق هدفين إضافيين: لفهم عدم التجانس والأنماط بين المجموعات الفرعية المختلفة من مجتمع كبير. بمعنى آخر ، تعطي البيانات الكبيرة وعودًا لما يلي: (1) استكشاف الأنماط الخفية لكل فئة فرعية من البيانات ، وهو أمر غير ممكن من الناحية التقليدية وقد يتم التعامل معه على أنه “قيم متطرفة” عندما يكون حجم العينة صغيرًا ؛ (2) استخراج السمات العامة المهمة عبر العديد من المجموعات الفرعية حتى عند وجود اختلافات فردية كبيرة.

ما هي تحديات تحليل البيانات الكبيرة؟ تتميز البيانات الكبيرة بالبعد الكبير وحجم العينة الكبير. تثير هاتان الميزتان ثلاثة تحديات فريدة: (1) تجلب الأبعاد العالية  (high dimensional) تراكم الضوضاء المشتته (noise)  والعلاقات الوهمية (spurious correlations) والتجانس العرضي (incidental homogeneity) ؛ (2) البعد الكبير المقترن بحجم العينة الكبير يخلق مشاكل مثل التكلفة الحسابية الثقيلة وعدم الاستقرار الحسابي ؛ (3) يتم تجميع العينات الضخمة في البيانات الكبيرة عادة من مصادر متعددة في نقاط زمنية مختلفة باستخدام تقنيات مختلفة. هذا يخلق قضايا عدم التجانس والاختلافات التجريبية والتحيزات الإحصائية ، ويتطلب منا تطوير إجراءات أكثر تكيفًا وقوة.

للتعامل مع تحديات البيانات الكبيرة ، نحتاج إلى تفكير إحصائي جديد وطرق حسابية. على سبيل المثال ، العديد من الطرق التقليدية التي تعمل بشكل جيد بالنسبة لحجم العينة الصغيرة والمعتدل لا نستطيع استخدامها مع البيانات الضخمة. وبالمثل ، تواجه العديد من الطرق الإحصائية التي تعمل بشكل جيد للبيانات ذات الأبعاد المنخفضة تحديات كبيرة في تحليل البيانات عالية الأبعاد. لتصميم إجراءات إحصائية فعالة لاستكشاف البيانات الضخمة والتنبؤ بها ، نحتاج إلى معالجة مشكلات البيانات الضخمة مثل عدم التجانس وتراكم الضوضاء المشتت والعلاقات الزائفة وincidental endorgeneity ، بالإضافة إلى موازنة الدقة الإحصائية والكفاءة الحسابية.

من حيث الدقة الإحصائية ، يلعب التقليل من الأبعاد (dimension reduction) واختيار المتغيرات (variable selection) أدوارًا محورية في تحليل البيانات عالية الأبعاد. تم تصميم هذا لمعالجة مشاكل تراكم الضوضاء (noise accumulation). على سبيل المثال، في التصنيف ذي الأبعاد العالية ، أظهر [2008,Fan J] أن قواعد التصنيف التقليدية باستخدام جميع المتغيرات لا تؤدي أفضل من التخمين العشوائي بسبب تراكم الضوضاء. هذا يحفز أساليب تنظيم جديدة ( regularization methods) والتأكد من فحص الاستقلال. علاوة على ذلك ، تقدم الأبعاد العالية ارتباطات زائفة بين المتغير المعتمد والمتغيرات المستقلة المشتركة الغير مرتبطة ببعضها البعض ، مما قد يؤدي إلى الاستدلال الإحصائي الخاطئ والاستنتاجات العلمية الخاطئة. البيانات ذات الابعاد العالية تؤدي أيضًا إلى ظهور قضية incidental endogeneity ، وهي ظاهرة تعني بأنه قد يرتبط العديد من المتغيرات غير المرتبطة بالضوضاء المتبقية (residual noises) ربما نستطيع ترجمة هذه الظاهرة بالتداخل الداخلي ( رغم عدم اقتناعي بذلك مبدئيا). يخلق التداخل الداخلي تحيزات إحصائية ويسبب عدم اتساق اختيار النموذج الذي يؤدي إلى اكتشافات علمية خاطئة. لذلك وحقيقة هناك حاجة ماسة إلى إجراءات إحصائية جديدة مع مراعاة هذه القضايا (والتي اعتبرها قضايا كبيرة وأحد هذه القضايا كانت رسالتي الدكتوراة).

فيما يتعلق بالكفاءة الحسابية ، تحفز Big Data تطوير بنية تحتية حسابية جديدة وطرق تخزين للبيانات حديثة. غالبًا ما يكون التحسين (Optimization) أداة وليست هدفًا لتحليل البيانات الضخمة. أدى هذا التغيير إلى تقدم كبير في تطورات الخوارزميات السريعة التي تكون قابلة للبيانات الضخمة ذات الأبعاد العالية. هذا يصنع اندماجا متبادلا بين مجالات مختلفة مثل الإحصاء ، optimization ، والرياضيات التطبيقية. على سبيل المثال، أنه يمكن إعادة صياغة أفضل لانحدار اللمجموعة الفرعية NP-hard  الى  L1-norm penalized least squares problem والتي يمكن حلها عن طريق طريقة النقطة الداخلية interior point method. فتم ايجاد خوارزميات بديلة لتسريع L1-norm penalized least squares problems, ، مثل

  • least angle regression

  • threshold gradient descent 

  • coordinate descent 

  • iterative shrinkage-thresholding algorithms

  • parallel computing methods

  • approximate algorithms 



 

 

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4236847/

Tags:

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *