علم البيانات

هل الإحصاء مات؟

هل الإحصاء مات؟


مقال مترجم عن البرفيسور ديفيد فيسيل


دائما نسمع قولا من علماء البيانات أن “الإحصاء ميت”، ولديهم نقاشات كبيرة حول ذلك يحضرها الكثير من علماء البيانات. ومن المثير للاهتمام أنه يبدو أن عددا قليلا جدا من الإحصائيين يشاركون في هذه المناقشات!

فلماذا يعتقد علماء البيانات أن الإحصاءات ميتة؟ أين تأتي الفكرة القائلة بأنه لم تعد هناك حاجة للتحليل الإحصائي؟ وهل هم على حق؟

أعتقد أننا حقا يجب أن نبدأ من البداية من خلال طرح السؤال “ما هو الإحصاء”؟

باختصار، ما يجعل الإحصاء فريد من نوعه وفرع مهم و متميز من الرياضيات هو أن الإحصاء يعرف بأنه دراسة عدم اليقين والشك في البيانات.

لذلك دعونا ننظر إلى هذا منطقيا. إذا كان علماء البيانات على حق في تساؤلهم (حسنا، بعضهم على الأقل) والإحصاء فعلا قد مات وانتهى، فإما (1) نحن لسنا بحاجة إلى تقدير عدم اليقين أو (2) لدينا أدوات أفضل من الإحصاء لقياسها.

تحديد عدم اليقين في البيانات:

لماذا لم يعد لدينا أي حاجة لقياس ومراقبة عدم اليقين في بياناتنا؟

هل اكتشفنا بعض الطرق الجديدة المدهشة في مراقبة وجمع وتصنيف وتحليل بياناتنا التي لم يعد لدينا شكوك فيها؟

لا أعتقد ذلك، وبقدر ما أستطيع أن أقول، مع انفجار البيانات التي نواجهها – كمية البيانات الموجودة حاليا التي تتضاعف كل 18 شهرا – مستوى عدم اليقين في البيانات في ازدياد.

لذلك يجب أن يكون لدينا أدوات أفضل من الإحصاءات لتحديد عدم اليقين، إذن؟

حسننا، لا. قد يكون صحيحا أن معظم التدابير الإحصائية وضعت منذ عقود عندما كانت “البيانات الكبيرة” غير موجودة، وأن الاختبارات الإحصائية ” القديمة ” في كثير من الأحيان تفشل عندما تواجه كميات هائلة من البيانات، ولكن ببساطة ليست الطريقة الأفضل لقياس عدم اليقين من الإحصاء – على الأقل ليس بعد وتحتاج لتطوير.

فلماذا يبقى العديد من علماء البيانات على إصرار أنه لا يوجد مكان للإحصاء في القرن ال 21؟

حسنا، أعتقد إذا لم يكن الإحصاء موجود هذه هي المشكلة، يجب أن يكون هناك شيء خاطئ مع علوم البيانات

لذلك دعونا نسخن النقاش ….

ما هو علم البيانات؟

لا أحد يبدو أن لديه القدرة الكافية على التوصل إلى تعريف ثابت لما هو علم البيانات.

ويعتقد البعض أن “علوم البيانات” مجرد مصطلح حار للإحصاء، في حين يشير آخرون إلى أنه اسم بديل ل “ذكاء الأعمال”. يدعي البعض أن علم البيانات هو كل شيء عن إنشاء منتجات البيانات لتكون قادرة على تحليل كميات لا تصدق من البيانات التي نواجهها.

أنا لا أختلف مع أي من هذه التعريفات، ولكن اعتقد أنه ربما كل هذه التعاريف هي جزء صغير من الوحش الأكبر.

للحصول على فهم أفضل لعلوم البيانات قد يكون من الأسهل أن ننظر إلى ما يفعله علماء البيانات بدلا من ما هي عليه.

علم البيانات هو كل شيء عن استخراج المعرفة من البيانات (أعتقد أن الجميع يتفق أن هذا الوصف غامض جدا)، وأنه يتضمن العديد من المهارات المتنوعة، مثل الرياضيات والإحصاءات والذكاء الاصطناعي وبرمجة الكمبيوتر والتصور وتحليل الصور، وأكثر من ذلك بكثير.

في رأيي، إذا كنت تريد أن تكون خبير علم البيانات في الأعمال التجارية والطب أو الهندسة  فإن أكبر مهارة ستحتاج ستكون في مجال الأعمال التجارية أو الطب أو الهندسة. التحالف مع مزيج من هذه المهارات سيجعلك خبير جدا وكبير المهاريين في مجال عملك.

وبعبارة أخرى، إذا كنت ترغب في تسمية نفسك عالم بيانات فأنت حقا بحاجة إلى أن تكون خبيرا في مجال عملك وكذلك وجود بعض من المهارات المدرجة الأخرى. تحتاج الى الكثير من العلوم مجتمعة.

هل مبرمجي الكمبيوتر علماء بيانات ؟

من ناحية أخرى , كما يبدو في الجامعات البريطانية والامريكية هناك الكثير من مناهج دراسية في علوم البيانات مليئة ب برامج كمبيوتر تدرس للتعامل مع البيانات كبرنامج ار وبايثون وهادوب ومن ثم يتم وضع البيانات في هذه الشبكات الصناعية.

يبدو أننا خلقنا جيل من المبرمجين الكمبيوتر، مع إضافة عدد قليل من الأدوات الإضافية على السيرة الذاتية، ومن هنا يكون الشخص خبير بيانات .

أعتقد أننا في منعطف خطر هنا.

فمن السهل أن تتعلم كيفية استخدام عدد قليل من الأدوات، ولكن من الصعب كثيرا استخدام تلك الأدوات بذكاء لاستخراج معلومات قيمة وقابلة للتنفيذ في مجال متخصص.

إذا كان لديك القليل من المعرفة الطبية أو ليس لديك أي معرفة، كيف يمكنك معرفة ما هي نتائج البيانات ذات القيمة المناسبة لك؟

إذا لم تكن خبيرا في مجال الأعمال، فكيف تعرف ما هي الأفكار التي يجب اتخاذها لاتخاذ قرارات تجارية سليمة، وتلك التي يجب تجاهلها؟

وضع – واللعب ب تحليل البيانات:

وهذا بالنسبة لي هو جوهر المشكلة. العديد من علماء البيانات الحاليين – مبرمجين موهوبين في الكمبيوتر اذا افترضنا ذلك – وينظرون ل علم البيانات كممارسة تطبيقية لهذه البرامج فقط ضع البيانات في البرنامج ينظفها ومن ثم اللعب بتحليلها. إنها متعة أليس كذلك.

وضع و توصيل مجموعة من البيانات الخاصة بك إلى أداة أ وتحصل على بعض أوصاف البيانات الخاصة بك. استخدم الأداة ب وتحصل على الرسومات التي تريد.

تريد التنبؤ؟ عظيم – مجرد استخدام أداة ج.

على الرغم من ذلك، يبدو أن الإحصاء متخلفة في ثورة علوم البيانات. ليس هناك تقريبا العديد من الأدوات الإحصائية الآلية مثل أدوات الرسم أو الأدوات التنبؤية، وبالتالي فإن علماء البيانات يجب أن يعملوا في الواقع الإحصاء بأنفسهم. يجب أن يقوموا بعلم الاحصاء وفهمه بأنفسهم.

وعلم الاحصاء صعب . صعب جدا.

لذلك يتسألون إذا كان حقا الإحصاء، هل هو ضروري حقا.

أعني، لقد حصلوا بالفعل على الجواب، فلماذا نحن بحاجة إلى إضاعة الوقت لدينا مع الاحصاء؟

ملللللل….

لذلك الإحصاء نفي ويتجاهل إلى حد أن علماء البيانات أعلنوا أنه ميت.

أما رأيي أنا الشخصي هو أنه عندما تريد أن تكون عالم بيانات فيجب أن تدرس الاحصاء جيدا بنظرياته ومن ثم تتعلم البرمجة والبرامج المتعلقة بالتحليل كار وبايثون وهادوب وليس العكس.

Tags:

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *