الإحصاء الحيويالإحصاء النظري

تنظيف البيانات الدليل الشامل

تنظيف البيانات


مما لاشك فيه أن توفر البيانات مهم وتحليلها مطلب أهم. كلما كان التحليل دقيقا ومبني على طرق علمية تتعامل مع كل مجموعة بيانات وكأنها قضية منفردة يتم التعامل معها بشكل خاص. التحليل الصحيح ينتج عنه نتائج دقيقة وواضحة ويبنى عليها قرارات سليمة.

التساؤل الذي يطرح نفسه: هل العامل المهم في أي عملية تحليل للبيانات هي عملية التحليل فقط؟ ويكون الجواب ليس عملية التحليل وماتحتويه من Predication or estimation وإنما هناك عوامل مهمه للغاية ماقبل التحليل. وهي تنظيف البيانات.

إن البيانات في يومنا هذا تتضخم يوما بعد يوم وتتعدد مصادرها، وهذا يقود إلى تعرض هذه البيانات غلى الكثير من المشاكل التي تقلل من جودة البيانات مثل كثرة البيانات المفقودة وعدم تناسق البيانات وكثرة Noise فيها.

وبالتأكيد عندما تكون جودة البيانات منخفض فهذا سيؤثر حتما على نتائج التحليل. في هذا المقال أسلط الضوء على طرق تنظيف البيانات بشكل مبسط. والهدف من هذا المقال ليس تغطية الموضوع بشكل شامل حيث هذا جهد يحتاج إلى عمل أكبر من مقال وإنما أسعى لتوعية الباحثين والمحللين بأهمية تنظيف البيانات قبل أن نفكر في تحليلها. فنحن نسعى أن تكون البيانات “مثالية” قدر الإمكان.

علما أنني شخصيا أضع تنظيف وتدقيق وتحضيرها البيانات جزء لايتجزء من تحليلها. وكخبير في الإحصاء والتحليل فإنه وجود نموذج Model بسيط مع بيانات ذات جودة عالية أفضل بكثير عن نموذج دقيق مع بيانات ذات جودة قليلة.


جودة البيانات

قبل أن نتحدث عن معالجة أو تنظيف البيانات، يجب أن نتحدث عن جودة البيانات، ماهي جودة البيانات والحقيقة وجدت أحد المراجع تحدث عن ذلك عن طريق شمل خصائصها في نقاط وهو ماإستندت عليه أدناه.

صلاحية validity

درجة مطابقة البيانات لقواعد أو قيود العمل المحددة.

قيود نوع البيانات: يجب أن تكون القيم الموجودة في عمود معين من نوع بيانات معين ، على سبيل المثال ، منطقية ، رقمية ، تاريخ ، إلخ.

قيود النطاق: عادة ، يجب أن تقع الأرقام أو التواريخ ضمن نطاق معين.

القيود الإلزامية: بعض الأعمدة لا يمكن أن تكون فارغة.

قيود الفردية: يجب أن يكون الحقل ، أو مجموعة من الحقول ، فريدة unique عبر مجموعة بيانات.

قيود مجموعة العضوية Membership: تأتي قيم العمود من مجموعة من القيم المنفصلة ، على سبيل المثال تعداد القيم. على سبيل المثال ، قد يكون جنس الشخص ذكرا أو أنثى.

قيود المفتاح الخارجي: كما هو الحال في قواعد البيانات العلائقية ، لا يمكن أن يحتوي عمود المفتاح الخارجي على قيمة غير موجودة في المفتاح الأساسي المشار إليه.

أنماط التعبير العادية: حقول النص التي يجب أن تكون في نمط معين. على سبيل المثال ، قد تكون هناك حاجة إلى أرقام الهواتف للحصول على النمط (999) 999-9999.

التحقق من صحة الحقول المشتركة: يجب أن تسري شروط معينة تمتد عبر حقول متعددة. على سبيل المثال ، لا يمكن أن يكون تاريخ خروج المريض من المستشفى قبل تاريخ الدخول.

الدقة Accuracy

الدرجة التي تكون بها البيانات قريبة من القيم الحقيقية.

على الرغم من أن تحديد جميع القيم الصحيحة الممكنة يسمح بسهولة رصد القيم غير الصالحة ، فإن هذا لا يعني أنها دقيقة. عنوان شارع صالح قد لا يكون موجودًا بالفعل. قد يكون لون عين الشخص الصحيح ، مثل اللون الأزرق ، صالحًا ، ولكنه غير صحيح (لا يمثل الواقع).

شيء آخر يجب ملاحظته هو الفرق بين الدقة Accuracy والضبط Precision. القول بأنك تعيش على الأرض ، صحيح بالفعل. لكن ليس دقيق. أين على الأرض؟ القول بأنك تعيش في عنوان شارع معين أكثر دقة.

كمال Completeness

درجة معرفة جميع البيانات المطلوبة.

ستحدث البيانات المفقودة لأسباب مختلفة. يمكن للمرء أن يخفف من هذه المشكلة عن طريق سؤال المصدر الأصلي إن أمكن ، على سبيل المثال إعادة مقابلة الموضوع. وسنتحدث عن البيانات المفقودة لاحقا.

التناسق Consistency

درجة اتساق البيانات ، داخل نفس مجموعة البيانات أو عبر مجموعات بيانات متعددة.

يحدث عدم تناسق عندما تتناقض قيمتان في مجموعة البيانات مع بعضهما البعض. على سبيل المثال10 سنوات ، قد لا يتطابق مع الحالة الزوجية. أو يتم تسجيل العميل في جدولين مختلفين مع عنوانين مختلفين.

اي واحد هو الصحيح؟.

انتظام Uniformity

الدرجة التي يتم بها تحديد البيانات باستخدام نفس وحدة القياس.

يمكن تسجيل الوزن إما بالجنيه أو بالكيلوغرام. قد يتبع التاريخ تنسيق الولايات المتحدة الأمريكية أو التنسيق الأوروبي. العملة في بعض الأحيان بالدولار الأمريكي وأحيانًا بالين.

 


ماهو تنظيف البيانات

بداية يجب أن نعلم ونعرف ماذا نعني بتنظيف البيانات، تعد عملية تطهير البيانات أو تنظيف البيانات عملية اكتشاف وتصحيح (أو إزالة) سجلات تالفة أو غير دقيقة من مجموعة سجلات أو جداول أو قاعدة بيانات وتشير إلى تحديد أجزاء غير كاملة أو غير صحيحة أو غير دقيقة أو غير ذات صلة بالبيانات ثم استبدال أو تعديل أو أو حذف البيانات السيئة أو الغير مرغوب فيها.


ماهي فائدة تنظيف البيانات؟

  1. تقليل الأخطاء، حيث أنه مع عملية تجميع البيانات خصوصا من مصادر مختلفة تكون عرضه للوقوع في العديد من الأخطاء والتناقضات.
  2. تقليل Noise في البيانات.
  3. صداقة البيانات، عندما تبدأ بتنظيف البيانات فإنك تبدأ بتكوين علاقة بينك وبين البيانات بل هي المفتاح الأول لفهمك الحقيقي للبيانات. وعندما تفهم البيانات الموجودة لديك بل يتعدى هذا الفهم أن تزيل عنها ماتراه غير مناسب لها فإنك توطد علاقتك بها بشكل كبير وهذا يقودك إلى تحديد أهدافك التحليلية وكذلك فهم طبيعة المتغيرات وغيرها.

طرق تنظيف البيانات

يمكننا أن نقسم طرق تنظيف البيانات إلى:

  • مرحلة تحديد البيانات
  • مرحلة تنظيف الأخطاء
  • مرحلة التعامل مع البيانات المفقودة

أولا: حذف الغير مناسب لأهدافك البحثية أو التحليلية.

وهذا الخيار أضعه من خلال خبرتي تحت تنظيف البيانات وأعني به. حذف البيانات التي لاتتناسب مع هدفك البحثي. مثلا عندما تعمل استبيان شامل للمجتمع السعودي عن ضرر التدخيم مثلا، وتريد أن تدرس فقط الذكور فبالتأكيد سيتم حذف الإناث من البيانات.

على سبيل المثال ، إذا كنا نحلل البيانات المتعلقة بالصحة العامة للسكان ، فلن يكون رقم الهاتف ضروريًا.Column-wise

وبالمثل ، إذا كنت مهتمًا بدولة واحدة فقط ، فلن ترغب في تضمين جميع البلدان الأخرى. أو قم فقط بدراسة هؤلاء المرضى الذين ذهبوا إلى الجراحة ، ولن نشمل الجميع Row-wise

فقط إذا كنت متأكدًا من أن جزءًا من البيانات غير مهم ، فيمكنك إسقاطه. خلاف ذلك ، استكشف مصفوفة الارتباط بين متغيرات المعالم.

وعلى الرغم من عدم ملاحظة أي ارتباط ، يجب أن تكون حذرا في حذف البيانات الغير مطلوبة وعليك سؤال شخص خبير في المجال. لا تدري أبدًا أن المتغيرات التي تبدو غير ذات صلة ، قد تكون وثيقة الصلة بالموضوع من منظور أخر.

 

ثانيا: إلغاء البيانات المكررة.

يهدف إلغاء البيانات المكررة إلى تجميع السجلات في مجموعة البيانات. من خلال القيام بذلك ، فإنه يتأكد من أن كل مجموعة تمثل نفس الكيان الحقيقي. للحصول على أفضل النتائج ، يجب إجراء هذه العملية عند ملء قاعدة البيانات لأول مرة وأيضًا عند إضافة سجلات جديدة.

ثالثا: التحويل

تأكد من تخزين الأرقام كأنواع بيانات رقمية. يجب أن يتم تخزين التاريخ كموضوع تاريخ ، أو طابع زمني (عدد الثواني) ، وهلم جرا.

يمكن تحويل القيم الفئوية من وإلى الأرقام إذا لزم الأمر.

يمكن رصد ذلك بسرعة عن طريق إلقاء نظرة خاطفة على أنواع بيانات في كل عمود عن طريق الملخص (summary).

رابعا: إصلاح الأخطاء

إزالة المسافات البيضاء: يجب إزالة المسافات البيضاء الإضافية في بداية أو نهاية السلسلة.

إصلاح الأخطاء المطبعية: يمكن إدخال السلاسل بعدة طرق مختلفة ، ولا عجب في أن الأخطاء قد تحدث.

MALE, M, Male, Fem, Female

هذا المتغير له 5 تصنيفات مختلفة ، وليس 2 كما هو متوقع: ذكر وأنثى لأن هناك خمس قيم مختلفة.

Bar Plot مفيدة لتصور جميع القيم الوحيدة. يمكن للباحث أن يلاحظ أن بعض القيم مختلفة ولكنها تعني الشيء نفسه ، مثل “information_technology” و “IT”. أو ، ربما يكون الاختلاف في الكتابة بالأحرف الكبيرة مثل “other” و “Other”.

خامسا: توحيد Standardised

واجبنا هو ليس فقط التعرف على الأخطاء المطبعية ولكن أيضا وضع كل قيمة في نفس التنسيق الموحد.

للقيم اللفظية ، تأكد من أن جميع القيم إما في حالة صغيرة أو كبيرة خاصة عندما تكون البيانات بالانجليزي.

بالنسبة للقيم العددية ، تأكد من أن جميع القيم تحتوي على وحدة قياس معينة.

الارتفاع ، على سبيل المثال ، يمكن أن يكون بالأمتار والسنتيمترات. يعتبر الفرق البالغ طوله متر واحد هو نفس الفرق البالغ سنتيمتر واحد. لذلك ، المهمة هنا هي تحويل الارتفاعات إلى وحدة واحدة.

بالنسبة للتواريخ ، فإن إصدار الولايات المتحدة الأمريكية ليس هو نفسه الإصدار الأوروبي. وكذلك الهجري والميلادي

سادسا: التحجيم / التحول

القياس يعني تحويل بياناتك بحيث تناسبها في نطاق معين ، مثل 0-100 أو 0-1.

على سبيل المثال ، يمكن إعادة تقييم درجات الامتحانات للطالب بحيث تكون النسب المئوية (0-100) بدلاً من المعدل التراكمي (0-5).

يمكن أن يساعد أيضًا في جعل أنواع معينة من البيانات أسهل في التخطيط. على سبيل المثال ، قد نرغب في تقليل الانحراف للمساعدة في التخطيط (عند وجود العديد من القيم المتطرفة). الدوال الأكثر استخدامًا هي السجل وجذر التربيع والعكس.

يمكن أن يحدث القياس أيضًا على البيانات التي تحتوي على وحدات قياس مختلفة.

لا يمكن مقارنة درجات الطلاب في اختبارات مختلفة ، SAT و ACT ، لأن هذين الاختبارين على نطاق مختلف. يعتبر الاختلاف في درجة 1 SAT هو نفس الفرق في درجة ACT 1. في هذه الحالة ، نحتاج إلى إعادة قياس درجات SAT و ACT لأخذ الأرقام ، على سبيل المثال ، بين 0-1.

من خلال القياس ، يمكننا رسم ومقارنة درجات مختلفة.

سابعا: الإعتدالية

على الرغم من أن التطبيع يؤدي أيضًا إلى إعادة قياس القيم إلى نطاق يتراوح من 0 إلى 1 ، فإن الهدف هنا هو تحويل البيانات بحيث يتم توزيعها بشكل طبيعي. لماذا ا؟

في معظم الحالات ، نقوم بتطبيع البيانات إذا كنا سنستخدم طرقًا إحصائية تعتمد على البيانات الموزعة بشكل طبيعي. ماذا؟

يمكن للمرء استخدام دالة السجل ، أو ربما استخدم إحدى هذه الطرق.

بناءً على طريقة القياس المستخدمة ، قد يتغير شكل توزيع البيانات. على سبيل المثال ، تحتفظ “النتيجة القياسية Z” و “Student’s t-statistic” بالشكل التوزيع ، في حين أن ذلك يختلف في الدالة اللوغارتمية. ادناه نعرض الاختلاف بين Normalization vs Scaling

ثامنا: البيانات المفقودة.

ولأهمية هذا الموضوع سنستعرضه في موضوع منفصل بالتفصيل.

Tags:

3 comments

  1. This is a topic that’s close to my heart… Best wishes!
    Where are your contact details though?

  2. Great article, exactly what I wanted to find.

  3. Its such as you read my mind! You seem to know a lot
    approximately this, like you wrote the guide in it or something.
    I think that you simply could do with a few percent to drive the message home a bit,
    however instead of that, that is excellent blog. An excellent read.
    I will certainly be back.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *