علم البيانات

التنبؤ بمن سيفوز بكأس العالم

من سيفوز بكأس العالم

تحليل بيانات مباريات كرة القدم من عام 1950 إلى عام 2017 للتنبؤ بمن سيفوز بكأس العالم 2018


التنبؤ بمن سيفوز في كأس العالم أحد أهم المواضيع الساخنه قبل وأثناء مباريات كأس العالم. التنبؤ في علم الإحصاء وعلوم الرياضيات القائم على تحليل البيانات يعتبر أحد أهم فروع تلك العلوم.

هنا تحليل تفصيلي  باستخدام نموذج أحصائي للتنبؤ بمن سيفوز بكأس العالم 2018. سنستخدم المعلومات التاريخية حول مباريات كرة القدم العالمية لبناء النموذج ، والذي سيعطينا القدرة على التنبؤ بنتائج المباريات المستقبلية.

بعد ذلك ، سنستخدم هذا النموذج لتشغيل العديد من عمليات المحاكاة للبطولة المقبلة لكأس العالم ، وننتج إحصائيات حول أي منتخبات من المرجح أن تفوز بها جميعًا.

اللغة المستخدمة في التحليل هي لغة R.

البيانات:

سنستخدم مجموعة بيانات تحتوي على أكثر من 33 ألف مباراة دولية لكرة القدم لعبت بين عامي 1950 و 2017. كل هذه المباريات تُقام بين الفرق الوطنية العليا للرجال – لا توجد مباريات للنادي ، ولا توجد ألعاب للشباب / النساء.

التحليل:

هنا الحزم الاحصائية المستخدمة في التحليل.

 

هنا مثال ل شكل البيانات .

كي نبدأ التحليل نقوم بتنظيف البيانات وذلك حسب النقاط التالية ولن نخوض في التفصيل:

  • إزالة أي تكرارات قد توجد في مجموعة البيانات
  • تم تنسيق حقل التاريخ .
  • إضافة بعض الحقول لتسهيل عملية التحليل.
  • دراسة النقاط الشاذه وحذفها.
  • معالجة البيانات المفقودة
  • بالإضافة إلى مضاعف قوة المعارضة ، يعتبر FIFA القوة النسبية لكامل القارات في الحساب. يتم تعيين وزن كل اتحاد بين 0.85 و 1.0 ، استنادًا إلى الأداء النسبي للاتحادات في مباريات كأس العالم الثلاثة الأخيرة.

تصوير البيانات:

كم عدد المباريات الدولية التي أقيمت بين عامي 1950 الى عام 2017؟ الشكل أدناه يوضح كم عدد تلك المباريات بالنسبة للسنوات.

كم عدد الأهداف التي تم تسجيلها في كل لعبة على مر السنين؟

 

من أجل التقاط بعض المعلومات حول مدى جودة كل فريق ، دعونا نحدد صيغة النسبة الفائزة:

win% = (wins + 0.5 * draws) / games played

من بين الفرق التي لعبت 100 مباراة على الأقل ، ما هي النسبة المئوية للفوز لكل من هذه الفرق؟

توزيع نتائج المباريات بالإضافة إلى إجمالي عدد الأهداف المسجلة لكل لعبة.

الخطوة التالية هي إنشاء بيانات  training لنموذجنا – سوف تصف الميزات التي نرغب في استخدامها والنتيجة التي نحاول التنبؤ بها.

سنقوم بتقسيم ميزة match_features الخاصة بنا إلى تدريب ومجموعة بيانات اختبار. سنستخدم بيانات التدريب لملاءمة نموذجنا ، ثم سنستخدم بيانات الاختبار لتقييم دقتها.

سنستخدم المباريات من 1960 – 2001 لتدريب نموذجنا ، والمباريات من 2001 حتى الآن للتحقق من صحة ذلك.

نتيجة النموذج النهائية:

 

بالنسبة للسعودية وروسيا فالنموذج يعطي احتمالية لفوز روسيا تقريبا بهدف.

KSA     RUS    -0.9493333     1.76372

حيث أن -0.94 هو قيمة التوقع المأخوذه من النموذج. و 1.7 هي مقدار التباين عن متوسط بيانات الاختبار.

“KSA won 25 matches.”

“RUS won 64 matches.”

بالنسبة لمصر والارجواي هذه هو التوقع :

team1                   team2             outcome                sd
ARG                     EGY              1.5718       2.133479

“ARG won 69 matches.”

“EGY won 15 matches.”

حساب الاحتمالية للفوز عن طريق Odds :

هناك صيغة بسيطة للغاية لاحتمالات حدوث حدث والتي تعطى من خلال:

تشير الاحتمالات = 1 على p

p إلى الاحتمال

لنفترض الآن أن السعودية ستلعب مع روسيا. إن فرص فوز السعودية في المباراة هي ، لنقل ، 65٪ (0.65) وروسيا 35٪ (0.35).

سوف تكون الاحتمالات العادلة / الحقيقية

Odds(KSA)=1/p(KSA)=1/0.65=1.54

Odds(RUS)=1/p(RUS)=1/0.35=2.86

بعد هذا الشرح سنحسب Odds  كتنبؤ.

KSA : 116 to 1

BRA : 9 to 1

ARG : 9 to 1

GER : 10 to 1

RUS : 11 to 1

ENG : 14 to 1

POR : 14 to 1

FRA : 17 to 1

ESP : 17 to 1

SUI : 18 to 1

BEL : 25 to 1

CRO : 27 to 1

DEN : 40 to 1

SRB : 52 to 1

COL : 53 to 1

MEX : 66 to 1

URU : 67 to 1

SWE : 76 to 1

POL : 83 to 1

KOR : 109 to 1

IRN : 116 to 1

AUS : 130 to 1

JPN : 133 to 1

CRC : 139 to 1

NGA : 204 to 1

PAN : 263 to 1

TUN : 263 to 1

SEN : 345 to 1

ISL : 400 to 1

EGY : 556 to 1

MAR : 833 to 1

PER : 833 to 1

انتهى



 

 

 

 

 

Thanks to Paste Sorn for his suggestion and data .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Tags:

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *