Je recommande souvent dans la newsletter des affiches des championnats du Big 4 européen ou des affiches de coupe d’Europe sans club français. Pour décider quels matches mettre en avant, j’utilise les données du site FiveThirtyEight.

Meet FiveThirtyEight

FiveThirtyEight est un site qui utilise les données — ce qu’on appelle souvent la data dans le jargon — pour étudier des domaines variés : politique et sport en tête.

Pour illustrer leur philosophie, ils ont publié sur leur site la mission qu’ils se sont assignée :

We use data and evidence to advance public knowledge — adding certainty where we can and uncertainty where we must.

En gros, utiliser les données et les preuves pour faire progresser les connaissances du public — ajoutant de la certitude là où ils le peuvent et de l’incertitude là où ils le doivent.

Le site a été créé par Nate Silver, un statisticien américain qui s’est rendu célèbre pour ses prédictions dans le domaine du sport — le baseball notamment — et de la politique — il a prédit le résultat de 49 des 50 états lors de l’élection présidentielle US de 20081.

Quoiqu’américain, FiveThirtyEight s’intéresse au foot — enfin, au soccer — et établit depuis 2017 des prédictions sur les plus grandes compétitions de club. Pas à un cadeau près, le site publie même ses données qui sont documentées sur leur GitHub.

Le modèle de données

Le fichier qui nous intéresse, c’est spi_matches_latest.csv.

Regardons à quoi ça ressemble avec le match que je regarde en écrivant ces lignes : Maccabi Haifa - Paris SG.

2022,2022-09-14,1818,UEFA Champions League,Maccabi Haifa,Paris Saint-Germain,45.7,90.72,0.0433,0.8373,0.1194,0.43,2.58,12.5,20.2,,,,,,,,

Transformons cette ligne pour montrer ce que chaque colonne contient:

season: 2022
date: 2022-09-14
league_id: 1818
league: UEFA Champions League
team1: Maccabi Haifa
team2: Paris Saint-Germain
spi1: 45.7
spi2: 90.72
prob1: 0.0433
prob2: 0.8373
probtie: 0.1194
proj_score1: 0.43
proj_score2: 2.58
importance1: 12.5
importance2: 20.2

FiveThirtyEight fournir une notice exhaustive de leurs prédictions. En voici une succincte traduction qui se focalise sur ce qui nous intéresse ici :

  • le SPI (Soccer Power Index), c’est une évaluation de la force de l’équipe. Dans notre exemple, Paris SG a une note d’environ 90 et Maccabi Haïfa 45. Ces notes, entre 0 et 100, ne veulent rien dire en soi, mais la différence entre ces 2 notes se traduit en une prédiction sur l’issue du match. En l’occurrence, le modèle de FiveThirtyEight prévoit une victoire de Paris par un score de 2,58 à 0,43 avec une probabilité de victoire de 83% pour Paris et de 4% pour Maccabi Haïfa. En fonction du score réel du match, la note de chacune des deux équipes sera réévaluée à la hausse ou à la baisse, selon que chaque équipe aura obtenu un résultat meilleur ou moins bon que la prédiction du modèle.
  • le modèle de FiveThirtyEight prévoit aussi le spectacle auquel on peut s’attendre en regardant en calculant :
    • la qualité d’un match, qui est basée sur le SPI des équipes, en calculant la moyenne harmonique de leurs notes respectives;
    • l’importance d’un match, qui est basé sur l’impact qu’aura le résultat du match sur le résultat final de la compétition à laquelle il contribue. En d’autres termes, c’est une quantification de l’effet “match à six points”. L’importance du match, notée entre 0 et 100, sera différente pour chacune des 2 équipes.

L’heure du choix

Peu importe ce que ces valeurs veulent dire, la conclusion est que quand on est disposé à regarder un match où ne figure aucun de ses clubs de cœur, autant regarder le match qui a la plus grande probabilité d’offrir le meilleur spectacle.

C’est pourquoi dans certaines éditions de la newsletter, je proposerai parfois un match entre équipes moyennes mais à fort enjeu, plutôt qu’un match avec une grosse équipe mais où le résultat paraît trop prévisible ou le sort de la compétition est déjà plié.

Comme toujours quand les probabilités sont engagées, je cours le risque de passer à côté d’un match qui sera très spectaculaire, mais sur le long terme, je devrais aussi proposer des pépites à côté desquelles il aurait été dommage de passer.

  1. d’où le nom du site, puisqu’il y a actuellement 538 grands électeurs dans le collège électoral des États-Unis.