Faire des prédictions au football est un métier dangereux, il suffit de jeter un œil sur celles faites avant la Coupe du Monde 2014 pour se rendre compte des risques encourus. Mais nous allons quand même tenter le coup.

Pour se faire, nous allons parler du bon indice FIFA, celui utilisé dans le football féminin, expliquer son utilité et l’appliquer pour prédire les phases de poules de la Coupe du Monde.

Les deux classements FIFA

Vous avez sans doute déjà entendu parlé du classement FIFA des équipes nationales masculines, et ce de manière pas toujours très élogieuse. On pourrait discuter pendant des heures de la validité d’un classement qui place la Belgique 2ème devant l’Argentine, ou la Roumanie et la Suisse devant l’Italie. Quoi qu’il en soit, sa qualité principale est sa simplicité, ce qui explique sans doute qu’il soit toujours utilisé.

Un petit rappel rapide de son fonctionnement. Pour chaque équipe et chaque match joué, on calcule un indice :

$$ P = résultat\times\ importance\ du\ match\times\ niveau\ de\ l’adversaire$$

Le résultat ici est 3, 1 ou 0 pour une victoire, un nul ou une défaite, respectivement. L’importance du match est un facteur entre 1 et 4 déterminé par la nature de la compétition. Le niveau de l’adversaire est une combinaison de la différence de classement entre les deux équipes et un facteur de correction correspondant au niveau de chaque confédération. Le classement final est obtenu en faisant la moyenne de ces indices pour chaque match au cours des 4 dernières années, en pondérant les années récentes de manière croissante. Vous pouvez trouver les formules exactes ici1.

Comme dit précédemment, l’un des aspects positifs de ce classement est qu’il est facile de faire le lien entre le classement d’une équipe et ses performances récentes. Le problème est qu’il ne fournit pas de méthode pour prédire les résultats futurs. De fait, il est communément admis qu’il ne s’agit sans doute pas du meilleur indice pour faire des prédictions, une question que nous analyserons sans doute en détail une autre fois.

En 2003, la FIFA a commencé à fournir un classement similaire pour le football féminin. Similaire a priori, son approche étant en fait très différente. L’essence de ce classement est basé sur le schéma des classements Elo. Ce système a été développé à l’origine par Arpad Elo, un professeur de physique d’origine hongroise, dans le but de créer un meilleur classement pour son activité préférée : les échecs. Depuis, sa méthode a été utilisée sous différentes formes dans des contextes aussi divers que le football américain universitaire, le backgammon et les compétitions de League of Legends.

Nous n’allons pas rentrer dans les détails de son calcul pour l’instant mais l’une de ses qualités premières est qu’il s’agit d’un système auto-correcteur. Chaque match influe sur l’indice des deux équipes impliquées. L’importance de ce changement dépend de la différence d’indice entre les équipes avant le match. En pratique, ceci signifie que si une équipe très bien classée perd contre une équipe d’un niveau très bas, son indice baissera fortement et celui de l’équipe faible montera d’autant. De cette façon, si le niveau d’une équipe avait été sous ou sur-estimé (si l’équipe a changé de composition par exemple), ceci se répercutera rapidement sur son classement après quelques matchs. Si vous voulez en savoir plus sur les détails du calcul de cet indice, vous pouvez jeter un œil ici.

Ceci étant dit, voici le classement des équipes féminines participant à la Coupe du Monde.

Le résultat est plutôt raisonnable, l’ordre des équipes correspond à l’analyse faite par la plupart des médias. Si vous vous demandez quelle équipe du top 10 ne s’est pas qualifiée pour la Coupe du Monde… Disons que ça a rendu cette personne très triste.

Vous avez sans doute remarqué que le Canada apparaît deux fois dans ce classement. En bas, on retrouve sa position dans le classement officiel tandis que plus haut nous avons rajouté son classement théorique en prenant en compte l’avantage à domicile. C’est un phénomène bien documenté au football (et dans les sports de compétitions en général) que le fait de jouer sur son terrain apporte un avantage significatif. Pour prendre en compte ce fait, on ajoute 100 points à l’équipe jouant à domicile et on utilise ce nouvel indice pour les prédictions.

Justement, comment utilise-t-on ces indices pour faire nos prédictions ? En soi, le classement n’est pas suffisant pour dire que, par exemple, puisque la France est mieux classée que l’Angleterre, elle gagnerait systématiquement si les deux équipes se rencontraient. Dans ce cas, on pourrait juste déclarer l’Allemagne vainqueur et s’arrêter là. Il faut en réalité penser de manière probabiliste.

Par “chance”, le classement FIFA féminin (et en fait tous les classements de type Elo) est accompagné d’une méthode pour calculer ce genre de probabilités. Vous pouvez trouver la formule exacte ici par exemple (en anglais, the “expected result”). Le point essentiel est que les probabilités de victoire et de défaite de deux équipes qui se rencontrent dépendent uniquement de la différence de leurs indices (et non pas de leurs classements !), ajustée lorsqu’une des équipes joue à domicile. Plus cette différence est large plus l’équipe devant au classement a de chances de gagner. Par exemple, en supposant qu’il ne peut pas y avoir de match nul (comme lors de la phase finale de la Coupe du Monde par exemple), la France devrait gagner contre l’Angleterre 65% du temps, ce qui serait aussi vrai de toutes équipes dont la différence d’indices est de 100 points. Si la France joue contre le Costa Rica, elle devrait gagner 95% du temps.

Vous pouvez passer directement aux prédictions pour voir les probabilités pour tous les matchs possibles lors de la Coupe du Monde ainsi que notre analyse des phases de poules. Pour ceux que ça intéresse nous allons essayer de donner quelques preuves de l’efficacité de cette méthode auparavant.

Pourquoi ça peut marcher

Les qualités de prédictions de ce type d’indices sont assez bien documentées, mais il est difficile de trouver des exemples précis pour le football féminin. Nous avons donc fais notre propre validation élémentaire.

Nous avons compilé tous les matchs disponibles sur le site de la FIFA depuis Janvier 2012 et avons utilisé les indices de chaque équipe au moment de leurs rencontres. Au total, nous avons obtenu 400 matchs pour lesquels ces données étaient utilisables. Nous avons alors comparé les prédictions pour chaque match avec les résultats. Voici ce qu’on obtient :

Ici un match nul compte pour une demi-victoire pour chaque équipe. Chaque point représente une moyenne sur 15 matchs pour lesquels les différences d’indices entre équipes sont similaires. Ce qui définit ou non une bonne corrélation est un sujet de débat mais, dans ce cas précis, l’existence d’une relation forte est indégnable.

Si l’on regarde plus en détail, on remarque une chose : les points sont plus proche de la droite de tendance aux extrêmes que vers le milieu. Ceci signifie que le modèle semble mieux prédire les résultats pour les matchs entre équipes dont la différence d’indice est large (au dessus de 500 points d’écart) et avoir plus de mal pour les équipes de niveau proche (au dessous de 150 points).

Un autre problème vient du petit secret honteux des classements Elo : ils ne sont pas conçus pour prédire les matchs nuls ! Voici un graphe du pourcentage de matchs nuls pour une différence d’indices donnée. Ici chaque point représente 20 matchs.

Il y a une tendance visible, mais aussi beaucoup de bruit. Comme chaque point représente 20 matchs et que les matchs nuls ont rarement lieu plus de 30% du temps, une simple variation d’un match a un effet visible.

Pour faire nos prédictions nous avons utilisé la courbe dessinée sur le graphe. Nous avons essayé plusieurs formules et celle-ci semble être la plus proche des observations. Bien que nous n’ayons pas une explication précise pour justifier ce choix, voici les propriétés que nous avons recherchées :

  • son maximum doit être autour de 25% : deux équipes de même niveau devrait faire match nul environ le quart du temps et c’est le maximum ! Cela peut sembler contre-intuitif mais un match nul n’est jamais le résultat le plus probable ;
  • elle doit être symétrique ;
  • elle doit approcher zéro très rapidement aux extrêmes. Pour une différence d’indices au dessus de 300, la probabilité d’un match nul descend au dessous de 5% et devient presque nulle au dessus de 600. En pratique, nous avons peut-être surcompensé mais nous avons décidé de nous baser sur les données passées pour nous guider.

Nos prédictions pour les phases de poules

Maintenant que nous avons vu que l’indice FIFA féminin permettait d’obtenir des prédictions relativement fiables historiquement nous pouvons passer à la Coupe du Monde.

Tout d’abord, nous pouvons utiliser la recette décrite plus haut pour prédire les chances de victoire, de match nul ou de défaite pour n’importe quelle rencontre entre équipes qualifiées. Vous pouvez aussi trouver des combinaisons qui n’auront pas lieu pendant les phases de poules, si, par exemple, vous voulez connaître les probabilités de cette finale Costa Rica-Thaïlande dont vous avez toujours rêvé.

Nous avons ensuite combiné ces chances pour obtenir les probabilités de tous les classements possible pour chaque poule. Nous avons dû faire quelques simplifications en cas d’égalité, puisque nous n’avons pas essayé de prédire le nombre de buts marqués lors de chaque match. De même, nous n’avons pas pu prédire les probabilités d’une équipe à la troisième place de passer au tour suivant. Pour obtenir une estimation vous pouvez imaginer qu’une équipe à la troisième place a environ deux chances sur trois de se qualifier, même si c’est une simplification. Voici donc nos prédictions pour chaque groupe.

Groupe A

Canada Netherlands China PR New Zealand

C’est l’un des groupes les plus imprévisibles. Derrière le Canada qui, en partie dû à l’avantage à domicile, a plus de 80% de chance de se qualifier, la Chine, les Pays-Bas et la Nouvelle Zélande ont tous une chance de se qualifier. Les matchs de la Chine et de la Nouvelle Zélande contre les Pays-Bas seront déterminants.

Groupe B

Germany Norway Thailand Côte d'Ivoire

La situation est inversée ici. L’Allemagne est à peu près certaine de se qualifier, très probablement à la première place. Derrière, la Norvège a aussi plus de 80% de chance de passer au tour suivant. De manière intéressante les Thaïlandaises semblent avoir une bonne chance de finir 3ème. Si elles arrivent à soigner leur différence de buts contre la Côte d’Ivoire et qu’elles ne sombrent pas contre les deux géants, elles ont une petite chance.

Groupe C

Japans Switzerland Ecuador Cameroon

la situation est similaire à celle du groupe B. Le Japon et la Suisse devraient se qualifier facilement dans cet ordre, tandis que le Cameroun et l’Équateur sont dans une position très difficile. Seule une grosse victoire de l’un sur l’autre leurs donnnerait une petite chance.

Group D

USA Sweden Australia Nigeria

Chaque Coupe du Monde se doit d’avoir son “groupe de la mort” et le voici. Même si les États-Unis sont sans aucun doute l’un des favoris pour la victoire finale (avec l’Allemagne), ils auront un chemin beaucoup plus difficile lors des phases de poules avec seulement 54% de chance de finir premiers2. Au total, les Américaines ont tout de même 80% de chance de se qualifier mais leur position aura une très grande importance pour la suite. Derrière, l’Australie et la Suède ont toutes les deux une bonne chance de se qualifier, avec un petit avantage pour les deuxièmes. Tous les matchs entre ces trois équipes seront cruciaux.

Group E

Brazil Spain Korea Republic Costa Rica

la situation est similaire à celle du groupe D. Derrière le Brésil qui devrait très probablement se qualifier mais pas nécessairement à la première place, l’Espagne et la Corée ont toutes les deux une bonne chance (plus de 60%) de s’en sortir aussi. En fait leur chance sont presque égales. Encore une fois, il y aura beaucoup de matchs intéressants dans cette poule.

Group F

France England Mexico Colombia

Un point commun entre ce groupe et le Groupe B : il y a un fossé entre les chances de l’Angleterre et de la France de se qualifier et celles du Mexique et de la Colombie. Cependant, savoir laquelle des deux équipes finira première est une autre histoire. Leur rencontre devrait être l’un des points d’orgue de la phase de poule, le résultat déterminant qui finira à la première place.

On parie ?

Vous trouvez que donner des probabilités c’est se défausser ? Que les vrais hommes et femmes vous disent ce qui VA se passer et misent tout dessus ? On y va alors. Les équipes qui VONT se qualifier pour la phase finale sont :

  • A
    1. Canada
    2. Pays-Bas
    3. Chine
  • B
    1. Allemagne
    2. Norvège
  • C
    1. Japon
    2. Suisse
  • D
    1. États-Unis
    2. Suède
    3. Australie
  • E
    1. Brésil
    2. Corée du Sud
    3. Espagne
  • F
    1. France
    2. Angleterre
    3. Mexique

On est tellement sûr de nous qu’on est prèt à parier 1000 1 euro dessus.

Revenez à la fin des poules, on vous dira à quel point on s’est trompé et on fera encore plus de prédictions pour la phase finale. En attendant, si vous voulez nous dire à quel point on se trompe déjà, n’hésitez pas à laisser un commentaire.

Photo de IQRemix partagée sous CC BY-SA 2.0 license.

  1. La FIFA a mis un nouveau modèle en place en août 2018.

  2. Si vous trouvez ces probabilités un peu faible, une possibilité est de considérer que les États-Unis ont presque le même avantage de jouer à domicile que le Canada (sauf s’ils se rencontrent évidemment). Si on ajoute 100 points à leur indice, leur probabilité de finir à la première place monte à 69% et ils auraient plus de 90% de chances de se qualifier.