Une histoire de différence de buts

Parfois ça fait du bien de s’intéresser à l’évidence : qui marque plus de buts que son adversaire gagne plus de matchs. Nous allons donc commencer par nous poser une question assez simple : quelle relation (ou corrélation) existe-t-il entre la différence de buts d’une équipe au cours d’une saison et le nombre de points qu’elle peut espérer engranger ? Nous allons regarder quelques exemples parmi les championnats européens depuis 2002, en essayant de trouver une règle générale et peut-être aussi quelques exceptions.

C’est une droite !

On commence par la Premier League anglaise sur les saisons 2002-2003 à 2014-2015. En passant sur le graphique vous pouvez voir à quelle équipe correspond chaque point.

Ceux qui aiment les choses bien alignées devraient sourire. Ça n’est pas parfait, il y a clairement du bruit sur lequel nous reviendrons plus bas, mais la courbe de tendance est clairement visible et donnée par une droite (on parle dans ce cas de régression linéaire). D’un point de vue statistique, il s’agit en fait d’un très bon exemple de corrélation entre deux quantités¹.

Le fait que la différence de buts et le nombre de points accumulés par une équipe soient jusqu’à un certain point liés est une évidence. Cependant, la nature précise de cette relation a un certain nombre de conséquences auxqelles nous allons nous intéresser. En commencant par l’équation de la droite de tendance:

Si vous vous souvenez de vos cours de maths de 5ème (on ne vous en voudra pas sinon, on ne juge pas !), vous savez qu’une droite est déterminée par deux nombres : sa pente et son ordonnée à l’origine, dans notre cas aux alentours de 0,6 et 52 respectivement.

Le deuxième nombre a une interprétation simple : une équipe ayant une différence de buts de 0 sur l’année peut espérer finir avec 52 points en moyenne sur la saison. Deux exemples presque parfaits ici sont Tottenham 2009 et Charlton Athletics 2004. En pratique, comme la moyenne des différences de buts de toutes les équipes est nécessairement 0 sur une saison, ce chiffre correspond aussi à la moyenne de points obtenus par tous les clubs sur ces 13 dernières années.

Que signifie la pente ? Elle nous donne le taux auquel un changement dans la différence de buts est converti en points. Plus précisément, une augmentation de la différence de buts d’une unité se traduit en moyenne par une augmentation de 0,6 du nombre de points obtenus par une équipe sur une saison. Si vous n’aimez pas les décimales de points, voici un exemple. Nous avons vu qu’une équipe ayant une différence de buts de 0 engrange en moyenne 52 points. Par conséquent, une équipe qui finit avec une différence de buts de +10 peut s’attendre à obtenir en moyenne 6 ou 7 points de plus et atteindre les 58 points à la fin de la saison (Liverpool 2005 en est proche par exemple).

Quelques prédictions audacieuses

L’un des aspects surprenants de cette corrélation est qu’elle reste valide même aux extrêmes : on peut remercier Derby County en 2008 de nous permettre de valider notre modèle avec d’aussi mauvais résultats, une véritable performance ! À l’opposé, même s’il est possible que la courbe s’applatisse un peu pour les différences de buts les plus élévées, Manchester City, Manchester United et Chelsea ont tous obtenu des résultats conformes à la tendance au cours de ces dernières années.

Ceci nous amène à faire une prédiction : dans l’avenir, une équipe finira peut-être par perdre tous ses matchs au cours d’une saison. Pour réussir cet anti-miracle, nous prédisons que cette équipe, magnifique dans son ineptitude, aura encaissé au moins 80 buts de plus qu’elle n’en aura marqué. Peut-être qu’une combinaison parfaite de tous les malheurs dont ont été victimes Derby County 2008, Arles-Avignon 2011, Pescara 2013, Fribourg 2005 et Cordoue 2015 nous permettra d’être témoins d’une telle performance ? À l’autre extrême, il est possible qu’une équipe arrive un jour à gagner tous ses matchs et à atteindre le plafond de 114 points sur une saison. Si l’on se risque à étendre notre droite de tendance aussi loin, on en déduit qu’une telle équipe devrait avoir une différence de buts d’au moins +95 à la fin de la saison².

Ça peut sembler être bien plus que nécessaire, puisque qu’une telle équipe aura marqué en moyenne 2,5 buts de plus par matchs que ses adversaires, ce qui ressemble plus à de la violence gratuite qu’autre chose. Après tout, un but d’écart à chaque fois aurait suffit. Ce qu’il est important de comprendre, c’est que la différence de buts est une mesure de la qualité intrinsèque d’une équipe. Par conséquent, l’analyse des performances passées nous dit que seule une équipe qui arrive à marquer près de 3 buts de plus que ses adversaires en moyenne par match a une bonne chance d’être capable de tous les gagner au cours de la saison. Si une équipe ne marque “que” un but de plus que ses adversaires en moyenne, elle finira sans doute aux alentours des 75 points, ce qui historiquement signifie terminer entre la 5ème et la 2ème place, mais dans tous les cas, on est très loin des 114 points.

Tant de bruit…

Que peut-on dire des écarts par rapport à notre de droite de tendance ? Au niveau statistique, ils sont assez limités, mais ça ne veut pas dire que ces petites variations n’ont pas de conséquences au niveau du classement final. Pour avoir une meilleure idée de ce bruit, nous allons nous intéresser au graphique des erreurs, c’est à dire la différence entre les résultats et ce que la droite prédisait, aussi appelés les résidus. On s’intéresse maintenant au cas de la Ligue 1, vous trouverez les graphiques pour toutes les ligues majeures vers la fin de l’article.

Vous pouvez passer du graphique original à celui des erreurs pour mieux comprendre la façon dont ils sont reliés. Pour le graphe des erreurs, l’axe horizontal correspond toujours à la différence de buts, l’axe vertical mesurant maintenant l’écart en points entre les résultats actuels et ce que la droite prédisait.

L’observation essentielle ici est que ces erreurs, ces variations autour de la droite de tendance, semblent être purement aléatoires, au sens où l’on retrouve le même type d’erreur pour des équipes ayant une différence de but dans les -30 ou dans les +30³. De plus, on trouve plus d’équipes pour lesquelles l’erreur est de moins de 5 points que d’équipes pour lesquelles cette erreur est entre 5 et 10 points, et très peu au delà⁴. Ces observations sont des signes de “bon” hasard dans l’erreur.

Ça ne veut pas dire qu’une différence de 10 points au dessus ou au dessous n’est pas significative. Par exemple, si l’on s’intéresse à Monaco, en 2003 le club finissait avec une différence de buts de +33 et sous-performait un peu en n’obtenant “que” 67 points. En 2014, par contre, ils finissent avec une différence de but quasi-identique (+32) mais obtiennent 80 points ! Près de 5 points de plus que prédit par la droite de tendance et un écart de 13 points pour une différence de buts similaire. Malgré tout, Monaco a réussi à finir à la 2ème place dans les deux cas, du fait de la relation complexe entre points et classement, mais c’est un sujet pour un autre article.

Ce qui nous amène à l’écart le plus important : l’Olympique de Marseille 2013. Cette année là, ils réussissent à engranger 71 points avec une différence de buts de seulement +6 ! C’est plus de 15 points au dessus des prédictions. Avec une telle différence de buts, ils auraient dû s’attendre à finir aux alentours des 56 points, ce qui les aurait conduit à la 7ème place, juste au-dessus de Bordeaux qui, avec la même différence de buts, n’a obtenu que 55 points. Au lieu de ça, l’OM finit 2ème, avec une différence de buts de 17 unités en dessous de celle de Lyon, le 3ème du championnat. En réalité, Saint-Étienne pourrait être encore plus déçu, finissant à la 5ème place avec une différence de buts de +28, 22 buts de plus que l’OM, la 2ème meilleure de la saison… Il serait intéressant de voir comment Marseille a réussi une telle sur-performance, mais ça sera le sujet d’un autre article.

Les autres championnats

Pour finir, nous allons vous laisser comparer les autres grands championnats européens, regarder la droite de tendance et voir comment le modèle se comporte par rapport aux résultats. Quelques remarques :

La Bundesliga n’étant composée que de 18 équipes, elle ne peut pas être comparée exactements aux autres ligues. Pour les mêmes raisons, nous avons utilisé les résultats à partir de la saison 2005-2006 pour l’Italie, correspondant à l’élargissement de la Serie A à 20 équipes.
Pour le championnat italien, nous avons enlevé les pénalités données aux équipes mises en cause dans le fameux scandale du Calcio 2006. Cela a pu avoir un effet sur les résultats pendant cette saison et la suivante.
Nous avons rajouté le coefficient de détermination \(R^2\) pour chaque graphe. Si vous ne savez pas ce qu’il signifie (pour l’instant !), disons juste que plus il s’approche de 1, plus les données sont en accord avec les prédictions. Un coefficent au dessus de 0,9 est considéré comme le signe d’une très bonne corrélation.

Nous n’allons pas étudier en détails les spécificités de chaque championnat pour l’instant, mais voici quelques points de repères :

La pente de la droite de tendance varie d’un championnat à l’autre, de 0,60 pour l’Allemagne et l’Espagne à 0,74 pour l’Italie. Ceci signifie que la conversion de la différence de buts en points se fait à un taux nettement plus élevé en Serie A que dans tous les autres championnats, ce qui est sans doute lié à la faiblesse des scores dans le championnat italien.
Le graphique des erreurs a la même nature aléatoire dans tous les cas, sauf peut-être parfois pour les différences de buts les plus élevées, pour lesquelles les équipes semblent avoir plus de mal à convertir les buts en points. L’exception à cette exception est l’Italie encore, mais aucune équipe de Serie A n’ayant atteint une différence de buts supérieure à +60 jusqu’à présent, il est difficile de dire ce qu’il se passera au delà.
L’axe vertical, correspondant à une différence de buts de 0, est décalé très à gauche pour l’Allemagne et l’Espagne. Ceci s’explique en grande partie par les performances récentes du Bayern de Munich, du Real Madrid et du Barça qui ont tous les trois réussi à accumuler des différences de buts jamais atteintes auparavant.

Ce n’est que le début

Ceci n’était qu’une première analyse de l’importance de la différence de buts et de ses liens avec les résultats effectifs. Il y aurait encore beaucoup de choses à dire, avec, parmi les questions en suspens :

Cette droite de tendance est-elle stable ou change-t-elle à mesure que les championnats évoluent ?
Quelle analyse peut-on faire des différences dans cette tendance entre championnats ?
Y a-t-il des équipes qui sur ou sous-performent de manière régulière et, dans ce cas, peut-on y trouver d’autres explications que le pur hasard ?
Une question plus subtile : peut-on détecter au cours d’une saison si une équipe est en sur ou sous-régime en comparant sa différence de buts et le nombre de points qu’elle a obtenus ? Cette question est liée au phénomène de régression vers la moyenne que l’on retrouve très fréquemment en statistique.

Nous reviendrons sans doute sur certaines de ces questions à l’avenir. En attendant, si vous avez un avis, une demande ou si vous voulez nous parler d’une saison passée de votre équipe fétiche (quelqu’un pour Pescara 2013 ?), amusez-vous dans les commentaires !

En pratique, la droite de tendance est souvent accompagnée d’un nombre entre 0 et 1 appelé le coefficient de détermination. Celui-ci mesure l’accord entre le modèle et les données, ou, autrement dit, l’écart entre les points et la droite de tendance. Dans notre exemple, ce coefficient est au dessus de 0,9, ce qui est parfois interprété en disant que 90% de la variation dans les données est “expliqué” par la droite de tendance. ↩
Pour obtenir ces résultats, il suffit d’inverser l’équation de la droite pour exprimer la différence de buts en termes de points

\[GD=\frac{1}{0.65}(P-52.12)\]

et de faire le calcul pour (P=0) et (P=114) respectivement. ↩
Ça n’est peut-être pas vrai pour les différences de buts les plus importantes pour lesquelles il semble que peu d’équipes arrivent à sur-performer. Mais puisque l’on a pour l’instant que peu d’exemples, il est encore risqué d’en tirer des conclusions définitives. ↩
Toujours au dessus, ce qui semble indiqué un biais dans le sens des grosses sur-performances. ↩