Post by Admin on Sept 27, 2015 0:47:06 GMT
Comme je le dis par ailleurs, mon souci de statisticien a longtemps été de m'émanciper du système UCI de classification des épreuves, jugé trop favorable à des épreuves exotiques ou promues pour des raisons d'internationalisation du cyclisme. Je ne suis pas contre la création d'épreuves en Estonie, en Norvège, au Canada ni même au Lesotho, qu'on m'entende bien. Je suis contre que ces épreuves sans passé, sans histoire, soient la plupart du temps classées au même niveau que des épreuves bien plus anciennes, qui ont un palmarès. Si l'on considère le niveau continental à l'époque du ProTour, celui-ci offrait cinq catégories : HC, 1, 2, 3 et 5. Une nouvelle épreuve commençait au plus bas niveau, avant, parfois, d'être rapidement promue, un peu trop vite parfois (plusieurs courses ont ainsi disparu, en raison des contraintes financières liées à leur statut, faute de rentabilité aussi, dans des pays qui n'avaient pas de tradition cycliste comme en Belgique, en France, en Italie, etc., où le public ne s'intéressait guère au cyclisme). Depuis l'UCI World Tour, c'est pire encore, puisqu'il n'existe plus au niveau continental que deux classes accessibles au moins aux équipes World Tour : HC et 1.
Je parle d'un système UCI trop favorable à certaines épreuves exotiques, mais certaines épreuves non exotiques sont elles aussi classées bien au-delà de leur réel niveau sportif. Cela se constate à la seule lecture des résultats (le Tour du Danemark en 2.HC vaut bien moins que le Tour de Belgique dans la même catégorie, et la Tropicale Amissa Bongo dans la catégorie 2.1 est assez loin de valoir le Tour de San Luis dans la même catégorie pourtant). Je me suis donc proposé de trouver un système permettant une requalification des courses, sans le faire arbitrairement sur simple consultation des classements ou des start-lists, sans écarter non plus une course que je n'aimerais pas, pour telle ou telle raison. Un système qui tiendrait compte des performances des coureurs, en fonction de la valeur desdits coureurs.
L'idée m'est venue de déterminer des courses de référence. Mais comment m'y prendre ? Personne n'oserait écarter des courses de référence l'un des trois grands tours, ou l'une des classiques, ou des courses comme Paris-Nice, le Dauphiné, etc. Mais quelles courses choisir dans les faits, et combien ? Si je décide de choisir par exemple 20 courses de référence, qui décide que je dois en exclure la Flèche Brabançonne et y inclure le Critérium International ? Combien de courses par étapes et combien de courses d'un jour ? Et de quels pays ?
En réfléchissant, je me suis dit que les courses de référence nous étaient fournies naturellement par l'UCI World Tour. En effet, ces épreuves sont les seules auxquelles sont tenues de participer les meilleures équipes cyclistes professionnelles. Toutes n'y envoient certes pas leurs meilleurs coureurs, mais le principe demeure (même s'il n'empêche que certaines épreuves continentales soient plus relevées, ou d'un niveau sportif équivalent, que quelques-unes des épreuves World Tour).
Je suis parti d'une intuition, j'ai fait des tests, en tâtonnant pas mal, avant de trouver un système extrêmement satisfaisant.
Je me suis proposé pour but de découvrir s'il y avait une différence de niveau, et laquelle, entre, par exemple, Gand-Wevelgem et le GP de l'Escaut, ou entre le GP de l'Escaut et Le Samyn. Et ainsi de suite. Pouvait-on mesurer pour ainsi dire mathématiquement cette différence et en tirer des conclusions pratiques permettant de verser telle course dans une classe barémique et telle autre course dans une autre classe ? La réponse est oui. La méthode pour ce faire est complexe et sa mise en route a représenté un long travail, mais elle fait ses preuves. Je la décris ici.
Sachez d'ores et déjà que la valeur d'une course en 2016 dépend encore en partie (pour un cinquième) des points pris par les coureurs sur les épreuves de l'UCI World Tour en... 2010.
Je considère donc, pour une année donnée (2010 dans mon exemple), les épreuves de l'UCI World Tour + les Championnats du Monde sur route et contre la montre. Cela fait 28 épreuves, du Tour Down Under au Tour de Lombardie. Je sais bien que le Tour Down Under ne vaut évidemment pas le Tour de France et que le GP Ouest-France de Plouay ne vaut pas le Tour des Flandres, mais cela n'a aucune importance pour cette première phase du travail. J'ignore délibérément la hiérarchie des courses lors de cette phase, puisque je me propose justement de mettre à jour cette hiérarchie. Je place donc les 28 épreuves de référence sur le même plan et j'en effectue le classement par points. C'est-à-dire que je ne considère que les 20 premiers coureurs de chaque épreuve, auxquels j'accorde un seul et unique barème, sans tenir compte des étapes. Mon barème :
100, 75, 60, 50, 40, 35, 30, 25, 20, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6 et 5 pts.
Je fais cela pour les 28 courses de référence. J'obtiens alors un classement par points des coureurs sur les 28 épreuves. En voici les 10 premiers pour 2010 :
1. Philippe GILBERT 442 pts
2. Joachim RODRIGUEZ OLIVER 410 pts
3. Luis-Leon SANCHEZ GIL 360 pts
4. Robert GESINK 356 pts
5. Ryder HESJEDAL 337 pts
6. Fabian CANCELLARA 308 pts
7. Cadel EVANS 305 pts
8. Alberto CONTADOR VELASCO 255 pts
9. Samuel SANCHEZ GONZALEZ 250 pts
10. Vincenzo NIBALI 238 pts, etc.
Ce classement, du premier au dernier (plus de 200 coureurs concernés), va me servir pour évaluer les courses en 2011 (le principe, c'est que les points d'une année servent pour l'année suivante).
Je considère ensuite le calendrier 2011 des courses de l'UCI et retiens toutes les épreuves non seulement World Tour, mais continentales, niveaux HC (2.HC et 1.HC) et 1 (2.1 et 1.1). Pour chacune de ces courses (environ 200 courses hors championnats nationaux), je m'en tiens aux dix premières places. Je distribue, selon les places, et sur un mode de pourcentage dégressif, les points 2010 des coureurs concernés.
Pourcentage dégressif ?
Dégressif, oui, car une course est d'autant plus valorisée quand un coureur à gros points gagne une course que s'il termine 10ème.
La première place accorde 100 % des points du coureur, la seconde 75 %, la troisième 60 %, la quatrième 50 %, la cinquième 40 %, la sixième 35 %, la septième 30 %, la huitième 25 %, la neuvième 20 % et enfin la dixième, 15 %. À ce niveau, les étapes comptent. Chaque vainqueur d'étape rapporte à l'épreuve 5 % de ses points.
Exemples – Course d'un jour :
Flèche Brabançonne 2011 (je ne donne que les points 2010 du coureur, pas son identité)
1. 100 % de 442 pts = 442 (on a compris que Gilbert avait gagné)
2. 75 % de 90 pts = 68
3. 60 % de 25 pts = 15
4. 50 % de 14 pts = 7
5. 40 % de 9 pts = 4
6. 35 % de 41 pts = 14
7. 30 % de 0 pt = 0
8. 25 % de 0 pt = 0
9. 20 % de 9 pts = 2
10. 15 % de 0 pt = 0
Le logiciel arrondi les données, mais seulement à l'affichage (il garde en mémoire les éventuels chiffres après la virgule et tient compte de ceux-ci dans l'addition – 102, 75 devient 103, et 102,25 devient 102. 102,50 devient aussi 103). Si Gilbert, le meilleur coureur de 2010, avait terminé la course 10ème et non premier, il aurait rapporté à l'épreuve non pas 100, mais 15 % de ses points 2010, soit 66,3 pts. On voit tout de suite qu'à lui seul le coureur « dope » l'épreuve cette année-là.
J'additionne ensuite tous ces chiffres et j'obtiens l'indice 2011 de la Flèche Brabançonne. Il est de 551,25.
Cette notion d'indice est importante, je vais y revenir.
Même topo pour toutes les courses d'un jour. Pour les épreuves par étapes, j'ajoute à l'indice la somme obtenue par les vainqueurs de chaque étape (5 % des points du coureur). Ainsi, lorsque Gilbert en 2011 gagne une étape, quelque soit l'épreuve, il lui rapporte 5 % de ses points de 2010, soit 22,1 (442*0,05).
Exemple pour une épreuve par étapes moyenne :
Tour d'Autriche 2011 : indice classement général de 156,3 + 9,25 pour les étapes. Total : 165,55.
Exemple pour une épreuve par étapes de premier plan :
Tour de France 2011 : indice classement général de 841,4 + 150,35 pour les étapes. Total : 991,75.
On mesure ainsi facilement, pour l'année, la différence de valeur entre les épreuves, et on peut aussi mettre ces indices en relation avec le score absolu que représenterait une épreuve dont les 10ers seraient, dans cet ordre, les dix meilleurs coureurs de 2010. Il est de 1627,05 pour 2011.
Ce score absolu est une donnée essentielle. Il représente la course parfaite et permet de connaître « le score » d'une épreuve. Le TDF en 2011 obtient donc un score de 991,75 pts sur 1627,05. Pour y voir un peu plus clair, on peut ramener par une simple opération le score absolu à la valeur plus parlante de 1000 et constater que le TDF en 2011 obtient un score de de 609, 54 sur 1000 (si 1627,05 = 1000, alors 991,75 = 991,75*1000/1627,05, soit 609,54 pts).
Vous me direz qu'on y voit un peu plus clair, mais que ça vous fait une belle jambe. J'ai bien là des données, des tas de chiffres et plein de virgules en prime — mais en pratique, j'en fais quoi ?
Pour l'instant, rien. Je fais pour les courses des années 2012, 2013, 2014 et 2015 la même opération, à partir des points, chaque fois, de l'année précédente, comme expliqué plus haut (classement par points des épreuves World Tour + Championnats du Monde sur route et contre la monde). Cela fait, j'ai les indices des courses sur 5 années (2011, 2012, 2013, 2014, 2015). Je vais les traiter par une simple opération mathématique, en me servant d'une constante, et j'obtiendrai par magie la classe des courses pour l'année 2016. J'explique cela dans le prochain sujet (4. Moyennes des indices, Quotients, Classes).
Je parle d'un système UCI trop favorable à certaines épreuves exotiques, mais certaines épreuves non exotiques sont elles aussi classées bien au-delà de leur réel niveau sportif. Cela se constate à la seule lecture des résultats (le Tour du Danemark en 2.HC vaut bien moins que le Tour de Belgique dans la même catégorie, et la Tropicale Amissa Bongo dans la catégorie 2.1 est assez loin de valoir le Tour de San Luis dans la même catégorie pourtant). Je me suis donc proposé de trouver un système permettant une requalification des courses, sans le faire arbitrairement sur simple consultation des classements ou des start-lists, sans écarter non plus une course que je n'aimerais pas, pour telle ou telle raison. Un système qui tiendrait compte des performances des coureurs, en fonction de la valeur desdits coureurs.
L'idée m'est venue de déterminer des courses de référence. Mais comment m'y prendre ? Personne n'oserait écarter des courses de référence l'un des trois grands tours, ou l'une des classiques, ou des courses comme Paris-Nice, le Dauphiné, etc. Mais quelles courses choisir dans les faits, et combien ? Si je décide de choisir par exemple 20 courses de référence, qui décide que je dois en exclure la Flèche Brabançonne et y inclure le Critérium International ? Combien de courses par étapes et combien de courses d'un jour ? Et de quels pays ?
En réfléchissant, je me suis dit que les courses de référence nous étaient fournies naturellement par l'UCI World Tour. En effet, ces épreuves sont les seules auxquelles sont tenues de participer les meilleures équipes cyclistes professionnelles. Toutes n'y envoient certes pas leurs meilleurs coureurs, mais le principe demeure (même s'il n'empêche que certaines épreuves continentales soient plus relevées, ou d'un niveau sportif équivalent, que quelques-unes des épreuves World Tour).
Je suis parti d'une intuition, j'ai fait des tests, en tâtonnant pas mal, avant de trouver un système extrêmement satisfaisant.
Je me suis proposé pour but de découvrir s'il y avait une différence de niveau, et laquelle, entre, par exemple, Gand-Wevelgem et le GP de l'Escaut, ou entre le GP de l'Escaut et Le Samyn. Et ainsi de suite. Pouvait-on mesurer pour ainsi dire mathématiquement cette différence et en tirer des conclusions pratiques permettant de verser telle course dans une classe barémique et telle autre course dans une autre classe ? La réponse est oui. La méthode pour ce faire est complexe et sa mise en route a représenté un long travail, mais elle fait ses preuves. Je la décris ici.
Sachez d'ores et déjà que la valeur d'une course en 2016 dépend encore en partie (pour un cinquième) des points pris par les coureurs sur les épreuves de l'UCI World Tour en... 2010.
Je considère donc, pour une année donnée (2010 dans mon exemple), les épreuves de l'UCI World Tour + les Championnats du Monde sur route et contre la montre. Cela fait 28 épreuves, du Tour Down Under au Tour de Lombardie. Je sais bien que le Tour Down Under ne vaut évidemment pas le Tour de France et que le GP Ouest-France de Plouay ne vaut pas le Tour des Flandres, mais cela n'a aucune importance pour cette première phase du travail. J'ignore délibérément la hiérarchie des courses lors de cette phase, puisque je me propose justement de mettre à jour cette hiérarchie. Je place donc les 28 épreuves de référence sur le même plan et j'en effectue le classement par points. C'est-à-dire que je ne considère que les 20 premiers coureurs de chaque épreuve, auxquels j'accorde un seul et unique barème, sans tenir compte des étapes. Mon barème :
100, 75, 60, 50, 40, 35, 30, 25, 20, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6 et 5 pts.
Je fais cela pour les 28 courses de référence. J'obtiens alors un classement par points des coureurs sur les 28 épreuves. En voici les 10 premiers pour 2010 :
1. Philippe GILBERT 442 pts
2. Joachim RODRIGUEZ OLIVER 410 pts
3. Luis-Leon SANCHEZ GIL 360 pts
4. Robert GESINK 356 pts
5. Ryder HESJEDAL 337 pts
6. Fabian CANCELLARA 308 pts
7. Cadel EVANS 305 pts
8. Alberto CONTADOR VELASCO 255 pts
9. Samuel SANCHEZ GONZALEZ 250 pts
10. Vincenzo NIBALI 238 pts, etc.
Ce classement, du premier au dernier (plus de 200 coureurs concernés), va me servir pour évaluer les courses en 2011 (le principe, c'est que les points d'une année servent pour l'année suivante).
Je considère ensuite le calendrier 2011 des courses de l'UCI et retiens toutes les épreuves non seulement World Tour, mais continentales, niveaux HC (2.HC et 1.HC) et 1 (2.1 et 1.1). Pour chacune de ces courses (environ 200 courses hors championnats nationaux), je m'en tiens aux dix premières places. Je distribue, selon les places, et sur un mode de pourcentage dégressif, les points 2010 des coureurs concernés.
Pourcentage dégressif ?
Dégressif, oui, car une course est d'autant plus valorisée quand un coureur à gros points gagne une course que s'il termine 10ème.
La première place accorde 100 % des points du coureur, la seconde 75 %, la troisième 60 %, la quatrième 50 %, la cinquième 40 %, la sixième 35 %, la septième 30 %, la huitième 25 %, la neuvième 20 % et enfin la dixième, 15 %. À ce niveau, les étapes comptent. Chaque vainqueur d'étape rapporte à l'épreuve 5 % de ses points.
Exemples – Course d'un jour :
Flèche Brabançonne 2011 (je ne donne que les points 2010 du coureur, pas son identité)
1. 100 % de 442 pts = 442 (on a compris que Gilbert avait gagné)
2. 75 % de 90 pts = 68
3. 60 % de 25 pts = 15
4. 50 % de 14 pts = 7
5. 40 % de 9 pts = 4
6. 35 % de 41 pts = 14
7. 30 % de 0 pt = 0
8. 25 % de 0 pt = 0
9. 20 % de 9 pts = 2
10. 15 % de 0 pt = 0
Le logiciel arrondi les données, mais seulement à l'affichage (il garde en mémoire les éventuels chiffres après la virgule et tient compte de ceux-ci dans l'addition – 102, 75 devient 103, et 102,25 devient 102. 102,50 devient aussi 103). Si Gilbert, le meilleur coureur de 2010, avait terminé la course 10ème et non premier, il aurait rapporté à l'épreuve non pas 100, mais 15 % de ses points 2010, soit 66,3 pts. On voit tout de suite qu'à lui seul le coureur « dope » l'épreuve cette année-là.
J'additionne ensuite tous ces chiffres et j'obtiens l'indice 2011 de la Flèche Brabançonne. Il est de 551,25.
Cette notion d'indice est importante, je vais y revenir.
Même topo pour toutes les courses d'un jour. Pour les épreuves par étapes, j'ajoute à l'indice la somme obtenue par les vainqueurs de chaque étape (5 % des points du coureur). Ainsi, lorsque Gilbert en 2011 gagne une étape, quelque soit l'épreuve, il lui rapporte 5 % de ses points de 2010, soit 22,1 (442*0,05).
Exemple pour une épreuve par étapes moyenne :
Tour d'Autriche 2011 : indice classement général de 156,3 + 9,25 pour les étapes. Total : 165,55.
Exemple pour une épreuve par étapes de premier plan :
Tour de France 2011 : indice classement général de 841,4 + 150,35 pour les étapes. Total : 991,75.
On mesure ainsi facilement, pour l'année, la différence de valeur entre les épreuves, et on peut aussi mettre ces indices en relation avec le score absolu que représenterait une épreuve dont les 10ers seraient, dans cet ordre, les dix meilleurs coureurs de 2010. Il est de 1627,05 pour 2011.
Ce score absolu est une donnée essentielle. Il représente la course parfaite et permet de connaître « le score » d'une épreuve. Le TDF en 2011 obtient donc un score de 991,75 pts sur 1627,05. Pour y voir un peu plus clair, on peut ramener par une simple opération le score absolu à la valeur plus parlante de 1000 et constater que le TDF en 2011 obtient un score de de 609, 54 sur 1000 (si 1627,05 = 1000, alors 991,75 = 991,75*1000/1627,05, soit 609,54 pts).
Vous me direz qu'on y voit un peu plus clair, mais que ça vous fait une belle jambe. J'ai bien là des données, des tas de chiffres et plein de virgules en prime — mais en pratique, j'en fais quoi ?
Pour l'instant, rien. Je fais pour les courses des années 2012, 2013, 2014 et 2015 la même opération, à partir des points, chaque fois, de l'année précédente, comme expliqué plus haut (classement par points des épreuves World Tour + Championnats du Monde sur route et contre la monde). Cela fait, j'ai les indices des courses sur 5 années (2011, 2012, 2013, 2014, 2015). Je vais les traiter par une simple opération mathématique, en me servant d'une constante, et j'obtiendrai par magie la classe des courses pour l'année 2016. J'explique cela dans le prochain sujet (4. Moyennes des indices, Quotients, Classes).