samedi 16 juillet 2011

Qualcomp: un bel outil

C'est l'été alors, forcément, la pression de publier tous les deux jours n'est plus exactement là.

Ça me permet par contre de reconstruire un peu mes scripts de collecte de données. Plus précisément, je cherche à intégrer d'une manière intelligible les données relatives à la qualité des adversaires affrontés, telles que publiées sur le site behindthenet.ca.

Voici un premier tableau. Quelques indications de lecture:

  • Il présente les Tirs vers le filet (TVF) lorsqu'un joueur donné est sur la glace. Il s'agit des TVF pour et contre, l'objectif étant d'obtenir une approximation du temps passé sur la glace par un joueur donné.
  • Les 5 colonnes, intitulées "Groupe[A-E]", représentent la qualité des adversaires affrontés. Je m'expliquerai plus (trop) longuement de la démarche par laquelle j'en suis venu à obtenir ces 5 groupes, mais pour l'instant sachez ceci: ils sont basés sur l'indice "CorsiRelQualComp" calculé pour chaque joueur sur le site BehindTheNet.
  • Le groupe A représente les adversaires les moins coriaces, le E les plus coriaces.
  • Il s'agit des seules données à 5 contre 5, excluant les situations avec un filet désert.
  • La couleur verte représente l'importance du nombre d'une cellule donnée sur le total des cellules des 5 groupes.

Quelques observations:
  • La concentration de vert vers la droite pour les deux premiers trios et vers la gauche pour les deux derniers trios indique clairement les rôles joués par ces trios. Lorsqu'on parle de jouer "force contre force", c'est précisément ce que fait Jacques Martin. Plekanec et Gomez passent deux fois plus de temps contre les meilleurs éléments adverses que les 3e et 4e trios. C'est énorme.
  • Halpern et Moen se démarquent du reste du fond de l'alignement, ayant tous deux un "spot" vert sous le GroupeE, ce qui reflète leur travail de spécialiste en défensive. Ils sont quand même loin derrière AKost et Pacioretty; sous Jacques Martin, n'est pas un joueur de top-6 qui veut.
Passons maintenant aux mises en jeu:
  • Le tableau présente encore ici les données pour le seul jeu à 5 contre 5, excluant les situations de filet désert.
  • On voit maintenant des pourcentages, soit la part des mises en jeu prises en zone offensive sur le total des mises en jeu en zone offensive et défensive.
  • On passe au bleu, parce que j'aime bien mélanger les choses.
  • Si on avait de la couleur en bas à gauche et en haut à droite sur les TVF, ici on a l'inverse: une ligne bleue qui part de Cammalleri contre le GroupeA et descend jusqu'à Pyatt contre le GroupeE. Martin ne perdait pas son temps à bruler ses cartouches contre les piochons, laissant son fond d'alignement se démerder.
  • Parce que le 5 contre 5 excluant les situations de filet désert purge l'essentiel des situations de spécialiste en défensive, Halpern et Moen ne sont plus aussi exceptionnels dans leurs assignations. On constate notamment que les nombreux départs en zone défensive de Halpern s'accomplissaient essentiellement contre le fond des alignements adverses.
  • Sachant qu'Halpern a été muté à l'aile de plus en plus fréquemment à partir du mois de janvier, le 38% de départs offensifs de Desharnais me semble significatif; Martin l'a clairement envoyé dans un rôle s'approchant de celui de Halpern et, en ce sens, ceux qui s'attendent à voir Gauthier signer un spécialiste des mises en zone défensive (la version la plus absurde de cette attente concernait Zenon Konopka) sont peut-être dus pour une surprise. Les mises en jeu critiques en zone défensive sont le fief de Plekanec et si Martin n'a pas dévié de cette façon de faire avec Halpern, c'est que jamais un joueur marginal ne délogera Plekanec des assignations critiques. C'est pourquoi je ne serais pas surpris de voir Desharnais, surtout en l'absence d'Eller (qui a été plus protégé sur ce point) prendre ce job. Il semble bien qu'il l'ait déjà, en fait.
  • Laissons les joueurs de côté pour un bref instant. Le fait que ces deux premiers tableaux donnent, sur les jeux de couleurs, une image en miroir représente à mes yeux un élément important. Ça confirme, selon moi, que ces données ne sont pas simplement des chiffres tirés d'un chapeau; ce sont des observations notées qui, ainsi mises bout à bout, nous parlent de ce qui se passe lorsque l'équipe joue. Plus précisément, ces tableaux nous parlent de l'équipe sur un plan global. Ce qu'on voit ici, c'est le fruit du travail des joueurs et des coachs.
Les chances de marquer maintenant. Même structure que les mises en jeu, avec une nuance, du rouge. Plus un nombre s'approche de 40%, plus il est rouge vif, de 50% il devient blanc, de 60% bleu foncé.

  • Libéré des charges de 5 contre 6 en fin de match, Plekanec se démarque d'emblée. Je le regarde et je ne peux m'empêcher d'être curieux: qu'est-ce qu'un joueur comme Crosby, voire Mario Lemieux, pouvait sortir comme ligne dans ces circonstances? Anyway, ce qui distingue Pleks de Gomez apparaît en plein ici, le #11 perdant des plumes contre l'élite de l'adversaire.
  • Faudra voir avec les tête-à-tête qui suivront, mais les séjours d'Eller dans le top-6 ont laissé des marques; le jeune va être bon, mais il est encore vert. Pacioretty, par contre, semble prêt. Comme si on avait besoin de chiffres pour savoir ça, m'enfin...
  • Si on pense aux taux de mises en jeu en zone défensive de Desharnais contre le fond des alignements adverses, ses pourcentages de chances de marquer sont encore plus intéressants. Je croyais que son avenir était comme ailier de top-6, mais je commence à me dire qu'il ressemble déjà à un très bon 3e centre. Tout le monde prend pour acquis que Cole va pousser AKost sur la 3e, mais Pacioretty, White et Desharnais ont mis la LAH à feu et à sang l'an dernier. Je dis ça comme ça.
La démarche, ou comment j'en suis arrivé à ces groupes

Je sais que mon lectorat n'a pas peur des chiffres, mais ici je pense que même la plupart d'entre vous vont trouver ça archiplate. Quand même, voici comment j'ai procédé pour en arriver à ces 5 groupes de qualité des adversaires affrontés.

Pour chaque joueur de chaque équipe, j'ai repiqué du site behindthenet.ca l'indice CorsiRelQualComp (CRQC) qui lui était associé. Cet indice est calculé comme suit par le site behindthenet.ca.

Pour chaque joueur, on compile le différentiel des tirs vers le filet lorsqu'il est sur la glace et on ramène ce différentiel à un taux horaire. Sur 60 minutes de temps de glace d'Alex Ovechkin, les Capitals tentent 10,7 tirs vers le filet de plus que leur adversaire. Sur 60 minutes sans Alex Ovechkin, ces mêmes Capitals se font légèrement déclasser, compilant un différentiel de -1,2 tir vers le filet. Le site Behindthenet donne donc un indice CorsiRel de [(10,7 - (-1,2)) = 11,9] à Ovechkin.

Si un joueur jouait la totalité de sa saison contre Alex Ovechkin, il aurait donc un indice CorsiRelQualComp de 11,9, soit le CorsiRel. Mais ça n'arrive pas. Donc, pour chaque joueur, on prend chacune de ses présences, sur lesquelles on recueille chacun des fragments de présences de ses adversaires et à chacun de ces fragments on attribue la valeur CorsiRel de l'adversaire. On fait une belle moyenne et ça nous donne un indice, le CorsiRelQualComp, soit la qualité des joueurs affrontés calculée à partir de la capacité de ces joueurs à aider leur équipe à déclasser l'adversaire aux tirs.

Cet indice n'est valide qu'à l'intérieur d'une équipe donnée. D'une équipe à l'autre, les nombres ne servent à rien puisque les adversaires affrontés ne sont pas les mêmes. J'ai donc effectué les manoeuvres suivantes pour normaliser ces indices et ensuite effectuer les 5 groupes d'adversaires.

J'ai fait pour chaque équipe la liste des joueurs et de leur indice CorsiRelQualComp (CRQC), liste de laquelle j'ai retiré les joueurs ayant joué moins de 21 matchs. Ainsi, Sopel fait partie de la liste des Thrashers, mais pas de celle du CH.

Pour chaque liste de joueur ainsi constituée, j'ai fait deux sous-listes, une pour les attaquants et une pour les défenseurs. Pour chaque liste, j'ai calculé l'écart-type des valeurs CQRC et divisé chaque valeur par l'écart-type de la liste. Chaque valeur CQRC a ainsi été ramenée à une valeur comprise entre -3 et 3. Cette manoeuvre de normalisation me permet de comparer les indices CQRC d'une équipe à l'autre. À titre d'exemple, Plekanec a un indice normalisé de qualité des adversaires de 2.05, Halpern de 1.21 et Desharnais de -1.2.

Armé de mes 30 listes de joueurs avec des indices normalisés de qualité des adversaires affrontés, j'ai pris chaque feuille de matchs ("play by play") de la saison 2010-11 et, pour chaque événement recensé,  j'ai fait la moyenne des indices des joueurs d'une équipe présents sur la glace pour cet événement, ce qui donne un coefficient de difficulté à cet événement pour les deux équipes. Ainsi, la mise en jeu du premier match de la saison entre le CH et les Leafs, le quintette du CH représentait un coefficient de difficulté de 0,9 (Gomez-Gionta-Pouliot-Gorges-Gill) et celui de Toronto un coefficient de 1,15 (Phaneuf-Beauchemin-Armstrong-Sjostrom-Brent).

Des événements recensés (ça va des tirs au but aux rondelles par-dessus la baie vitrée) dans les 82 feuilles de match du Canadien, j'en ai identifié 106 026 (ce total inclut les chances de marquer que j'ai compilées) survenus à 5 contre 5 avec un gardien présent pour chaque équipe. J'ai trié ces événements en ordre croissant de difficulté des adversaires affrontés et les ai séparés en 5 groupes.

Quelques petites notes en terminant...
  • J'aurais peut-être dû monter à 40 matchs le seuil d'exclusion des calculs de joueurs...
  • Je pourrais composer l'indice de deux indicateurs, un avec le CRQC et l'autre avec le CorsiRel et ensuite les joindre. Comment, en faire la moyenne? Les additionner? L'idée, c'est que la crème de la crème soit non pas composée de ces joueurs qui sont astreints aux tâches dures, mais de ceux qui sont astreints aux tâches dures et dominent territorialement. Mais je ne suis pas certain que ce soit nécessaire.
  • Je ne suis pas hyperconvaincu du bien-fondé de l'écart-type. En fait, j'ai utilisé ça un peu au pif et les résultats semblent coller. Si quelqu'un a une meilleure idée pour normaliser ces données, je suis très intéressé à vous entendre.
  • Some of you guys are reading this through google translate. Even tough the blog is, obviously, in french, your comments are always welcome. If you feel like contributing but can only do so in english, please go ahead. The more the merrier.
  • Cette façon de diviser les choses ouvre évidemment la porte à tout un tas d'analyses. Voici les mêmes tableaux montrant cette fois-ci l'évolution de PK Subban au long de la saison. En gros, il y a l'avant et l'après-blessure à Gorges. PK a eu un peu de difficultés en janvier, mais il a pris le beat par après. Il est splendide, s'pas?

13 commentaires:

Simon Lamarche a dit…

Wow... ca en fait beaucoup à intégrer d'un coup!

Premièrement, je le redis, WOW! travail de moine qui donne des résultats tout de même très intéressant!

Je vais faire mon fatiguant et commencerpar quelques commentaires.

Je ne suis pas assez fort pour commenter la démarche, ce que j'ai lu me semble solide, mais 3 choses me chicotent:

1- A est habituellement considéré meilleur que E. Je n'ai pas vu ton code, mais ce serait peut-être plus intuitif si tu pouvais les inverser...

2- Le groupe D semble plus fort que le groupe E trop souvent à mon goût, peut-être que l'ajout du CorsiRel règlerait ça.

(Je dis que D>E en regardant, par exemple, Ryan White. Si on regarde la différence entre les MJ et les chances, il remonte la pente solide contre les A, bien contre B et C, prend une débarque contre D, et stabilise contre E. Même pattern pour Desharnais, Pouliot, Moen... Tandis que les joueurs ayant fait plus de top 6 n'ont pas cette "anomalie")

Donc, sans pouvoir dire comment l'améliorer, peut-être un indice d'ou regarder?

3- Le rouge dans le tableau de MenJ de PK est plus mékangeant qu'autre chose. Rouge, ça fait "erreur" alors que les MenJ sont le choix du coach.

Si je parle des couleurs, j'pense que le travail est excellent dans le fond.

Pour PK, si on regarde les MenJ, il ne l'a pas eu facile en janvier. 33% de MenJ contre le groupe E? Finir à 38% dans les chances est assez près d'un exploit pour une recrue!

Olivier a dit…

Héhé. Imagine, je me suis limité aux avants et aux seules chances et mises en jeu. J'ai *beaucoup* de matériel à traiter :)

- J'aimerais avoir un nom plus parlant que "groupes", disons. Mais pour l'instant, ça devra faire. L'axe gauche-droite assure la hiérarchie, je crois.

- Ton observation sur White et les groupes D et E met le doigt sur une limite des tableaux de pourcentages: on est ici dans le domaine des très petits nombres. Plekanec a été sur la glace pour 165 chances de marquer contre le groupe E, White pour 21. Avec de si faibles échantillons, on se retrouve presque dans le domaine de l'aléatoire.

En ce sens, je dois constater que l'utilité du tableau ne réside pas tant dans le détail de telle ou telle case (pourquoi AKost piques-t-il du nez avec Pyatt et Halpern contre le groupe b?) que dans le pattern général des couleurs: le rouge se concentre à droite, sur les deuxièmes et troisièmes trios, soit les seuls qui sont susceptibles d'être exposés durablement aux meilleurs éléments adverses sans pour autant être équipés pour le faire.

Gomez est assez franchement derrière Plekanec lorsque les choses se corsent, au fait.

- Indeed pour le rouge dans le deuxième tableau de PK.

Chaque barge de chiffres que je sors ne fait que confirmer une chose: PK Subban est le meilleur défenseur du CH et il est aussi probablement un des meilleurs défenseurs dans l'Est. Faudra voir si ça continue l'an prochain, mais pousser le jeu du bon bord comme ça avec le sémillant Gill à ses côtés contre les meilleurs adversaires, ça me renverse. Le gars aurait été repêché dans les 15 premiers, il serait recrue de l'année.

neumann103 a dit…

My apologies for replying in English since my French is mauvais.

One of the validations I like to do on statistical analysis like this is verify how Tomas Plekanec does. A good statistical metric should show positive results for Pleks. I would say that a player of his talent is often at a disadvantage in measurements that rely on simple statistics, so a meta analysis that reveals how good he is probably has some merit.

On Lars Eller, if I am reading the charts correctly, Eller seems to do well except perhaps when facing the top line of opponents. If this is the case, I wonder how much is related to the earlier part of the season when he played more against top six players, but on the wing where he was clearly not comfortable.

Thanks again for the analysis.

Olivier a dit…

@Neuman:

On Pleks: he truly is a legit #1C. It's as simple as that.

On Eller: I have some head to head data coming up that will pretty much validate your point. He wasn't ready for top-6 duty but was pressed into service when injuries hit. Also, I suspect he just isn't a very good winger, especially on the right side.

Simon Lamarche a dit…

Re: Eller, I had forgotten about that time on wing and I suspect it is a good part of those results. Good pick-up!

À propos des petits échantillons, j'imagine que j'étais fatigué pour pouvoir moi-même dire que les joueurs ayant joué plus contre le top-6 ne rencontrent pas ce problème sans réaliser que c'était ça qui le causait...

Ce serait intéressant de regarder à quel point il peut y avoir des liens à faire entre le "heavy-lifter index" et les "balanced zone starts" (ou analyses de ce genre) ainsi que la relation entre les zone starts et les chances de marquer. Vivement les vacances et un peu de temps libre :D!

Olivier a dit…

Tu parles du Heavy Lifter Index, je viens de me souvenir de quelque chose du genre sur Hockey Propectus et zou...

Un article de Corey Pronman ou il explique sa méthode.

Finalement, ça ressemble à ce que je fais et il répond à une question que je me posais, à savoir comment combiner plusieurs indices. Il additionnes les indices, ce qui me semblait intuitivement la meilleure façon de procéder.

La construction d'un indice un peu plus précis mérite un billet en soit, mais disons vite comme ça que ça me semble prometteur.

Mine de rien, c'est la représentation de ces données qui me donnes le plus de fil à retordre. On va y arriver.

Vanhouse a dit…

Je suis encore entrain de digérer tout ça, et essayer de mettre les bons morceaux aux bons endroits, mais pendant ce temps j'ai surtout une première petite constatation:

Pour tes groupes et la qualité de l'opposition: Tu compares toujours attaquants avec attaquants si je comprends bien?
Pourquoi 5 groupes? il me semble que 4 aurait été logique et aurait peut-être mieux divisé la zone (que je considère) plus flou des groupes B-C-D.

Sinon une fois de plus bravo Olivier, tout un travail. De belles statistiques, des beaux chiffres, sur un bon sujet.

Olivier a dit…

Les attaquants sont comparés avec les attaquants, oui. L'idée étant qu'il y a toujours des attaquants et des défenseurs sur la glace et que de mettre les uns et les autres sur la même liste est in peu redondant.

J'ai pris 5 groupes pour deux raisons: j'en avais 10 au départ mais c'était trop brouillon (beaucoup de cases avec de petits nombres donc beaucoup de variations); à 5 ça donnes une certaine constance dans les nombres.

Aussi, j'aime bien avoir un nombre millieu (le C).

Vanhouse a dit…

mon point était de pouvoir se donner une idée en fonction des trios adverses, et justement d'aider à segmenter la section plus flou du milieu. (Quoi que il n'y a certainement pas plus de chose à en tirer vraiment) Ceci dit, je ne crois pas que ces chiffres peuvent vraiment en dire plus que ce que tu nous présente.

J'aimerais que tu m'éclaires un peu plus sur ce passage à propos du CorsiRelQualComp:
"Cet indice n'est valide qu'à l'intérieur d'une équipe donnée. D'une équipe à l'autre, les nombres ne servent à rien puisque les adversaires affrontés ne sont pas les mêmes. "
Je ne comprends pourquoi cet indice n'est pas comparable d'une équipe à l'autre. Peut-être que c'est bien évident et je n'arrive pas à mettre mes idée en place, mais je ne pige pas...Surtout que pour moi les adversaires finissent pas être sensiblement les mêmes.

Olivier a dit…

Sur le CorsiRelQualcomp: on ne peut pas comparer les joueurs entre deux clubs parce que les ordres de grandeur varient trop d'un club à l'autre. Pourquoi? À la base, parce que Gabriel Desjardins l'a dit, mais aussi, à force d'ausculter ça, pour deux autres raisons

- Parce que les adversaires varient; tout les clubs jouent plus de matchs contre certains clubs, et certains sont dans des divisions plus faibles que d'autres.

- Parce que les coachs agissent différamment en fonction d'alignements différents. Ainsi, le fait que notre meilleur centre défensif soit aussi notre meilleur centre point final a un impact direct sur les assignations et, partant, la distribution de la qualité des adversaires.

Je n'avais absolument pas pensé à l'idée de 4 rangs = 4 trios. C'est pourtant intuitif et ça rendrait probablement le tout plus immédiatement compréhensible... À explorer, donc.

Vanhouse a dit…

Si on peut comparer les TVFs d'une équipe à l'autre, selon moi on doit pouvoir comparer les CorsiRelQualcomp. Mais bon je comprends bien tes 2 points, sauf que en même temps c'est valide pour les TVFs, pour les points, les buts, les passes, les hits, les blocks shots, les....

Je continue d'y réfléchir.

Simon Lamarche a dit…

À propos des 4 groupes / trios, je ne serais pas surpris que les assignations soient encore plus "clear-cut" avec cette méthode. Même si on voit des changements dans les trios à l'intérieur d'un match, Martin ne bousculait pas tout à tous les matchs et les trois joueurs jouant sur un même trio avaient des résultats semblables.

Si mon intuition est correcte, ce serait une des rares fois ou l'influence d'un joueur sur ses compagnons de trio aiderait à rendre le tout plus simple ;)

Avant de faire un changement de ce genre, est-ce que tu changerais ensuite le script pour faire trois groupes pour les défenseurs? S'ils sont comparés entre eux...

Re: heavy lifter index, cherche aussi l'article sur les balanced zone shifts sur behindthenethockey. Dans le fond, ça démontre que de "monter la pente" de 5% (passer d'un d-zone faceoff et finir dans la o-zone) est plus facile avec un zonestart de 30% qu'avec 45%.

Je me demandais donc si ça pouvait être appliqué aux chances au lieu du zone-shift. Par exemple, si avec un zone start de 50%, finir à 55% des chances était plus impressionant que d'avoir un zone-start de 30% et finir avec 35% des chances.

Simon Lamarche a dit…

Oups, une phrase de plus:

En d'autres mots, voir s'il était possible d'éventuellement modifier le tableau des chances. Par exemple, PK Subban, contre le groupe E en mars/avril, a un zone-start de 33% et finit à 46% de chances de marquer, ce qui est impressionant, mais le 46% est quand même en rouge ;)