Statisfaction

Comment courir un semi-marathon ou un 20 km?

Posted in French, Sport by Jérôme Lê on 28 October 2011

Dimanche 9 octobre 2011, j’ai couru le 20km de Paris. Sur la ligne de départ à attendre dans le froid et la pluie, un « personal coach » jeune et dynamique nous donnait quelques conseils à suivre durant la course. Le principal d’entre eux était de commencer lentement sa course et d’accélérer sur la fin. Pour les gens dont c’est la première course, le conseil est sans doute justifié pour éviter tout problème ou abandon. Toutefois, est ce vraiment la stratégie optimale à suivre ?

(more…)

Le Kernel Smoothing avec rupture(s) sous SAS

Posted in French, Statistics by Jérôme Lê on 9 August 2011

Voici une petite macro SAS bien utile pour tout ceux qui souhaitent faire du Kernel Smoothing. En plus de cela, elle est adaptée au cas des variables qui présentent des ruptures (1 ou 2 max), bien connu des économètres qui font des regressions sur discontinuité.

Rappelons tout d’abord le principe du Kernel Smoothing (ou “lissage par noyau”, mais ça fait tellement moins classe). Vous avez 2 variables X et Y (continues ou discrètes) et vous souhaitez avoir une première idée de la forme de la relation qui les relient, sans imposer de forme fonctionnelle particulière. Ou comme diraient les économètres “une estimation non paramétrique” de Y=f(X) (oh yeah). Pour cela, on calcule sur des intervalles glissants de X la moyenne pondérée de Y. Le noyau permet simplement de pondérer plus fortement les points à proximité de la valeur de X à une itération donnée.

Si vous n’avez rien compris, regardez plutôt ce petit dessin tiré de Wikipédia:

Ou allez directement voir sur Wikipédia!

Lorsque votre relation présente une (ou deux) discontinuité(s), le lissage aura tendance à masquer la realité de cette rupture. Pour vous donner un exemple, supposons que vous étudiez le taux de formation (Y) en fonction de la taille d’une entreprise (en nombre de salariés, X). Vous savez qu’en général, plus il y a de salariés, plus l’entreprise aura tendance à former (économies d’échelle, facilité à remplacer les salariés absents etc…). Mais vous savez également que les syndicats ont tendance à pousser les entreprises à former. Or, aux seuils de 20 et 50 salairés, les entreprises ont des obligations en matière d’élections de représentants du personnel et de comité d’entreprise. Vous vous attendez donc à ce que le taux de formation à ces seuils “bondissent” de manière discontinue.

Dans ce cas, un lissage classique vous donnerait quelque chose comme (données réelles):

En fait, si les discontinuités à X=50 et X=20 sont perceptibles, elles tendent à être lissées car on calcule la moyenne des taux de formation (Y) en mélangeant les points au-dessus et au-dessous des discontinuités. Pour résoudre le problème, on fait glisser le noyau en le stoppant autour du ou des seuil(s). De cette manière, par exemple, à X=49.5  on ne considère dans le calcul de la moyenne que les observations vérifiant X<50 (et vice versa).

Dans ce cas, on obtient le joli graphe suivant:

Le programme se présente sous forme d’une petite  macro SAS qu’il faut paramétrer. Une notice est également fournie.

A télécharger: la macro Kernel Smooth et sa notice.

Quelques statistiques sur le Triathlon de Paris 2011

Posted in Addiction, French, Sport by Jérôme Lê on 12 July 2011

Ce dimanche 10 juillet 2011 nous nous sommes essayés avec Julyan au Triathlon de Paris. L’épreuve se composait cette année de 1.6 km de natation dans la Seine, de 38.5  km de vélo et 10 km de course à pied. Mis à part une eau très sale et froide, l’expérience s’est révélée fort sympathique !

Comme Juju le mentionne dans son post précédent, les résultats détaillés de ce genre de compétitions sont disponibles et téléchargeables sur Ipitos.com. On y apprend ainsi que sur près de 3000 inscrits seuls 2342 ont terminé la course et été classés. La grande majorité des participants sont des hommes (91,55%), de nationalité française (87,62%), généralement âgés de 30 à 45 ans (58% des concurrents). Par rapport aux autres événements de ce type (semi-marathon, marathon, trail…), le niveau moyen est plus relevé avec une proportion de licenciés relativement importante (45,6%).  Ceci tient sans doute au fait que le triathlon nécessite l’achat de matériels spécifiques et couteux : combinaison pour nager, vélo de course haut de gamme…Au niveau des temps de course, comme on pouvait s’y attendre, le vélo est prédominant sur les deux autres épreuves. Sur une durée totale moyenne de 2h38, il représente près de la moitié de l’effort (1h11). Cependant, lorsqu’on regarde de plus près, on remarque que c’est également l’épreuve dont la dispersion est relativement la moins importante : le coefficient de variation (=écart-type/moyenne) est de l’ordre de 13% contre 16,75% pour la natation et 15,55% pour la course à pied.  Autrement dit, rapportée à la durée de chaque épreuve, il est plus simple de creuser l’écart en natation qu’en vélo.

(NB : Les temps sur les épreuves de natation et de vélo comprennent les temps de « transition » d’une discipline à l’autre : soit la traversée du parc à vélo  de 800m et le changement de tenue)

Pour rebondir sur les conseils à l’entrainement de Julyan, comparons les performances des licenciés et des non licenciés à partir des graphiques ci-dessous. On observe tout d’abord que ceux qui s’entrainent en club sont en moyenne meilleurs sur chaque discipline: environ 6 minutes de mieux à la nage, 8 en vélo et 4’30 en course à pied. Si ces écarts sont effectivement importants, il faut cependant relativiser leur interprétation. Ils peuvent tout autant être dus au fait que l’entrainement en club fasse progresser ou que les individus en club soient « naturellement » meilleurs. Autrement dit, il peut s’agir d’un effet de sélection sur des personnes qui même sans entrainement auraient eu de bonnes performances. Par exemple, si vous n’acceptez que l’inscription de mannequins russes dans votre club de fitness, il n’est pas sûr que l’écart de poids observés ex-post entre vos inscrits et la femme lambda soit dû à votre fabuleux coaching !

Plus sérieusement,  si on compare la forme des distributions, on observe que la dispersion des performances est sensiblement la même entre amateurs et licenciés pour la natation et la course à pied, à une translation près. Par contre, pour le vélo, si les licenciés réalisent effectivement de meilleurs temps, ils sont surtout bien plus homogènes que ceux des amateurs. Une interprétation possible est que l’entrainement en club se concentre davantage sur le vélo que sur les autres disciplines. Les écarts en natation et course à pied pourraient alors refléter essentiellement un effet de sélection puisqu’on n’observe pas d’homogénéisation des performances avec la pratique en club. 

La même analyse par sexe révèle que l’écart entre hommes et femmes se fait surtout au niveau du vélo : les femmes accusent un retard moyen de près de 8 minutes et leurs performances sont bien moins homogènes que celles des hommes (écart-type de 11 minutes contre 9 pour les hommes). En course à pied, l’écart est d’environ 5 minutes mais pour une dispersion similaire. Etonnamment, c’est en natation que la différence hommes/femmes est la moins marquée. Comme quoi, de gros bras ne font pas tout !

(NB : la proportion de licenciés est la même chez les hommes et les femmes)

Tagged with:

Le Multicolore

Posted in Addiction, French, Geek by Jérôme Lê on 4 February 2011


Dans la rubrique, la « loi des grands nombres peut vous faire gagner de l’argent », laissez moi vous parler du Multicolore. Malheureusement, à moins de vouloir ouvrir une salle de jeu, elle risque cette fois de jouer contre vous ! Le Multicolore  est une « roulette » à 25 trous sur laquelle on lance une boule de billard. Il y a 4 couleurs (jaune, vert, rouge, blanc) et 6 trous pour chacune d’elle. Ces 6 trous se répartissent ainsi :

-il y a deux trous qui triplent votre mise (frappés d’un 2)

-il y a trois trous qui quadruplent votre mise (frappés d’un 3)

-il y a un trou qui multiplie votre mise par 5 (frappé d’un 4)

La 25e case, appelée « étoile », est bleue. Elle vous rapporte 25 fois votre mise. Vous pouvez miser sur une couleur entre 2 et 200 euros et/ou sur l’étoile, 2 euros, ou plus si vous avez misé sur les couleurs. On obtient donc :

Espérance de gain sur une couleur pour 1 euro: 5*(1/25) + 4*(3/25) + 3*(2/25)  =  0.92 euro

Espérance de gain de l’étoile pour un euro: 25* 1/25 = 1 euro

A priori, on pourrait croire que l’étoile est une mise neutre, mais en réalité, lorsque vous la touchez la banque prélève automatiquement un « pourboire » de 2 euros, ce qui vous ramène à une espérance négative (0.96 euro).

Par rapport à une roulette classique, l’espérance de gain est bien moindre. Sur celle-ci, il y a 37 chiffres, 2 couleurs (rouge/noir) et seule la présence du zéro (vert) assure à la banque des profits à long terme. Que ce soit pour une mise sur couleur ou pair/impair (* 2 hors zéro), chiffre (*36) ou « tiers » de chiffre : 1 à 12, 13 à 24, 25 à 36 (*3), vous obtenez :

Espérance de gain pour 1 euro: 2*(18/37)=36*(1/37)=3*(12/37)= 0.973 euro

Etonnamment, la variance plus forte sur les mises « couleur » du multicolore (2.79) par rapport à la roulette classique (1.1 rouge/noir, 2.07 pour les « tiers ») incite davantage au jeu alors qu’il y a une espérance de gain moindre. Déjà qu’on savait que les gens n’étaient pas Bayésiens, mais là ils sont carrément irrationnels !

Lorsque vous jouez, un écran affiche l’historique des couleurs et depuis combien de temps chaque couleur et l’étoile ne sont pas tombés. Pour les joueurs, c’est une manière de justifier un raisonnement « statistique » pour un jeu  absurde statistiquement. On observe ainsi deux écoles :

-Ceux pour qui plus une couleur est tombée et plus elle tombera. Bah oui voyons, c’est la soirée du Vert ce soir !

-Les adeptes de « la loi des grands nombres à distance finie ». Le Vert est pas tombé depuis 15 coups ? Ah oui, il est chaud maintenant ! Il va tomber c’est sûr, c’est statistique !

Que la loi des grands nombres soit avec toi, à jamais…

Posted in Addiction, French, Geek by Jérôme Lê on 2 February 2011

Depuis quelques temps je fréquente le Cercle Clichy Montmartre où je fais de belles parties de poker en Cash Game. Dans une ambiance feutrée et très sympa, on se retrouve à jouer avec un public très divers : jeunes cadres dynamiques, étudiants en mal de financement, dealers venus flamber, RMIstes dépressifs, veufs venus claquer l’héritage familiale… Bref, que du beau monde qui a de l’argent à perdre (mais qui aime accessoirement vous en prendre).

Un soir, un joueur m’a demandé ce que je faisais dans la vie. Après lui avoir répondu que je travaillais dans les statistiques (oui bon, l’ « économétrie » en réalité, mais je voulais avoir l’air de quelqu’un qui a réussi), il m’a regardé comme on regarde quelqu’un qui arrive à se lécher le coude, l’air de dire « ce mec, c’est pas un rigolo ». De là m’est venue cette question « sommes nous réellement avantagés en tant que stateux au poker ? ».

Pour y répondre, laissez moi faire un peu de pub pour le livre que je lis en ce moment. Il s’agît de Poker Cash de Dan Harrington, en 2 tomes de 400 pages chacun (35euros par tome). De l’argent vite amorti !

Lorsque vous jouez, vous cherchez à savoir si vos actions ont une espérance de gains positives sur le long terme. Prenons un exemple, vous avez :

Et le flop donne :

Le pot fait 4 euros et vous n’avez qu’un adversaire qui fait tapis pour 50 euros. Vous le connaissez et vous savez qu’il a sans doute quelque chose comme une double paire. Devez-vous payer ?

Utilisons la règle de Salomon : vous avez 9 cartes qui vous donne la couleur max, sans doute la meilleure main à moins d’un full. Soit 9 outs. Pour évaluer nos chances de toucher une de ces 9 cartes sur les 2 cartes restants à venir, on fait :

RS : [Nb d’outs]*4- [Nb d’outs]-8 = 35% dans notre cas.

Ainsi dans près d’un cas sur trois, vous doublez votre mise. Soit une cote de votre main de 1 contre 2 pour une cote du pot de 1 contre 1 (vous mettez 50 euros pour en gagner 54). Bien sûr, vous ne payez pas. Autant jouer à la roulette, vous aurez une meilleure cote. Si maintenant le pot initial faisait 100 euros, vous obtiendriez une cote du pot de 1 contre 4 pour une cote de votre main de 1 contre 2. Il devient alors rentable de payer sur le long terme.

A ce stade il apparaît donc que vous serez gagnant par rapport à un joueur qui joue « au feeling ». Ce genre de joueurs qui touchent des tirages improbables et qui vous sortent « tu peux pas comprendre, faut le sentir venir ». Les mêmes qui vous expliquent le poker en vous sortant avec un air très sérieux « la main que tu as le plus de chance de recevoir, c’est Dame Six, car c’est au milieu des grandes cartes et des petites ». Mais voilà, ça s’arrête là, vous gagnerez contre les mauvais joueurs, ce qui n’est pas extraordinaire en soi.

A part cela, je ne pense pas que nous soyons tellement avantagés par rapport au commun des mortels. La première raison est que si le calcul doit être à la base d’un certain nombre d’actions, celui-ci ne se base jamais que sur une première estimation que nous avons de la main de l’adversaire. Dans l’exemple précédent, nous avons supposé que notre adversaire avait quelque chose comme une double paire. Ce qui nous donnait 9 outs. Mais s’il avait seulement la paire de 10, voir même la paire de 6 ou de 4, il aurait fallu réévaluer nos outs à 12 ou même 15, ce qui aurait pu modifier notre action. Comparer la cote du pot et celle de la main requiert tout au plus de savoir faire une addition et une soustraction. Ce qui est loin de faire de vous un statisticien (pour ça il faut en plus savoir jouer au Baby Foot !). Par contre il est bien plus important d’avoir un bon sens de l’observation pour comprendre les mises d’un joueur et les interpréter en fonction de ce que l’on sait de lui.

La deuxième raison est qu’on est parfois amené au poker à faire des actions qui, a priori, ne sont pas gagnantes en espérance. Prenons un exemple, vous avez :

Et le flop donne :

Soit un tirage suite par les deux bouts pour nous. Le pot fait 10 euros et vous et votre adversaire avez chacun 500 euros de tapis. Il mise 20 euros. Vous êtes à peu près certain qu’il possède une main du style :

Ou AQ. Ce qui lui donne la paire max. D’après la règle de Salomon, nous n’avons que 32% de toucher notre quinte d’ici la river. Et a peu près 16% de chance (8 outs * 2) sur la carte à venir. Il n’est donc pas rentable de payer. Mais nous avons observé ce joueur. Nous savons qu’il vient de perdre un gros coup et qu’il est échaudé. Ce n’est de plus pas un très bon joueur puisqu’il a beaucoup de mal à jeter des mains de type paire max kicker max. Dans l’éventualité où nous touchons notre quinte, il y a une forte probabilité que nous lui soutirions son tapis. On parle alors de cote implicite. Nous pouvons investir 20 euros à perte en espérant gagner 500 euros par la suite. Encore une fois, si nous faisons bien un petit calcul ici, c’est avant tout ce que nous avons réussi à déduire du comportement de notre adversaire qui guide nos actions.

Tagged with:
Follow

Get every new post delivered to your Inbox.

Join 54 other followers

%d bloggers like this: