## Opinion polls for the presidential elections… with margins of error!

Posted in General by Julyan Arbel on 10 March 2011

In the last few days, a lot of opinion polls have been released about the next presidential elections in France, to be held in April and May 2012. They feature three oponents, Nicolas Sarkozy, National Front’s Marine Le Pen, and one of the Socialist Party leaders, either Dominique Strauss-Kahn, Martine Aubry, Ségolène Royal or François Hollande. Here are some of the results cited in a recent Le Monde article

Harris Interactive:

- Marine Le Pen 24 %, DSK 23 %, Nicolas Sarkozy 21 %
- Marine Le Pen 24 %, Nicolas Sarkozy 21 %, François Hollande 20 %
- Marine Le Pen 23 %, Nicolas Sarkozy 21 %, Martine Aubry 21 %.

IFOP:

- DSK 29 %, Nicolas Sarkozy 23 %, Marine Le Pen 21 %
- Martine Aubry 24 %, Nicolas Sarkozy 24 %, Marine Le Pen 22 %
- Nicolas Sarkozy 24 %, François Hollande 23 %, Marine Le Pen 22 %
- Nicolas Sarkozy 24 %, Marine Le Pen 22 %, Ségolène Royal 19 %.

A crazy thing is that most attention of the debates is focused on the rank of the candidates, but a look on margins of error shows that the relative positions are not significant in most of the cases.

A standard opinion poll has a sample of size n=1000. Let the true score of a candidate be $p$, the choice of voter i be $X_i$ (=1 if intends to vote for the candidate, 0 otherwise), their mean $\bar{X}$. Then the 95%-confidence interval is approximately $\left[\bar{X}\,+/-\,2\sqrt{\frac{p(1-p)}{n}}\right]$ (which means that it contains the computed score $\bar{X}$ with a probability of  (approximately) 95%).

The score p is around 20%, so the margin of error is $2\sqrt{\frac{p(1-p)}{n}}\approx 2.5\%$. Most of the polls cannot really tell who is gonna reach the second round…

9 Responses

1. Noémie Le Donné said, on 11 March 2011 at 17:44

Hi there,
I am really grateful to Julyan for underlining this crucial point. Let me just add that unfortunately electoral opinion polls are harmful to public statistics and statistical surveys in general, in particular those lead by the French National Institute of Statistics and Economics Studies (INSEE). I would like to precise – if not to recall, that public statistics and economics surveys are conducted on much larger samples than those of opinion polls. For instance the French Labor Force Survey has an annual average sample size of n=150 000 individuals. We are then far from the 1000 people interrogated in the case of an opinion pool. The larger the sample size, the smaller the margins of error, the more reliable the statistical results. Hopefully the unemployment rate is not computed on 1000 observations!
Noemie

• Pierre Jacob said, on 12 March 2011 at 13:02

Yeah it’s better to do large surveys but there’s nothing wrong with small surveys. Asking 1000 persons a question certainly brings information. As long as the survey is honest and if confidence intervals are provided…

In other settings / fields, the number of observations can be much much lower than 1000.

• Julyan Arbel said, on 12 March 2011 at 21:40

For sure it depends on what you’re looking for. It’s difficult to imagine for than a 1000 for weekly opinion polls. For info, from a 1000 to 150 000, one gains a factor 0.08, ie the margin of error shrinkens to 0.2% (from 2.5%).

2. Olivier said, on 13 March 2011 at 22:02

Hello everybody,

Beyond the rank of the possible candidates, I think most attention was initially focused on the sole possiblity of the presence of Marine Le Pen during the second round. And even if the margin of error is rather large, that possibility is — according to these opinion polls — higher than that of 2002.

3. Noémie Le Donné said, on 14 March 2011 at 11:07

Another piece of information that opinion polls should deliver is the sample weights and the weighting method they use. In fact they do not edit them anywhere. The major issue is that we do not know how they treat and account for underreported opinions. In the case of presidential elections it is assumed that opinions favorable to Marine Le Pen are often underreported. It is highly probable that among the 1000 people interrogated, less than 200 (if not 150 or even 100) spoke out for Marine Le Pen. So how did IFOP find out that 23% people intend to vote for her? I would like to know how they straightened up those statistics. It looks like they do not want to share their cookery recipe!

4. Rosa said, on 16 March 2011 at 15:02

Piketty a écrit un bon article sur le sujet la semaine dernière :
http://www.liberation.fr/economie/01012324222-reguler-enfin-les-sondeurs

08/03/2011 À 00H00
Réguler (enfin) les sondeurs
Par THOMAS PIKETTY directeur des études à l’EHESS et professeur à l’Ecole d’Economie de Paris.

Il reste un peu plus d’un an avant le premier tour de l’élection présidentielle. Toutes les semaines, puis tous les jours, nous allons être abreuvés de sondages sur les intentions de vote. Chaque fait et geste des candidats seront interprétés à cette aune. Le problème, c’est que malgré leur sinistre bourde de 2002 (personne n’avait prédit l’éviction de Jospin), les sondages ne sont toujours pas régulés comme ils devraient l’être. En gros, chacun peut continuer de publier les chiffres qu’il veut, sans donner les marges d’erreur, et encore moins
les «secrets de fabrication».
La bonne nouvelle, c’est que si les parlementaires se saisissent du sujet, alors il est temps de muscler la loi sur les sondages et la commission qui va avec. La première modification qui s’impose est d’obliger les instituts de sondage et les médias à publier les intervalles de confiance et non plus un seul chiffre par candidat.
Prenons par exemple le cas typique d’un sondage fondé sur un échantillon initial de 1000 personnes, avec un taux de réponse de 70 % à la question portant sur les intentions de vote (soit 700 réponses exploitables). Imaginons le cas le plus favorable pour les sondeurs – et malheureusement trop optimiste – d’un échantillon parfaitement représentatif de la population française, sans aucun biais dans les taux de réponse. Un calcul de statistique élémentaire montre que l’intervalle de confiance associé à un tel sondage est de l’ordre de
4%.
Autrement dit, si un candidat A obtient un score de 51% au second tour, alors l’intervalle de confiance est égal à [49 %-53 %]. Cela signifie qu’il existe 95 % de chances pour que le «vrai» score (c’est-à-dire le score obtenu si l’on avait sondé l’ensemble de la population) soit compris dans l’intervalle [49 %-53 %], et 5 % de chances pour qu’il soit en dehors de cet intervalle. Inversement, pour le candidat B obtenant un score de 49 % dans le sondage, l’intervalle de confiance est égal à [47 %-51 %].
Dans la nouvelle loi, les instituts et les médias seraient obligés de publier les deux intervalles [49 %-53 %] et [47 %-51 %] pour les candidats A et B (et non plus les chiffres 51 %, 49 %). Chacun pourra ainsi constater que les intervalles se chevauchent, et donc que
le sondage ne nous dit à peu près rien de fiable. Cela va très au-delà de l’habituel reproche selon lequel les sondages ne sont qu’une «photographie» de l’opinion à un instant donné.
Le fait est que même si les électeurs ne changent pas d’avis, le sondage n’est pas fiable. Publier un intervalle de confiance pour chaque candidat aurait un double intérêt. Tout d’abord, on se rendrait compte que la plupart des écarts entre candidats ne sont statistiquement pas significatifs. En particulier, dans le cas du sondage publié le week-end dernier, plaçant Marine Le Pen à 23 %, devant Martine Aubry et Nicolas Sarkozy à égalité à 21 %, il est probable que tous les intervalles de confiance se chevauchent – pour ces trois candidats comme d’ailleurs pour tous les candidats socialistes ! Autrement dit, tout est possible, et il est plus que temps de se concentrer sur les idées et les programmes plutôt que d’attendre des sondages qu’ils tiennent lieu de débat démocratique.
Le second intérêt d’une telle loi est qu’elle contraindrait enfin les instituts de sondage à rendre publiques les méthodes statistiques détaillées qu’ils utilisent pour redresser les résultats bruts. Les techniques de redressement ne sont pas illégitimes en soi : si l’on observe que les personnes annonçant un vote FN aux sondeurs sont systématiquement deux fois moins nombreuses que les électeurs FN le jour du vote, alors il peut être justifié de multiplier par deux le score FN brut obtenu dans le sondage. Le problème, c’est que ces coefficients de redressement varient énormément dans le temps et suivant les sondeurs… et que les instituts s’obstinent à refuser de rendre publics ce qu’ils considèrent être leurs secrets de fabrications !
Un tel charlatanisme ne peut plus durer. On peut à la rigueur accepter l’argument selon lequel publier les chiffres bruts dans les médias en même temps que les chiffres redressés pourraient être source de confusion, et que l’exposé complet des méthodes de redressement ne peut se faire en quelques lignes. Mais il faut au minimum contraindre les sondeurs à mettre en ligne tous les détails des chiffres bruts et des méthodes statistiques utilisées. C’est d’ailleurs indispensable pour que l’on puisse publiquement vérifier que le calcul des intervalles de confiance prend correctement en compte toutes les marges d’erreur. Et c’est d’autant plus important que les techniques de redressement aboutissent à fortement élargir les intervalles de confiance donnés plus haut…
Pour finir, l’effet d’une telle loi serait d’inciter les sondeurs et les médias à faire moins de sondages, mais à augmenter leur fiabilité. Par exemple, en publiant 5 fois moins de sondages, et en multipliant par 5 la taille des échantillons utilisées (de 1 000 à 5 000 personnes), les marges d’erreur seraient divisées par près de 3. Le débat public y gagnerait en qualité, et les sondeurs en crédibilité.
Thomas Piketty est directeur d’études à l’EHESS et professeur à l’Ecole d’économie de Paris.

5. Julyan Arbel said, on 16 March 2011 at 19:54

Merci! Rendre publics les chiffres bruts, idéalement oui, mais on imagine que vu qu’il s’agit du fond de commerce des instituts privés, ils ne sont pas près de le faire. Ceci dit je suis pour, on pourrait alors tout collecter en ligne et afiner les estimations. Du coup ils font faillite.
Un détail, passer de 1 000 à 5 000 personnes divise les marges d’erreur par sqrt(5)2.25, plus près de 2 que de 3.

