Por qué fallan las encuestas


The same post in English

Es frecuente que las encuestas predigan resultados electorales que luego no se cumplen. ¿Hay alguna razón científica que lo explique? Creo que sí. El problema podría ser que las teorías matemáticas que están detrás de las encuestas se aplican mal.
Existe una rama de la estadística que se llama teoría de muestras. Se inventó para resolver el problema de estimar si los productos de una fábrica están bien hechos o son defectuosos sin necesidad de analizarlos uno por uno, lo que podría resultar demasiado costoso.
Por ejemplo, supongamos que una fábrica produce un millón de tornillos diarios. En teoría habría que comprobarlos uno por uno, pero como eso es imposible, se analiza solamente una parte. ¿Qué parte? Eso es lo que intenta resolver la teoría de muestras.
Supongamos que analizamos sólo 2000 tornillos y descubrimos que uno de ellos es defectuoso (0.05%). ¿Podemos extender este resultado al millón de tornillos y afirmar que en esa población habrá aproximadamente 500 tornillos defectuosos?

Pues bien: hay un teorema de la teoría de muestras que calcula cuál es el coeficiente de confianza que podemos tener en que el resultado de la muestra se aplique al resto de la población. Curiosamente, si se cumplen ciertas condiciones, se puede afirmar que con una muestra de 2000 “individuos” el coeficiente de confianza en que los resultados del análisis se extiendan a la población completa es del 95%, independientemente del tamaño de la población. O sea, que si analizamos 2000 tornillos, tendremos un 95% de confianza en que el resultado se aplique a la población completa, independientemente de que esta sea de cien mil, un millón o diez millones de tornillos.
Las encuestas electorales suelen aplicar los teoremas de la teoría de muestras sin más ni más. Por eso, si miramos los datos técnicos de una de estas encuestas, veremos que suelen decir cosas como estas:
Tamaño de la población encuestada: 2000 personas.
Coeficiente de confianza: 95%.
Pero fijémonos en la frase realzada en rojo dos párrafos más arriba. ¿Cuáles son las condiciones que deben cumplirse para que pueda aplicarse el teorema? Esencialmente son dos:
  • La población debe ser uniforme.
  • La muestra debe ser significativa.
Que la población sea uniforme significa que todos los tornillos deben ser iguales en principio, o sea, que no mezclemos churras con merinas; por ejemplo, tornillos grandes con tornillos pequeños.
Que la muestra deba ser significativa quiere decir que antes de extraer la muestra hay que revolver bien el millón de tornillos, porque de lo contrario nos exponemos a sacar una muestra formada por tornillos producidos por una máquina concreta que tiene algún problema, o bien por una máquina perfecta, mientras que los producidos por otras máquinas no serían analizados. En tal caso, los resultados del análisis no podrían extenderse a la población total con la misma confianza.
¿Qué pasa cuando se aplica el teorema a una población humana para predecir el resultado de unas elecciones?
  1. Lo más grave es que la población no es uniforme. Sabemos muy bien que los votos de unas personas valen mucho más que los de otras. En muchas elecciones españolas, la circunscripción es la provincia. Aunque las provincias con gran población, como Madrid y Barcelona, por ejemplo, eligen más representantes, cada uno precisa muchos más votos para ser elegido que en provincias con poca población, por ejemplo, en Soria.
  2. Que la muestra sea significativa depende de si la encuesta está bien diseñada o no. Por ejemplo, entre los encuestados debería haber representantes de todas las provincias en proporción a sus poblaciones. Pero eso significa que, si la muestra es de 2000 personas, de Soria sólo habrá, como mucho, unas pocas decenas. ¿Puede deducirse de tan escaso número el resultado de las elecciones en Soria con un 95% por ciento de confianza? La respuesta pura y simple es que no se puede.
  3. Hay un problema adicional, y es que las personas no somos tornillos. Cuando se analiza un tornillo no puede mentir, podemos fiarnos de que las propiedades que detectemos son reales, a menos que utilicemos instrumentos defectuosos para medirlas. En cambio, las personas sí pueden mentir, o pueden negarse a decir a quién van a votar. Los encuestadores lo tienen en cuenta, y aplican correcciones para estimar el posible voto de los que no quieren dar su opinión. Pero ¿acaso puede mantenerse que el grado de confianza sigue siendo el que indica el teorema sobre el tamaño de la muestra? La respuesta vuelve a ser negativa.

En conclusión: los datos técnicos que suelen acompañar a las encuestas son ficticios, están basados en una mala aplicación de los teoremas. El coeficiente de confianza que nos dan está enormemente exagerado. Cuando nos dicen que vale 95%, probablemente no es mayor que 50%. ¿Cómo puede extrañarnos que las encuestas se equivoquen? Lo raro es que algunas veces aciertan.

Hilo Estadística: Anterior Siguiente
Manuel Alfonseca
Feliz Navidad y Año Nuevo
Nos vemos en enero

7 comentarios:

  1. ¡Muchas gracias! Cada día admiro más a los científicos, que tanto nos ayudan a conocer... y más todavía a los científicos humanistas, que nos ayudan a comprender.

    ResponderEliminar
  2. Hola, felicitó como siempre al señor Alfonseca, por su acertado artículo, como siempre,y estoy de acuerdo con él, y en las causas de porque fallan las encuestas. Es la muestra de población, que se escoge, y además que a veces la gente no dice la verdad, porque no está bien visto, que diga que va a votar a un determinado partido, porque las tendencias dicen otra cosa. De todas formas las cosas son mucho más complejas. Felicidades, por el artículo, y espero el siguiente.

    ResponderEliminar
  3. Muchas gracias, Manuel, por tus brillantes artículos :-) Aprovecho para felicitaros a todos la Navidad. Un abrazo.

    ResponderEliminar
  4. ¡Muchas gracias, de nuevo, Manolo! Excelente, en fondo y forma, resumen de la cuestión. La pregunta que resulta difícil evitar es esta: Siendo esto así, ¿por qué las propias empresas de sondeos no advierten a la ciudadanía (de la que extraen sus resultados) de tan elementales precuaciones como las que aquí mencionas? ¿Qué beneficio obtienen por este acto de omisión? Yo creo que su falta de claridad al respecto tiene dos consecuencias:
    1. Incrementa el desprestigio de su actividad
    2. Pierden una oportunidad de mejorar la cultura de los ciudadanos
    Sí, ya lo sé: una ciudadanía poco ilustrada e incompetente es el mejor aliado de los sitereses creados por los poderosos, así políticos como economícos.

    ResponderEliminar
  5. Yo hace mucho que me di cuenta de que la gente miente en las encuestas, la mayoría para quedar bien ante la galería, claro :-) Al final los que quedan mal son los que hacen esas encuestas.

    Feliz Navidad, Manuel, que la luz de Dios te ilumine y nos ofrezcas otros 365 días de buena divulgación y esperanza en que el mundo no es solo ese pozo de caos, determinismo y amargura que pretenden los cientifistas ;-) Un abrazo fuerte desde Cádiz.

    ResponderEliminar
  6. Ciertamente, es un hecho psicológico comprobado que cuando respondemos a una pregunta que nos dirige una persona (caso distinto sería un formulario) tratamos de ganar su aceptación dando una respuesta que le agrade. Esto es normal, dada nuestra condición de animales sociales, y si alguna opción política no tiene un buen tratamiento en los medios de comunicación (más influyentes hablando con un extraño de lo que sería en nuestro entorno cercano), decimos aquello que con más probabilidad agradará a nuestro interlocutor. Es una compulsión frecuentemente inconsciente.

    En todo caso, digan lo que digan las encuestas... ¡Feliz Navidad a todos!

    ResponderEliminar
  7. Otra opinión similar puede leerse en: http://www.calculoelectoral.com/

    ResponderEliminar