El cuaderno de aquel que camina en el viento: Estadistica, modelos y votaciones

Ayer hemos presenciado un resultado insólito en una votación, varios miles de personas se han reunido para votar si o no a una pregunta, y el resultado ha sido un empate. Rápidamente Twitter ha comenzado a arder, la gente clamaba por un matemático que calculara las probabilidades de que eso pasara, los mas avezados pontificaban que era imposible, otros hablaban de que era igual de probable que que cayera un meteorito encima de su casa.

Todo el mundo se lanzaba pidiendo que alguien calculara las probabilidades, como si ello fuera un paso trivial, o lo que es peor, dotado de una verdad absoluta, y ello nos aleja de la naturaleza del problema. Lo complicado de este problema no es calcular las probabilidades del suceso, algo que debería estar al alcance de todo aquel que haya estudiado bachillerato, sino desarrollar un modelo para estudiar el proceso de la votación. Estos modelos están a la orden del día, a todo el mundo nos suena el CIS, donde se desarrolla un modelo complejísimo para tratar de responder a una pregunta que puede parecer simple, y nos debería hacer reflexionar un hecho, ¿por que para tratar de averiguar a quien votará la gente se les hacen más preguntas que la evidente de a quien va a votar?

En realidad el uso de un modelo probabilistico simple para tratar de entender que ha pasado es una enorme simplificación, la gente no decide su voto lanzando una moneda o un dado (o al menos quiero creer que es así), sino a través de complejos procesos mentales, que si fuera capaz de predecir no estaría escribiendo este blog, sino disfrutando de mis millones en una isla del Caribe. No obstante es una de las pocas formas que tenemos de acercarnos a la realidad, así que presentare tres modelos (de andar por casa sin duda) y analizaré que nos dicen de la realidad. En cada uno de ellos tratare de responder a la pregunta que se planteaba en Twitter y plantearé como usaría mi dinero en el hipotético caso de una apuesta sobre el resultado

Modelo 1, "Yo pasaba por aquí"

En este caso vamos a suponer que lo único que sabemos del proceso a estudiar es que dará como resultado un numero entero entre 0 y 3030, el que realiza el análisis no sabe ninguna característica del proceso que está estudiando pero de todas formas le piden que haga el análisis (sin embargo resulta muy curioso la cantidad de veces que se parte de este punto y se usa este modelo).

En estos casos se puede aplicar el principio de indecisión, ya que no sabemos absolutamente nada supondremos que todos los resultados son igualmente probables (el equivalente a sacar una bolita de un bombo). El cálculo lo podría realizar un niño de primaria y corresponde a 1/3031 o lo que es lo mismo a aproximadamente un 0,033% lo que sin duda es una probabilidad baja, aunque no desconocida en procesos cotidianos como la lotería.

En el hipotético caso de la apuesta yo apostaría por el 69, al ser un número muy popular.

Respuesta a la pregunta de twitter sobre si ha pasado algo raro: pues la verdad ya es casualidad, no es que podamos afirmar a ciencia cierta que ha pasado algo raro, pero lo mismo merece la pena investigar más.

Hay gente que ya daba este resultado como la verdad matemática del asunto, dejo al lector que opine al respecto

Modelo 2, "Anda coño, que era una votación"

Ahora vamos a suponer que el analista ya se ha enterado de que va el asunto, una votación entre dos opciones, y decide hacer alguna hipótesis de cálculo, es decir, emplea un modelo distinto al anterior, en el que incorpora ya algo del conocimiento que tenemos sobre la situación .

Primera hipótesis: La decisión del voto de cada persona es individual y no se ve afectada por la de otros (mentira y gorda, claro, no obstante en grupos grandes la experiencia nos dice que funciona bastante bien).
Segunda hipótesis: La probabilidad de decidir A y de decidir B es la misma, y no hay posibilidad de otra cosa (mentira y gorda también, de hecho la gente puede votar en blanco, pero muchas veces lo importante de los modelos es poder hacer las cuentas medio rápido).

Lo gracioso de este modelo es que todos lo hemos estudiado en el instituto, y es probable que muchos en el colegio, aunque la mayor parte de la gente no recordaba que vale para esto. Como recordatorio este modelo coincide con la distribución binomial (ver por ejemplo aquí) y yo que soy muy vago lo he calculado con R (para ver como mirar aquí). Después de un momentito obtenemos que la probabilidad de que ocurra ese empate es aproximadamente de 1,45%, y además de acuerdo con las propiedades de dicha distribución es el resultado más probable

En el hipotético caso de la apuesta yo lo haría sin dudar al empate, pero hay que darse cuenta que es apostar a resultados numéricos en concreto, no al resultado de la votación

Mi respuesta a la pregunta en Twitter, la probabilidad del empate es baja, pero desde luego no es descabellada.

Este modelo es el que ha aparecido en Twitter, y que la mayor parte de la gente daba como la verdad absoluta. Mi opinión, es un buen modelo, es el que habría usado yo por que no tengo nada mejor, pero no es la verdad absoluta, parte de supuestos muy opinables.

Modelo 3, "Vamos a ponernos un poco más serios"

Ahora voy a hacer un análisis con unas suposiciones mucho más fuertes.

Partamos de que conocíamos los resultados de la votación anterior, como @waltzing_piglet me señaló muy acertadamente es muy complicado que la gente cambie de opción de voto, así que meteremos en nuestro modelo los resultados anteriores.

En la segunda votación se votaron tres opciones, entre paréntesis los votos recibidos. La pregunta era si apoyar la investidura y las respuestas eran

No (1512)

Si, con un acuerdo político (1482)

Si, sin un acuerdo político (28)

Votos en blanco (14)

Votos nulos (6)

Como estamos haciendo un análisis a posteriori, también usaré el dato de que el numero total de votos fue 3030

Partiré de las siguientes hipótesis (opinables sin duda)

Primera: Los votos de Si y No no cambian. (la hipótesis de don erre que erre)
Segunda: Los votos de la tercera opción pasan al Si (no me parece descabellado, al ser menos restrictiva)
Tercera: Los votos nulos estaban repartidos entre las otras opciones de forma similar (por que no tengo ni idea de como hacerlo de otra forma). Por simplicidad les asignare una probabilidad del 50%
Cuarta: Los votos en blanco que cambien de opción lo harán con la misma probabilidad a cualquiera de los dos grupos (por que las cosas están tan igualaditas), otros se mantendrán votando en blanco, y así explicaremos el número total de votos.

De acuerdo con estas hipótesis el modelo será un numero fijo de votos al no de 1512 y un numero fijo de votos de al no de 1510. hasta llegar a 3030 tendremos 8 votos que se distribuirán de acuerdo a una binomial de probabilidades de 0,5. En este caso la probabilidad del empate coincidirá con la de que una opción tenga 5 votos (que coincide con que tenga 3). Tras una linea de R llegamos al resultado de que la probabilidad de un empate es de 21,875% en este modelo, mientras que el resultado más probable seria una victoria del "no" por dos votos con una probabilidad del 27,34%

En la hipotética apuesta lo habría hecho por la opción más probable sin duda, pero no habría sido mala apuesta el empate.

La respuesta a la pregunta de Twitter, pues estas cosas pasan, no hay nada raro.

Este modelo es mío y es muy opinable, no lo niego, pero creo que pone muy de manifiesto la gran dependencia de los resultados con nuestros supuestos de cálculo, y espero que haga pensar un poco antes de aceptar las predicciones estadísticas que la mayor parte de la gente acepta como verdades absolutas

En resumen.

El análisis probabilístico es una herramienta poderosa, muy poderosa, pero no una bola de cristal, nuestros resultados solo serán lo buenos que sean nuestros datos o nuestro modelo, y como se puede ver las predicciones cambian varios ordenes de magnitud al cambiar de modelo.

Desarrollar un modelo estadístico para tratar de predecir el comportamiento humano en una votación es difícil, muy difícil y hay muy buenos profesionales trabajando en esas cosas. Nosotros para tratar de entender un poco la realidad que nos rodea podemos emplear modelos muy simples, y sin duda mejorará nuestro entendimiento de ella, pero el tratarlos como una verdad absoluta es sin duda un error muy grave.

El cuaderno de aquel que camina en el viento

lunes, 28 de diciembre de 2015

Estadistica, modelos y votaciones

Modelo 1, "Yo pasaba por aquí"

Modelo 2, "Anda coño, que era una votación"

Modelo 3, "Vamos a ponernos un poco más serios"

En resumen.

No hay comentarios:

Publicar un comentario