Ilustración: Leo Camus

Por Ernesto San Martín

Muchas personas reaccionan con desconfianza cuando aparece una encuesta. Un ejemplo reciente es el estudio de la Universidad del Desarrollo, el cual anunciaba:

Panel Ciudadano: 89% considera que Jackson debe salir del gabinete y la mayoría piensa que el robo en su ministerio fue un “montaje” para eliminar evidencias.

La encuesta despertó bastante incredulidad en las redes sociales. Por ejemplo, la periodista Delia Vergara, ex directora de revista Paula, tuiteó:

¿Qué es panel ciudadano? ¿Por qué tengo que creer esos resultados? Me parecen totalmente inverosímiles.

Los artículos que difunden encuestas casi nunca ayudan a reducir la desconfianza, ni responden las dudas que se plantean los y las lectoras. Esto se debe, en parte, a que los medios publican los estudios sin cuestionarlos. Si tiene tiempo, compare las notas con que se difundió la encuesta CADEM del 9 de julio (T13, EX-ANTE, Bío Bío, La Tercera); o confronte los artículos que difundieron la encuesta CADEM del 23 de julio (Bío Bío, 24 horas o ADN). Estas notas de prensa son esencialmente iguales: mismos datos, mismos énfasis. ¿Por qué medios distintos informan igual? La razón es que en general usan como única fuente el comunicado que envía CADEM reportando sus resultados, sin hacer indagaciones extra.

Y el problema es que para combatir la desconfianza que genera una encuesta como la CADEM lo que se necesita no es difundir los resultados que esa empresa informa, sino examinar en detalle los procedimientos que la encuestadora siguió. Solo mirando críticamente cómo hizo su trabajo de campo, qué tasa de no respuesta tuvo, qué supuestos usó para extrapolar sus datos a una realidad más grande, se puede saber cuán discutibles son sus resultados.

Esto implica dejar de ver las encuestas como “un espejo de la realidad” y considerarlas como lo que son: herramientas estadísticas para “hacer inferencias sobre la realidad”. En ese sentido, jamás se debe olvidar que cuando se hace una inferencia estadística siempre se debe explicitar algún indicador de cuán confiable es dicha inferencia. Esto y sólo esto es lo que permite afirmar que la información reportada tiene una base científica.

Así, la forma de neutralizar las desconfianzas que generan las encuestas pasa por que los medios las consideren como objetos que deben investigar profundamente.

En la columna anterior planteamos algunas sugerencias para que los medios reporten las limitaciones de las encuestas. En esta columna avanzaremos un paso más identificando datos y procedimientos seguidos por las empresas, que los medios debieran conocer e informar, pues son cruciales para evaluar bien las limitaciones de estas herramientas.

Lo que proponemos aquí es que cuando existen ciertos bolsones de opacidad la encuesta puede estar siendo usada para instalar ideas partidistas en el debate político y no para saber lo que piensa una parte de la ciudadanía. Y cuando un medio acepta publicar encuestas sin que se transparente todas las zonas opacas, se vuelve vulnerable a ser usado políticamente, y deja de ser una institución que “orienta en un mundo siempre cambiante”, como plantea Hannah Arendt en Verdad y Política.

CADEM Y EL MEMORIAL

Para ilustrar estos bolsones de opacidad se analizará la encuesta CADEM del 23 de julio, la cual abordó, entre otros temas, la construcción de un memorial en la salida de la estación del metro Baquedano. Luego, mostraremos cómo esos bolsones afectan lo que publicó radio Bío Bío al presentar esa encuesta.

El memorial ha generado un intenso debate debido al simbolismo político del proyecto. Para el gobierno, que impulsa la obra, se trata de un espacio para recordar a los muertos y cegados en el estallido social de octubre de 2018; para la alcaldesa Evelyn Matthei, y para el medio Ex-Ante, la obra constituye un muy cuestionable homenaje al estallido social.

El trabajo que realizó CAEM para hacer esta encuesta está resumido en un informe en su página web, al final de la cual hay un documento PDF con algunos detalles adicionales. En el resumen del estudio CADEM afirma lo siguiente:

Sobre el proyecto de Nueva Alameda Providencia, 54% está de acuerdo con la eliminación de la rotonda de Plaza Italia/Baquedano para convertir el espacio vehicular en un parque y 75% se opone a la construcción de un memorial del estallido social.

Salta a la vista que se habla de un 75% que “se opone a la construcción”, sin dejar claro a qué universo hace referencia ese porcentaje. ¿Alude a todos los chilenos y chilenas mayores de 18 años? ¿O se refiere solo a todos los habitantes de la región Metropolitana? Lo cierto es que no apunta a nada de eso. Se trata del 75% de las personas contactadas por la empresa y que consintieron en responder la encuesta. Es decir, se trata de 705 personas. CADEM no menciona eso en su resumen y tampoco destaca que hubo 6.835 personas que no quisieron responderle.

CADEM puede argüir que en su texto PDF sí se menciona la tasa de respuesta, pero eso no es suficiente pues la empresa no reporta sus resultados haciendo explícita la incerteza inducida por la no respuesta. Al no hacerlo, no está haciendo un reporte científicamente riguroso. Esta falta de claridad se ve reflejada en la manera en que el medio comunica la encuesta.

LA NOTA DE BÍO BÍO

Veamos cómo esa opacidad afecta la información periodística. Al difundir la encuesta de CADEM, Bío Bío tituló así su nota publicada el 24 de julio:

Encuesta CADEM: mayoría prefiere denominación Plaza Italia y rechaza instalación de memorial por 18-O

El título reproduce la ambigüedad que CADEM presenta en su informe: no se precisa el universo del que se está hablando. Este es un problema frecuente Los medios de comunicación debieran estar conscientes de que, en un contexto de comunicación rápida, donde muchas personas suelen leer solo titulares, una presentación como esta deja la idea de que CADEM ha conseguido saber lo que opina la mayoría de casi 10 millones de chilenos y chilenas[1]. Pero como se mencionó en la sección anterior, lo que CADEM realmente sabe es la opinión de 705 personas. La opinión de los chilenos y chilenas es algo que CADEM quiere saber, pero por los procedimientos que usa, es algo que no está en condiciones de saber, como se verá luego.

En la nota de Bío Bío sí se especifica que los porcentajes se refieren a los encuestados por la empresa, tanto a nivel nacional como en la región Metropolitana. Pero solo se menciona -debajo de un gráfico y en un tipo de letra muy pequeño- que el universo lo constituyen 705 personas.

El mensaje que Bío Bío transmite sobre la encuesta se puede representar a través del gráfico 1.

Gráfico 1

Este gráfico nos dice que del total de encuestados a nivel nacional (705 personas) el 22% está de acuerdo con construir un memorial del estallido social (lo que equivale a 155 personas), mientras que un 75% (529 personas) no está de acuerdo. Este enfoque de Bío Bío, sin embargo, omite que CADEM intentó encuestar a 7.540 personas por teléfono y tuvo una elevada tasa de no respuesta, igual a 90.6%. En esta omisión la radio se apega a los énfasis del citado resumen de CADEM.

¿Por qué esta omisión priva a los lectores de información relevante? Primero porque la tasa de no respuesta indica que CADEM no sabe cuál es la opinión sobre el memorial que tienen la mayoría de las personas que encuestó. Así, una mejor representación del trabajo realizado por CADEM está en el gráfico 2.

Gráfico 2

En este grafico aquellos que están en contra del memorial son 7,1% de los encuestados (zona amarilla). La zona azul son las personas cuya opinión no se conoce. Una forma transparente de escribir sobre la CADEM podría ser:

Ante la consulta sobre la creación de un memorial, un 7,1 % responde la encuesta y dice que no está de acuerdo; un 2,1% responde la encuesta y dice que sí está de acuerdo. Y un 90,6% no quiso responder la encuesta.

En esta línea, un titular más preciso sobre lo que la encuesta afirma podría ser:

7,1% de los contactados por CADEM (535 personas)

rechaza instalación de memorial por 18-O

Pero hay un segundo motivo por el que es importante destacar la tasa de no respuesta: la gran cantidad de personas que no responde representa una característica de la encuesta; y esta cantidad permite reportar un indicador de confiabilidad de dicho instrumento.

Como se explicó en una columna anterior, la tasa de no respuesta – que se conoce también como “sesgo de autoselección” – implica que los resultados del estudio no son los únicos que pueden describir las opiniones de las personas. Puede ocurrir, por ejemplo, que las personas que creen que CADEM está alineada políticamente se marginen y, por tanto, sus opiniones no aparezcan entre los resultados de CADEM. No sabemos si eso ocurre, porque no conocemos la opinión de las personas que no quieren participar. Pero sí sabemos que mientras más grande sea la tasa de no respuesta, menos confiables son las inferencias que se hagan sobre las opiniones de poblaciones más grandes. Y en la encuesta de CADEM esa tasa es de 90%.

Es por eso que hemos insistido en que hay que hacer explícita la incerteza que es intrínseca a toda recolección de datos, en particular cuando hay personas que no responden. Así, un medio que quiere informar adecuadamente sobre esta encuesta debiera darle relevancia a la elevada incerteza que implican las 6.835 personas que no contestaron a CADEM.

OTROS DATOS QUE FALTAN

Bío Bío no solo reproduce los resultados de CADEM a nivel nacional, sino que también refuerza su nota mencionando a los encuestados de la región Metropolitana:

En tanto, un 75% se mostró en contra de instalar un memorial del estallido social y un 22% a favor. Contando solo los encuestados de la RM, el resultado fue de 73% versus 23%.

Una de las opacidades de CADEM que Bío Bío reproduce sin cuestionamiento alguno, es que no se reporta el total de contactados en la Región Metropolitana, ni el total de este grupo que rehusó contestar la encuesta, ni tampoco el total de los que efectivamente respondieron la encuesta. Sin esa información, es imposible expresar la confiabilidad (como en el gráfico 2) de los resultados a nivel de los encuestados de la región Metropolitana. Aquí no solo estamos ante un reporte incompleto de CADEM y Bío Bío, sino además ante la imposibilidad de expresar la incerteza debido al hecho que CADEM no proporciona esta información. Los y las periodistas atento/as debieran inquirir por estos totales.

USO POLITICO

Un último problema que se observa en el artículo de Bío Bío es que el medio supone que lo que CADEM informa, conversa sin problemas con el debate político. Aún más, la encuesta mostraría que los chilenos están a favor de una de las posiciones en conflicto. Este es un uso extendido de la estadística y plantea la problemática relación que suele haber entre estadística y política.

En el artículo de radio Bío Bío esto se produce porque antes de presentar los resultados de CADEM, se ofrece una contextualización del debate político sobre el memorial. El contexto que presenta el medio es parcial pues solo se cita la oposición de Matthei y no el argumento del gobierno:

“No voy a aceptar de ninguna manera algún tipo de hito de conmemoración que trate de idealizar lo del 18 de octubre, de ninguna manera…”, dijo la alcaldesa.

Luego de esa cita se introduce la encuesta CADEM, lo que, en una lectura superficial, genera la idea de que los encuestados se oponen al memorial por las mismas razones que Matthei ha expresado.

Esta interpretación lleva los resultados de la encuesta CADEM demasiado lejos de sus posibilidades. La empresa nunca preguntó a sus encuestados la razón de su rechazo. ¿Piensan, como Matthei, que es un homenaje a la violencia? ¿Lo rechazan porque reniegan del estallido social como interpretan diversos tuiteros (ver Auth o Lira)? ¿Habrá algunos que lo quieren en otra zona y no en Baquedano por temor a que sea vandalizado? Simplemente no sabemos nada de las razones, porque CADEM no preguntó por ellas.

CONCLUSIONES

Las opacidades de CADEM que hemos señalado tienen su origen en suponer que “los que responden la encuesta se comportan como los que no responden” y que “mientras no haya evidencia de que ambos grupos son diferentes”, no hay por qué preocuparse del sesgo de no respuesta. Bajo estos supuestos, no se necesita explicitar el universo del cual se habla, ni menos determinados subgrupos. Sin embargo, hay que decir que se trata de supuestos inverificables: jamás será posible probar empíricamente si los que responden la encuesta opinan o no de la misma manera que los que no responden (en el recuadro se demuestran rigurosamente estas afirmaciones).

Estos supuestos de CADEM (que, como iremos mostrando en sucesivas columnas, comparten de una u otra manera otras encuestas chilenas) tienen un significado político: asumen que basta con observar una parte de la realidad social para conocer el todo al cual dicha parte pertenece. Es un supuesto de homogeneidad: la parte es como el todo, y por ello la parte es un representante del todo. Pero hay que insistir una y otra vez: se trata de creer que esto es así, de creer que la sociedad es políticamente homogénea en cuanto a las opiniones de aquellos hechos e ideas que CADEM considera pertinente.

Así, cuando la prensa hace eco de estas encuestas, cuando las usa para zanjar un debate político, lo que está haciendo es instalar la idea de homogeneidad, y por tanto la idea de que no hay espontaneidad.

Sin embargo, si la prensa hace una lectura crítica de los resultados de una encuesta, inquiriendo por la incerteza que dichos supuestos opacan, entonces tiene la posibilidad de mostrar no solo que hay opiniones que no sabemos si son o no similares a las opiniones políticas de aquellas y aquellos que respondieron la encuesta, sino también a especular sobre la posibilidad de que haya otras opiniones muy diferentes a las vertidas por los encuestados. En esta tarea es bueno prestar atención a Hannah Arendt y su mirada sobre el rol de la prensa como institución que orienta a ciudadanas y ciudadanos:

“La transmisión de la verdad factual abarca mucho más que la información diaria que brindan los periodistas, aunque sin ellos jamás encontraríamos nuestro rumbo en un mundo siempre cambiante, y en el sentido más literal, jamás sabríamos dónde estamos. Claro está que esto tiene a máxima importancia política; pero si la prensa llegara a ser de verdad el “cuarto poder”, tendría que ser protegida del poder gubernamental y de la presión social incluso con más cuidado que el poder judicial, porque esta importantísima función política de abastecer información se ejercita desde fuera del campo político, hablando en términos estrictos; no hay, o no debería haber, ninguna acción o decisión implícitas (Hannah Arendt, Verdad y Política, en: Entre el pasado y el futuro. Ocho ejercicios sobre la reflexión política, Ariel 2016, capítulo 7).

Una de las herramientas que buscamos compartir con las y los periodistas es precisamente la que dice relación con la incerteza intrínseca que toda encuesta tiene. De esta forma, buscamos otro modo de relacionar la política y la estadística, tratando de colaborar en el impulso de una prensa orientadora.

RECUADRO CONCEPTUAL

Hemos recordado en variadas ocasiones la afirmación sobre la cual se construye el reporte semanal de CADEM, a saber que “bajo el supuesto de que quienes rechazan contestar son iguales a quienes contestan, la magnitud de la tasa de rechazo no ofrece mayores inconvenientes, pero cuando existe evidencia que ambos grupos no son equivalentes, el rechazo puede introducir serias distorsiones en los resultados”. En este apartado queremos responder las siguientes dos preguntas:

¿En qué sentido este supuesto le permite a CADEM reportar sus resultados del modo en que lo hace?

¿Por qué es erróneo afirmar que “cuando existe evidencia que ambos grupos no son equivalentes, el rechazo puede introducir serias distorsiones en los resultados”?

Comencemos introduciendo la siguiente notación:

Denotemos por M el conjunto de todos los números telefónicos que CADEM contacta en una determinada semana. En el caso que hemos comentado, este conjunto tiene 7.540 números telefónicos.

Sea Z una función definida sobre M tal que Z(m)=1 si la persona que contesta el número de teléfono m ∈ M accede a contestar a encuesta, y Z(m)=0 si la persona que contesta el número de teléfono m ∈ M no accede a contestar la encuesta.

Sea Y una función definida sobre M tal que Y(m)=1 si la persona que contesta el número de teléfono m ∈ M está de acuerdo con la construcción del memorial; Y(m)=2 si la persona que contesta el número de teléfono m ∈ M está en desacuerdo con la construcción del memorial; e Y(m)=3 si la persona que contesta el número de teléfono m ∈ M no está ni de acuerdo ni en desacuerdo con la construcción del memorial.

Usando la Ley de Probabilidades, podemos descomponer la proporción de contactados por CADEM que, por ejemplo, está en desacuerdo con la construcción del memorial, esto es, P(Y=2):

P(Y=2) = P(Y=2|Z=1) P(Z=1) + P(Y=2|Z=0) P(Z=0) (1).

Los componentes de esta descomposición se interpretan de la siguiente manera:

P(Z=1) corresponde a la proporción de personas que accedió a responder la encuesta.

P(Z=0) corresponde a la proporción de personas que no accedió a responder la encuesta.

P(Y=2|Z=1) corresponde a la proporción de personas que, habiendo aceptado responder la encuesta, están en desacuerdo con la construcción del memorial. Aquí, la expresión “habiendo aceptado responder la encuesta” es una condición y por ello P(Y=2|Z=1) típicamente se lee como la probabilidad de estar en desacuerdo con la construcción del memorial condicionalmente al hecho que los encuestados efectivamente respondieron la encuesta.

P(Y=2|Z=0) corresponde a la proporción de personas que, no habiendo aceptado responder la encuesta, están en desacuerdo con la construcción del memorial.

De estas cuatro probabilidades, P(Z=1), P(Z=0) y P(Y=2|Z=1) es posible conocerlas a partir de la información observada. En el lenguaje técnico del modelamiento estadístico, se dice que dichas probabilidades (que son parámetros del proceso generador de las observaciones) son identificadas.

En cambio, es imposible conocer P(Y=2|Z=0) a partir de las observaciones. Técnicamente, se dice que esta probabilidad no es identificada.

Estas consideraciones permiten enfatizar una dicotomía que toda investigación empírica comparte: una cosa es lo que podemos aprender de los datos -en el ejemplo que estamos desarrollando, lo único que podemos aprender de los datos es la proporción de los que responden y no responden la encuesta, y la proporción de los que, habiendo respondido la encuesta, están de acuerdo o en desacuerdo con la construcción del memorial. Pero otra cosa muy distinta es lo que se quiere aprender de los datos. En el ejemplo que estamos comentando, lo que se quiere aprender de los datos es la proporción de contactados por CADEM que están de acuerdo y en desacuerdo con la construcción del memorial.

Sin embargo, dado que P(Y=2|Z=0) no es identificada, tampoco lo es P(Y=2), que corresponde a lo que se quiere aprender de los datos. Toda vez que hay una distancia entre lo que se puede aprender de los datos y lo que se quiere aprender de los mismos, estamos frente a un problema de identificación.

Resolver un problema de identificación implica hacer supuestos que no pueden testearse empíricamente. Sin duda, esto tiene enormes consecuencias epistemológicas sobre la investigación empírica, que podremos comentar en columnas sucesivas.

Volvamos ahora al supuesto de CADEM y mostremos cómo resuelven el problema de identificación. Asumir que “quienes rechazan contestar son iguales a quienes contestan” equivale a asumir que

P(Y=y ∣ Z=1) = P(Y=y ∣ Z=0) (2)

para y ∈ {1,2,3}. Usando esta condición en la descomposición (1), se tiene que

P(Y=2) = P(Y=2 ∣ Z=1) {P(Z=1) + P(Z=0)} = P(Y=2 ∣ Z=1) (3).

Así, bajo el supuesto (2), lo que se quiere aprender (la proporción de contactados que no están de acuerdo con la construcción del memorial) coincide con lo que se puede aprender (la proporción de los que, habiendo respondido la encuesta, no están de acuerdo con la mentada construcción).

En otras palabras, la condición (2) permite ignorar el desconocimiento de P(Y=2 ∣ Z=0). Pero hay algo más que se puede apreciar en las igualdades (3): bajo la condición (2), no tiene relevancia alguna ni el porcentaje de los que no contestan la encuesta, ni el porcentaje de los que la responden La razón es simple, pero sutil:

P(Z=1) + P(Z=0) = 1.

Por lo tanto, la variable indicadora Z que señala quienes responden o no la encuesta se puede definir no solo sobre el conjunto de los contactados sino incluso sobre el conjunto de los elegibles para responder CADEM: bajo el supuesto (2), se puede ignorar las opiniones de los que no la respondieron.

Sin embargo, dicho supuesto tiene una limitación: no se puede refutar o justificar empíricamente pues no se observa P(Y=2∣Z=0). Por lo tanto, la afirmación de CADEM según la cual “cuando existe evidencia que ambos grupos no son equivalentes, el rechazo puede introducir serias distorsiones en los resultados” es lógicamente vacía: jamás habrá evidencia de que ambos grupos son o no son equivalentes.

Ernesto San Martín

Es profesor titular y director de LIES (Laboratorio Interdisciplinario de Estadística Social) de la Facultad de Matemáticas de la Pontificia Universidad Católica de Chile y director del Núcleo Milenio sobre Movilidad Intergeneracional (MOVI). Es ingeniero civil matemático por la Universidad de Chile y doctor en Estadística por la Universidad Católica de Lovaina, Bélgica. En esta última es profesor invitado de la Facultad de Ciencias Sociales desde 2013. Su trabajo de investigación está focalizado en el modelamiento estadístico de fenómenos sociales, particularmente los relacionados con Educación.

____________________________________

Notas y referencias:

[1] En el apartado metodológico, CADEM reproduce los totales poblacionales de ciudadanos mayores de 18 años según el censo de 2017, la que asciende a 13.314.848 personas (ver su Tabla 1): el 75% de este total es igual a 9.986.136 personas.

*Artículo publicado originalmente en Tercera Dosis.Cl

Sigue leyendo: