Pensar antes de actuar: Diseño estadístico de experimentos

Jesús López Fidalgo. Catedrático de Estadística de la Universidad de Castilla-La Mancha.- ¿Hay datos buenos y malos desde un punto de vista de la información que encierran? Más en concreto, consideremos dos conjuntos de 30 números cada uno. ¿Puede ser un conjunto más informativo que el otro cuando al fin y al cabo no son más que dos conjuntos con la misma cantidad de números?

La respuesta es que hay números (observaciones de un experimento), que son más informativos que otros y ahí entra en juego el diseño de experimentos para planificar una experimentación que nos lleve a conseguir la máxima información con el mínimo coste, es decir el mínimo número de experimentos.

Nacimiento en la agricultura. Experimentar tiene un coste, a veces muy importante. Por ejemplo, en agricultura hay que esperar largos periodos de tiempo hasta que se ve el resultado. Si este es poco informativo habremos perdido un tiempo precioso. El diseño estadístico de experimentos nace precisamente en este campo. En 1843 se inicia en Rothamsted (Harperden, UK) un ensayo de larga duración llamado Broadbalk. En la fotografía se puede ver cómo el campo de cultivo se divide en pequeñas parcelas, donde probablemente la fertilidad de la tierra es homogénea y se plantan todas las variedades en todas las parcelas. De este modo se controla el efecto de la fertilidad de la tierra. De otro modo el estudio podría verse sesgado de raíz al existir la posibilidad de sembrar o plantar una variedad en un terreno muy fértil y tener la “mala suerte” de sembrar una variedad específica en un terreno muy malo para el cultivo.

Importancia de la aleatoriedad. Todo procedimiento estadístico se basa en la aleatoriedad, el azar. Lo que no es aleatorio es determinista y por tanto se determina con cálculos más o menos complejos, pero, en principio, exactos. La aleatoriedad nos permite el uso de la probabilidad. Esto, lejos de ser algo artificial, es precisamente reflejo del razonamiento ordinario de la mente. Habitualmente los acontecimientos y sucesos de la vida se presentan cargados de incertidumbre, que tratamos de medir como sea, incluso de modo subjetivo o basándonos en la experiencia nuestra o ajena. No será hasta bien entrado el siglo XX cuando el genetista y estadístico británico Ronald Fisher, desarrolle la teoría del diseño de experimentos de un modo riguroso y sistemático. Fisher gozaba de una personalidad muy peculiar. En el departamento instituyó la costumbre de tomar el té todos juntos a las cinco de la tarde. Se cuenta que era una manera de controlar que todos trabajaban al menos hasta esa hora. En cierta ocasión estaba invitada Miss Buriel Bristol. Ronald Fisher, muy amable, le sirvió el té. Pero ella lo rechazó al reconocer que la leche había sido agregada al final. Incrédulo de que ella realmente fuera capaz de reconocer si la leche se había echado antes o después del te le propuso un reto. Harían un experimento con ocho tazas en las que en cuatro se echaría antes la leche y en otras cuatro se añadiría al té ya servido. Las tazas se le presentarían a Miss Buriel Bristol aleatoriamente para que adivinase el tipo de combinación. Fisher en esa ocasión hizo notar que no es lo mismo presentarlas de modo aleatorio que simplemente desordenarlas. En el modo aleatorio todas las combinaciones de las ocho tazas serían posibles. Elegir aleatoriamente es como asignar a cada posible distribución una bolita, ponerlas todas en un bombo y luego sacar una al azar. Esto incluye posibilidades extremas como el caso de situar cuatro del mismo tipo seguidas. Sin embargo, sin nos pidieran que las desordenáramos no incluiríamos situaciones de este tipo. Esto tiene su importancia, porque si Miss Buriel supiera que solamente las hemos desordenado podría jugar con ventaja al saber que es menos probable, por ejemplo, que la combinación te-leche vaya seguida dos veces y muy improbable que vaya tres veces seguidas. De este modo un diseño experimental que no guarde este principio podría conducir a conclusiones equivocadas.

¿Merece la pena invertir en diseñar un experimento? Un ejemplo muy sencillo nos lo mostrará. Cuando se quiere medir el peso de un lingote, se utiliza una balanza, por ejemplo la clásica de dos platos (véase la figura). Por muy precisa que sea, siempre tendrá un error de medición. Supongamos que se quiere saber el peso de dos lingotes de oro de distinto tamaño y forma (A y B) en dos pesadas y que cada pesada tiene un coste importante y un error de unos dos miligramos (esto se dice con un 95% de confianza). Es más preciso utilizar los dos lingotes en las dos, que pesarlos por separad. Si en una situamos los dos lingotes en un plato estaremos estimando la suma de los pesos. Después situamos una en cada plato y así estimamos la diferencia de los pesos. Con un sencillo cálculo tendremos el peso de cada lingote. La precisión es porque al utilizar los dos lingotes en cada pesada, el error de la balanza se reparte entre ambos reduciendo el error de medición de cada uno de 2 a 1.4 miligramos.

Manipulación en el diseño (Paradoja de Simpson). Las empresas farmacéuticas, y otras muchas, han de ser especialmente cuidadosas en los estudios que llevan a tomar decisiones acerca de recomendar y comercializar un nuevo tratamiento, que traerá a la empresa muchos beneficios. Sin hacer trampa modificando u omitiendo datos se puede manipular el estudio haciendo un diseño experimental inadecuado. Vamos a suponer que en una determinada enfermedad se está utilizando un tratamiento que funciona relativamente bien y consiste en tomar unas pastillas llamadas Curamina. La empresa Pharmadol ha trabajado duramente en una nueva medicina, llamada Fraudol. Para demostrar que su nuevo producto es mejor hacen un experimento con 80 pacientes administrando Curamina a 40 de ellos y Fraudol a otros 40. Al cabo de un tiempo se observa que los resultados son mejores con el nuevo producto. Con Fraudol mejora el 60% de los pacientes, mientras que con Curamina mejora tan solo en 50%. Sin embargo, pueden existir otras variables que influyan en este proceso curativo y que modifiquen significativamente los resultados. En muchos casos es importante considerar separadamente a hombres y mujeres. Hagamos esa desagregación para ver qué pasa. Al observar los datos resulta que se administró Curamina a 30 hombres y Fraudol tan sólo 10. El resultado es que mejora el 40% de hombres a los que se administró Curamina y solo el 30% de los que se les administró Fraudol. Por tanto la conclusión a la que parecía haberse llegado empieza a ser cuestionable. El lector estará pensando que lo contrario ocurrirá con las mujeres, pero los resultados vuelven a ser diversos. En particular, se administró Curamina a 10 mujeres, de las que mejoró el 80% y Fraudol a 30, de las que mejoró el 70%. Es sorprendente, pero es cierto, de ahí que se le conozca como paradoja de Simpson. En el diseño experimental empleado no cabe duda de que hay algo extraño cuando se examina con calma. Hay 40 hombres y 40 mujeres en el estudio, lo que es correcto. Supongamos que es sabido que de esta enfermedad curan antes las mujeres que los hombres de modo natural. Basta entonces administrar Fraudol a muchas más mujeres que a hombres y se conseguirá manipular los resultados sin hacer nada aparentemente mal. Es importante considerar en un diseño todas aquellas variables que puedan influir en el resultado final aunque en principio no nos interese estudiar su efecto. Una vez más el diseño de experimentos y el conocimiento estadístico en general nos proporcionan un sano espíritu crítico que ayuda a desenmascarar estudios y conclusiones erróneas.

Replicar o repetir experimentos o es lo mismo. Por diversos motivos, algunos fácilmente comprensibles, siempre es deseable poder realizar de nuevo un experimento en las mismas condiciones. Debido a la incertidumbre y a causas desconocidas el resultado no va a ser exactamente el mismo y esto es muy relevante en el tratamiento estadístico. Por eso es muy importante distinguir entre experimentos replicados y experimentos repetidos. Construyamos un helicóptero de papel muy elemental como el que se muestra en el dibujo. Una vez construido se deja caer desde una altura determinada, basta con un par de metros, y se mide el tiempo que tarda en caer al suelo mientras van girando sus alas. Podríamos hacer experimentos variando la longitud de las alas, del cuerpo, la envergadura, el peso del clip o la altura desde la que se lanza. Todo ello con el objeto de encontrar por ejemplo, las dimensiones del que realiza un vuelo más largo en el tiempo. Aquí es donde entra en juego el diseño de experimentos para decidir cuáles son las medidas del helicóptero más oportunas para experimentar. Se anima al lector a hacer algunas pruebas con dos o tres modelos de helicóptero, es entretenido, especialmente para los niños, y muy instructivo.

Replicar el experimento consistiría en este caso en construir dos helicópteros con las mismas medidas, lanzarlos desde la misma altura y medir los tiempos. Lógicamente, replicar exactamente todo esto es imposible. Se darán diferencias de dos tipos:

a) Al recortar los helicópteros no nos van a salir exactamente iguales. Seguro que en algún momento se nos van un poco las tijeras en un lado y se nos quedan cortas en otro. Además los dos clips no pesarán exactamente lo mismo…

b) Al dejarlos caer es difícil que consigamos exactamente la misma altura, que los dedos lo suelten exactamente en el momento en que comienza el cronómetro a funcionar y que este se pare en el momento exacto en que hace contacto con el suelo. Puede ser además que en el segundo intento haya pasado una pequeña ráfaga de aire apenas imperceptible…

Repetir un experimento sin embargo consiste en volver a realizar el experimento con el mismo helicóptero. Es decir se dejar caer una vez y se mide el tiempo y luego se vuelve a dejar caer de nuevo y se mide el tiempo. Al ser el mismo helicóptero la variabilidad que indicábamos en a) ya no se produce, pero sí la que indicamos en b).

Se entiende que no se puede realizar entonces el mismo análisis estadístico de los datos en ambos casos. Pero ¿qué es mejor, replicar o repetir? Es mejor replicar porque así consideramos una variabilidad más realista, al medir más causas posibles de variabilidad. Sin embargo a veces nos interesa observar qué ocurre en dos situaciones distintas. Por ejemplo, si nos interesa estudiar las diferencias de tiempo de vuelo en dos días con alta presión (soleado y caluroso) y baja presión (nublado y lluvioso). En ese caso es mejor utilizar el mismo helicóptero ambos días porque así medimos exactamente la variabilidad que queremos, es decir la debida a la presión atmosférica, y no la debida a la construcción de los helicópteros. Pero obsérvese que entonces estamos estudiando cosas distintas.

Experimentos computacionales. Hoy día el llamado diseño de experimentos computacionales basados en las nuevas tecnologías y el manejo de grandes cantidades de información ha adquirido una gran importancia. Grandes simuladores o programas informáticos necesitan probarse en diversas circunstancias que reproduzcan del modo más eficiente la totalidad de las posibles situaciones.

Diseños secuenciales. Los diseños secuenciales son muy eficientes al requerir el mínimo número de experimentos necesarios para demostrar algo. Esto reduce tiempos y costes de una manera drástica al rediseñar la experimentación conforme se van obteniendo los resultados. Este tipo de experimentación tiene connotaciones éticas en algunos campos, como la medicina. En un momento dado del proceso, cuando se propone asignar uno de los tratamientos posibles a un nuevo paciente, puede ocurrir que desde un punto de vista estadístico (científico) interese aplicar un tratamiento que está funcionando, por el momento, peor que otro. Esto podría ser poco a nada ético, dependiendo del riesgo asumido por el paciente. Por eso es importante utilizar una combinación razonable de criterios estadísticos y éticos al mismo tiempo.

La industria. El diseño de experimentos ha contribuido de modo impresionante al desarrollo industrial del siglo XX al proporcionar una metodología capaz de ahorrar mucho dinero en la experimentación y conseguir resultados más rápidamente. Se aplicó con gran acierto en Japón después de la II Guerra Mundial y ha dado muy buenos resultados en particular en la llamada calidad total o el diseño de nuevos productos.

Reglas de oro en el diseño de un experimento.

Reconocimiento pre-experimental del terreno.
Elegir bien el modelo que se va a utilizar con las variables que se van a medir.
Tomarse su tiempo en diseñar el experimento preservando los principios básicos de
- Aleatoriedad.
- Réplicas o repeticiones.
- Uso de bloques para eliminar el “ruido”.
- Supervisar la realización del experimento para que se respeten los principios anteriores.
- Tener en cuenta los imprevistos que hayan surgido en el análisis final de los datos.

Ser cuidadoso en la interpretación de los resultados proporcionando particularidades relevantes a tener en cuenta.

Pensar antes de actuar: Diseño estadístico de experimentos

Relacionados

ESCRIBE UN COMENTARIO Cancelar comentario

MICR

Secciones

Editorial

Puertollano en un sinvivir, entre la maldición judicial y la torpeza de la administración que han enriquecido a los bolsillos ilustres

Regresa la censura a España con bloqueos masivos en Internet: La lucha contra la piratería del fútbol debe respetar la Constitución