Strict Standards: Declaration of SkinByB::initPage() should be compatible with Skin::initPage(OutputPage $out) in D:\inetpub\wwwroot\es.wiki.backyardbrains.com\skins\byb.php on line 24
Análisis Estadístico - Backyard Brains
Backyard Brains Logo

¡Neurociencia para Todos!

+1 (855) GET-SPIKES (855-438-7745)


productos ()

Análisis Estadístico

Revisión a fecha de 19:06 10 sep 2012; Kyle (Discusión | contribuciones)
(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)

Antecedentes


En los últimos tres experimentos cognitivos, se han tomado datos y realizado experimentos. La idea de recoger datos no es sólo por observación, sino también para la inferencia (es decir, llegar a una conclusión y aprender acerca de la población que se está estudiando). Las observaciones son fáciles. Algunas personas tienen los ojos azules y otras de color verde. Inferir sobre una población puede ser muy difícil. Se requiere la recolección de datos y un elegante análisis reflexivo. Por ejemplo, ¿cómo se determina la altura promedio de un hombre? ¿No irías a medir a un equipo de baloncesto de la NBA o a un grupo de jinetes, o sí?

BYB exp4 pic1 esp.png

Ir aún más allá e inferir sobre diferencias entre poblaciones puede ser más difícil todavía. ¿Es posible demostrar que en promedio, los hombres son más altos que las mujeres? Hay muchas variables que podrían evitarte llegar a conclusión válida. Si tomas datos de una basquetbolista de la WNBA y la comparas contra un jinete, te encontrarías con un sesgo de población, y también con un tamaño de muestra pequeño. Por último, ¿los datos fueron auto-reportados, o medidos profesionalmente?

BYB exp4 pic2 esp.png

Como te puedes imaginar, la recolección de datos y su análisis es un trabajo duro. La buena noticia es que convertirse en un experto en estadística es una profesión lucrativa. Los gobiernos, la bolsa, grandes empresas, laboratorios, e incluso algunos individuos necesitan buenos estadísticos, y por lo general están dispuestos a pagar buenos sueldos.

BYB exp4 pic3.png

En esta lección vamos a hacer un poco de análisis estadístico básico. Antes de hacer esto, sin embargo, tienes que ir a recoger datos. Afortunadamente, si ya has completado uno o los últimos tres experimentos cognitivos, tendrás algunos datos para trabajar. ¡Ojalá hayas hecho todo lo posible para controlar los métodos y ser consistente! Puedes usar esos datos, o recoger datos nuevos. Si el tamaño de muestra es muy pequeño (menos de 7 sujetos en cualquiera de los últimos 3 experimentos), tendrás que recoger más datos.

La Hipótesis

Antes de comenzar a recopilar datos, vamos a formular algunas hipótesis.

1. Nuestra primera hipótesis será: las personas diestras tienen un tiempo de reacción más rápido con su mano derecha que con su mano izquierda.

BYB exp4 pic4.png

2. Nuestra segunda hipótesis será: Los zurdos, más inusuales y especiales, tienen un tiempo de reacción más rápido que los diestros.

BYB exp4 pic5.png

Datos Crudos, Gráficos y Distribuciones

A continuación se muestra un conjunto de datos recogidos al realizar el Experimento Cognitivo #3, Tiempo de Reacción. Aquí se muestran los tiempos de reacción para las manos izquierda y derecha a partir de la señal visual. Reunimos a 20 voluntarios universitarios, 10 zurdos y 10 diestros. El tiempo de reacción se muestra en segundos.

BYB Exp4 Pic6 esp.png

Ahora que tenemos los datos crudos, podemos empezar a analizarlos. No parecen haber valores “extraños”, por lo que nuestro conjunto de datos es probablemente bueno. Por ejemplo, si uno de nuestros valores fuera 0,78, probablemente lo descartaríamos. ¿Suena sospechoso? Claro que sí, pero hay un razonamiento matemático tras ello, y puedes leer sobre los valores atípicos aquí.

A continuación, queremos organizar los datos para nuestras dos hipótesis en específico:

  • Hipótesis 1: los diestros son más rápidos con su derecha, su mano dominante.
BYB exp4 Pic7 esp.png

  • Hipótesis 2: Los zurdos son más rápidos que los diestros
BYB exp4 pic8 esp.png

Además, ordenamos los valores en forma ascendente, para que los datos sean más fáciles de ver y trabajar. Antes de entrar en las pruebas estadísticas, debemos calcular algunos valores básicos.

  • El mínimo es el valor más bajo.
  • El máximo es el valor más alto.
  • La moda es el valor que ocurre con mayor frecuencia.
  • La media, o promedio, es la suma de los valores individuales dividido por el número total de individuos. Por ejemplo, si tienes (1, 2, 3) la media sería (1 +2 +3) / 3 = 2). El símbolo matemático para la media es: μ (la letra griega Mu)
  • La mediana es el valor medio de un conjunto ordenado de datos. Si tenemos un número impar de valores la mediana es el número del medio. Por ejemplo, en (1, 2, 3) la mediana sería 2. Si tenemos una cantidad par de valores, habrá dos valores medios y la mediana será la media de los dos medios. Por ejemplo, en (1, 2, 3, 4) los dos números centrales son 2 y 3. Así, la mediana sería (2 + 3) / 2 = 2,5.

En primer lugar queremos encontrar estos valores en los datos para nuestra primera hipótesis

BYB exp4 pic9 minmax esp.png

BYB exp4 pic1 mean esp.png

BYB exp4 pic9 mode esp.png

BYB exp4 pic1 median esp.png
  • Y otro valor más: ¡La desviación estándar! La desviación estándar es una medida de la variación en los datos. Cuanto mayor sea el valor de la desviación estándar, más aparte de la media estarán los datos. El símbolo matemático utilizado para la desviación estándar es: σ (la letra griega Sigma). ¿Cómo calcularlo? Ve a continuación...
BYB exp4 pic9 sigma esp.png

Esto resultados son muy interesantes.

  • Si te fijas en los promedios, no hay mucha diferencia. Podemos inferir que la mayoría de los datos en ambos conjuntos se centran alrededor de: 0,247 y 0,248.
  • Los valores mínimos y máximos para ambos conjuntos son bastante parecidos también. Esto significa que los tiempos “más rápidos” y “más lentos” son los mismos para zurdos y diestros.
  • La desviación estándar es ligeramente distinta para ambos conjuntos. La desviación estándar de la derecha, la mano dominante, es un poco más grande (0.193 segundos) frente a la mano izquierda (0,0155 segundos). Esto demuestra que los datos se extienden un poco más lejos de la media de la mano dominante derecha, que de la mano izquierda. O, en otras palabras, la mano derecha es más "variable".


Obtuvimos estos valores para los datos de la primera hipótesis establecida, y ahora puedes calcularlos para el segundo conjunto de datos.

Ahora bien, si queremos hacer algún tipo de inferencia sobre las poblaciones de zurdos diestros y sus tiempos de reacción, debemos graficar nuestros datos y realizar pruebas estadísticas. Ahora vamos a aprender acerca de las distribuciones de probabilidad antes de sumergirnos en las pruebas estadísticas.

BYB Exp4 Pic14.png

En primer lugar, los datos se representan gráficamente en la forma de un "histograma". La densidad (o número de eventos) es el eje y. El eje x es el intervalo de valores registrados en el experimento. La curva a lo largo del gráfico es la "curva de distribución normal", que es un tipo de distribución de probabilidad. ¿Qué es una distribución de probabilidad? Es una ecuación o una tabla de valores que conecta los resultados registrados (en nuestro caso, el tiempo de reacción) con su probabilidad de ocurrencia. Aquí están los histogramas para las personas diestras. Puedes hacer tus propios histogramas para las personas zurdas con Excel o cualquier otro tipo de programa de gráficos. Pídele a tu profesor o amigo científico que te ayude si no sabes cómo hacerlo.

BYB exp4 pic11 lefthand esp.png


BYB exp4 pic11 righthand esp.png

Existen muchas curvas de distribución de probabilidad pero nosotros usamos la distribución "normal", ya que es la más común y probablemente más indicativa del tiempo de reacción humano. ¿Qué significa que se distribuya normalmente? Es un modelo matemático de disposición “normal” de los datos. Aquí está la ecuación:

BYB Exp4 Pic13.png

No te preocupes si no lo entiendes, pero tienes que saber que los científicos han descubierto que la altura, CI, peso y otras características humanas se distribuyen en formal normal, por lo que hacemos la suposición de que los tiempos de reacción se distribuyen normalmente también. Veamos un ejemplo: la estatura humana (de hombres y mujeres combinados).

La distribución de las alturas es lo que hace que los datos sean "normales". La altura se centra sobre una sola media y tiene una distribución simétrica a medida que se aleja de la media. En una distribución normal:

  • Aproximadamente el 68% de las personas cae dentro de una desviación estándar de la media (entre 1,57 m. y 1,80 m. de altura).
  • Aproximadamente el 95% de las personas cae dentro de dos desviaciones estándar de la media (entre 1,50 m. y 1,88 m. de altura).
  • Aproximadamente el 99,7% de las personas cae dentro de tres desviaciones estándar de la media (entre 1,27 m. y 1,95 m. de altura).

Ten en cuenta que estos porcentajes son válidos para todas las distribuciones “normales”.

BYB exp4 pic12 esp.png

Quizás estés pensando: "¡Nuestros gráficos no se parecen a una distribución normal!” Esto es parcialmente cierto, porque tenemos un tamaño de muestra muy pequeño. Si tomáramos muchas muestras más (tal vez 100), podríamos esperar ver una curva de distribución normal de los datos de tiempo de reacción, como la de la altura humana.

Ahora, ¿cómo probar si los dos grupos de datos (mano izquierda vs mano derecha de sujetos diestros) son diferentes? Vamos a realizar una prueba t, o "prueba t de Student." El famoso Dr. Student fue un estadístico real, pero "Student" no era su verdadero nombre. El nombre de la prueba se debe a las curiosas circunstancias de donde se originaron. William Gosset, un químico que trabajaba en Irlanda para la Cervecería Guinness, concibió la prueba en 1908 como un medio de control de calidad de los ingredientes de la cervecería. Quería publicar su prueba estadística en una revista científica, pero Guinness no le permitía usar su nombre real, ya que consideró el análisis como un secreto comercial. Sin embargo, se le permitió publicar bajo un seudónimo. ¡Lo que Guinness no sabía era que la comunidad científica ya conocía el seudónimo de Gosset, “Student”! Ahora, tenemos mejor cerveza y mejores estadísticas.

BYB exp4 pic lightningbrew esp.png

La prueba t es de gran alcance, ya que nos permite hacer inferencias a partir de una muestra pequeña de la población total. Te mostraremos cómo hacer una prueba t para la primera hipótesis, pero te dejaremos a ti hacer la prueba t para la segunda hipótesis.

Prueba t y análisis

Antes de analizar los números, debemos definir claramente nuestras hipótesis nula y alternativa. Quizás te preguntes por qué necesitamos dos hipótesis para una prueba estadística. En la estadística “formal”, siempre debemos comparar dos hipótesis, la hipótesis nula y la alternativa.

  • Hipótesis nula: No hay diferencia en los tiempos de reacción entre las manos izquierda y derecha.
  • Hipótesis alternativa: la mano derecha tiene un tiempo de reacción más rápido que la media de la mano izquierda.

Ahora, tenemos que decidir si queremos completar una prueba t de una o dos colas. Para esta prueba, vamos a utilizar una cola. Esto se debe a que sólo nos importa probar si la mano derecha es más rápida que la izquierda, y no se una de las dos es más rápida o más lenta que la otra. Dicho de otra manera, si no nos importara cuál mano fue más rápida, y solo quisiéramos ver si las dos muestras tienen una media distinta, usaríamos una prueba de dos colas.

BYB exp4 pic tails esp.png

Por último, tenemos que establecer el valor “alfa", que puede ser visto como un "umbral de aprobación." Los valores comunes son 0,05, 0,01, y 0,001. Con un valor alfa de 0,05, hay una probabilidad del 95% de que tus resultados sean correctos. Con un valor de 0,01, hay una probabilidad del 99% de que tus resultados sean correctos, y así sucesivamente...Nunca puedes tener un valor alfa de cero, porque nunca se puede estar 100% seguro de algo en las estadísticas (y no es broma).

El valor alfa es más comúnmente llamado "valor p". Con una prueba t, se calcula un "estadístico t", y se compara con un “valor t” conocido en una tabla de consulta asociada con el valor p determinado. Si tu "estadístico t" es mayor que el "valor t" que buscaste, entonces se puede rechazar la hipótesis nula y afirmar que las manos derechas son más rápidas que las manos izquierdas ¿Confundido? No te preocupes, vamos a ver este proceso de nuevo abajo, es difícil para cualquiera.

Ahora, juntemos todos los datos que tenemos en nuestras dos muestras. Si recuerdas, en la sección "Datos Crudos, Gráficos y Distribuciones" encontramos lo siguiente: mínimo, máximo, moda, media, desviación estándar y mediana. Para la prueba t, necesitamos la media, desviación estándar, y un par de números más, que vamos a calcular a continuación.

Paso 1: Encontrar la "varianza ponderada", o Sp2.

BYB exp4 pic15 ttest1 esp.png
  • Nota: el subíndice "1" representa los datos para las muestras de la mano derecha y el subíndice "2" representa los datos para las muestras de la mano izquierda. Esta anotación se mantendrá constante durante los cálculos.


Ahora vamos a sustituir las letras de la ecuación anterior con nuestros valores numéricos.

BYB exp4 pic15 ttest2.png

Paso 2: Calcular el estadístico t.

Ahora que tenemos la varianza ponderada, Sp2 = 0,000119, la podemos usar para calcular el estadístico t:

BYB exp4 pic15 ttest3.png

¿Qué significan estas letras y símbolos? Ya conocemos: Sp2, n1, n2 y. Pero ¿y el resto?

BYB exp4 pic15 ttest4 esp.png

Delta es igual a cero. ¿Por qué la diferencia hipotética entre las medias de las muestras es cero? Una pista: Revisa lo que vimos sobre la hipótesis nula.

¡Ahora estamos listos para sustituir! Colocamos todos los valores numéricos.

BYB exp4 pic15 ttest5.png

Nuestro “estadístico t”, t, es 0,02046

Paso 3: Comparar el estadístico t con la tabla de distribución de la t de Student Comparamos nuestro estadístico t contra esta tabla, que puedes encontrar en un libro, o aquí. Para esto necesitamos también nuestros "grados de libertad”, o gl, que es el número de categorías de información independientes que son libres de variar.

BYB exp4 pic15 ttest6 esp.png

Una forma de verlo es a través de un deporte. Digamos que eres un entrenador y tu equipo está formado por 11 jugadores, y el juego que estás jugando tiene 11 posiciones. Ahora asignas el mejor jugador en cada posición respectiva. ¿Cuántas elecciones tienes que hacer? No 11, sino 10. Una vez asignado el jugador 10, el último jugador ocupa la undécima posición por defecto. Por lo tanto, tenías 10 opciones, o 10 grados de libertad.

Ve a tu tabla de valores e identifica la fila con un gl de 18. Quizás te preguntes como diablos se organizó una tabla como esta, con tantos valores que parecen estar ordenados al azar. Esa es una buena pregunta, y la mejor forma de responderla es a través del cálculo integral de la "distribución de probabilidad" que discutimos anteriormente, de lo que aprenderás más cuando estudies estadísticas en la universidad…

BYB exp4 pic15 ttest7 esp.png

Encuentra tu valor P, que decidimos sería 0,05 utilizando una prueba de una cola. Correlaciónalo con gl = 18, y se obtiene un valor t de 1,734. Como nuestro valor t calculado, 0,2046, es INFERIOR a 1,734, NO PODEMOS rechazar la hipótesis nula. ¿Qué pasaría si usamos un valor p menos estricto, por ejemplo 0,10?

BYB exp4 pic15 ttest8 esp.png

A un valor p de 0,10, o 90% de confianza, nuestro estadístico t de 0,2046 sigue siendo menor que el valor de 1,330, por lo que todavía no se puede rechazar la hipótesis nula, y...

No podemos afirmar que en un diestro la mano derecha es más rápida que la mano izquierda.

Por lo tanto, no encontramos evidencia de que si eres diestro, eres más rápido con la mano derecha sobre la mano izquierda. Ahora vamos a echar un vistazo a nuestra segunda hipótesis:

¿Son los zurdos más rápido con su mano izquierda que las personas diestras con su mano derecha?

Cuando decimos "vamos", queremos decir "tú". Ahora es tu turno, y puedes hacer una prueba t y calcular los valores por ti mismo, pero te daremos la respuesta. Debieras haber calculado un estadístico t de 2,7187, que a un valor de p de 0,05 y grados de libertad = 18, ¡es mayor que el valor t de 1,734! Así, a un 95% de confianza, podemos decir:

Los zurdos son más rápidos que los diestros.

¡Genial! Ahora que tenemos algunos resultados, vamos a discutirlos. Esta es la parte de la ciencia que nos lleva a más preguntas. Si las personas zurdas tienen tiempos de reacción más rápidos, ¡tal vez son más inteligentes también! ¡Tal vez podamos hacer algunas pruebas de coeficiente intelectual! ¡Quizás podamos medir el diámetro de sus nervios de alguna manera, y ver si tienen una velocidad de conducción más rápida!

Ten en cuenta que la primera hipótesis, en la que no se encontró ninguna diferencia entre la mano izquierda y la derecha en las personas diestras, es más difícil de tratar. Tal vez hay una diferencia, pero nuestro tamaño de muestra no fue lo suficientemente grande para detectarlo (esto se conoce como un error de tipo II, o "falso negativo"). En ciencia, es mucho más difícil demostrar la "ausencia de algo" que la "presencia de algo". Por otra parte, como los cazadores de alienígenas suelen decir: "la ausencia de evidencia no implica evidencia de ausencia".

BYB exp4 pic16 esp.png

Preguntas a tener en cuenta

  1. En nuestro grupo experimental utilizamos voluntarios en lugar de un muestreo de 10 sujetos seleccionados al azar. ¿Qué diferencia hay entre buscar sujetos al azar y usar voluntarios? ¿Hay algún sesgo? ¿Puede esto fortalecer o hacer más débil nuestra inferencia final, o no tiene efecto alguno?
  2. ¿Crees que un estudio pueda realmente ser definitivo? ¿Qué significa ese 95% de confianza (valor alfa = 0,05) en términos de llegar a la “verdad”?
  3. ¿Notas algo extraño en los gráficos de distribución de los datos recopilados?
  4. Aquí sólo comparamos el tiempo de reacción de la mano derecha de personas diestras con respecto a su mano izquierda. ¿Qué esperarías ver en personas zurdas al comparar sus manos izquierda y derecha? ¡Este es un análisis que puedes hacer tú mismo!