Explorando la Prueba T y el valor p en Python

Name: Rajiv Chandra

Published on 19/8/2023

El análisis estadístico es una herramienta poderosa para comprender e interpretar datos. Entre las muchas pruebas estadísticas disponibles, la Prueba T y el concepto del valor p son particularmente significativos. En este artículo, profundizaremos en estos conceptos, exploraremos su uso en Python y veremos cómo facilitan el análisis efectivo de datos.

Comprendiendo la Prueba T

La Prueba T es un método de prueba de hipótesis estadísticas que nos permite comparar la importancia entre dos o más grupos. En esencia, nos ayuda a determinar si existen diferencias notables entre los grupos bajo estudio. Se utiliza principalmente con conjuntos de datos que siguen una distribución normal pero tienen varianzas no identificadas.

Aceptación de Hipótesis en la Prueba T

La Prueba T asume una hipótesis nula, que establece que las medias de dos grupos son iguales. Con base en la fórmula aplicada, calculamos los valores y los comparamos con valores estándar, aceptando o rechazando la hipótesis nula en consecuencia. Si se rechaza la hipótesis nula, significa que las lecturas de los datos son sólidas y no son simplemente resultado de probabilidades.

Supuestos para Realizar la Prueba T

Antes de realizar una Prueba T, se deben cumplir ciertos supuestos:

Los datos deben seguir una escala continua u ordinal.
Los datos deben ser una muestra aleatoria que represente una parte de la población total.
Al graficar los datos, deben resultar en una distribución normal o en forma de campana.
La varianza existe solo cuando las desviaciones estándar de las muestras son aproximadamente iguales.

Qué Prueba T Utilizar y Cuándo

Dependiendo de los datos y el problema en cuestión, podemos elegir entre diferentes tipos de Pruebas T: Prueba T pareada, Prueba T de dos muestras y Prueba T de una muestra.

Introducción al Valor p

El valor p es la medida de probabilidad de que una diferencia observada pueda haber ocurrido por simple casualidad. Cuanto menor sea el valor p, mayor será la significancia estadística de la diferencia observada. Los valores p ofrecen una alternativa a los niveles de confianza preestablecidos para pruebas de hipótesis, lo que permite comparar resultados de diferentes pruebas.

Un Ejemplo de Prueba T y Valores p utilizando Python

Sumérgete en un ejemplo práctico de Python donde aplicamos una Prueba T y calculamos Valores p en un escenario de prueba A/B. Generaremos datos que asignen montos de pedidos de clientes a los grupos A y B, siendo B ligeramente mayor.

import numpy as np
from scipy import stats
 
A = np.random.normal(25.0, 5.0, 10000)
B = np.random.normal(26.0, 5.0, 10000)
stats.ttest_ind(A, B)

La salida podría verse así:

Ttest_indResult(statistic=-14.254472262404287, pvalue=7.056165380302005e-46)

Aquí, el estadístico t es una medida de la diferencia entre los dos conjuntos, y el valor p refleja la probabilidad de una observación que se encuentra en valores t extremos. Si comparamos el mismo conjunto consigo mismo, obtendremos un estadístico t de 0 y un valor p de 1, lo que respalda la hipótesis nula.

stats.ttest_ind(A, A)

Resultado:

Ttest_indResult(statistic=0.0, pvalue=1.0)

La significancia del valor p es subjetiva, y como todo es una cuestión de probabilidad, nunca podemos afirmar definitivamente que los resultados de un experimento sean "significativos".

Las Ventajas de Utilizar la Prueba T

En conclusión, las Pruebas T ofrecen varias ventajas:

Requieren solo datos limitados para pruebas precisas.
Su fórmula es simple y fácil de entender.
Su resultado se puede interpretar fácilmente.
Son rentables, ya que eliminan la necesidad de pruebas costosas de estrés o calidad.

Al aprovechar Python para nuestro análisis estadístico, podemos utilizar de manera efectiva las Pruebas T y los Valores p para comprender e interpretar mejor nuestros datos, tomando decisiones más informadas.

¿Quieres crear visualizaciones de datos rápidamente en Python?

PyGWalker es un proyecto de código abierto en Python que puede ayudar a acelerar el flujo de trabajo de análisis y visualización de datos directamente en entornos basados en Jupyter Notebook.

PyGWalker (opens in a new tab) convierte tu DataFrame de Pandas (o DataFrame de Polars) en una interfaz de usuario "visual" donde puedes arrastrar y soltar variables para crear gráficos con facilidad. Simplemente usa el siguiente código:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Puedes ejecutar PyGWalker ahora mismo con estos cuadernos en línea:

¡Y no olvides darnos una ⭐️ en GitHub!

Ejecutar PyGWalker en Kaggle Notebook (opens in a new tab)	Ejecutar PyGWalker en Google Colab (opens in a new tab)	Darle una ⭐️ a PyGWalker en GitHub (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

Streamlit Datetime Slider - A Step-by-Step Introduction Text Cleaning in Python: Effective Data Cleaning Tutorial