Estadistica Practica Para Ciencia De Datos Y Python High Quality [exclusive]
Una correlación alta (medida por el coeficiente de Pearson entre -1 y 1) no implica que una variable cause la otra. Es indispensable evaluar el contexto de negocio y variables exógenas (confusoras). Regresión Lineal Múltiple con Statsmodels
# Plot fig, axes = plt.subplots(1, 2, figsize=(12,4)) sns.histplot(data, kde=True, ax=axes[0]) sns.boxplot(y=data, ax=axes[1]) plt.suptitle(f"numeric_col Distribution") plt.show() Una correlación alta (medida por el coeficiente de
H0 (no hay diferencia) vs. H1 (hay diferencia). H1 (hay diferencia)
# Cargar datos datos = pd.read_csv('datos.csv') Distribuciones de Probabilidad Fundamentales
# Filtrar outliers outliers = data[(data['salario'] < limite_inferior) | (data['salario'] > limite_superior)] print(f"Cantidad de outliers detectados: len(outliers)")
residuals = y - model.predict(X) stats.normaltest(residuals) # p > 0.05 ok
import numpy as np import pandas as pd import scipy.stats as stats # Generar datos sintéticos con outliers np.random.seed(42) data = np.concatenate([np.random.normal(30, 5, 100), np.random.normal(100, 2, 5)]) df = pd.DataFrame(data, columns=['Variable']) # Cálculo de estadísticas descriptivas de alta calidad stats_summary = 'Media': df['Variable'].mean(), 'Mediana': df['Variable'].median(), 'Desviación Estándar': df['Variable'].std(), 'IQR': stats.iqr(df['Variable']), 'Asimetría (Skewness)': df['Variable'].skew(), 'Curtosis': df['Variable'].kurt() for k, v in stats_summary.items(): print(f"k: v:.4f") Use code with caution. 2. Distribuciones de Probabilidad Fundamentales
