Entrenamiento y Evaluación de Modelos
Relacionado: CENT. 12 Introduccion a la Criptografiaseguridad. seguridad web y auditoria. 2025 04 20 Computacion Cuantica y Criptografia Post Cuantica. 2025 03 27 charla seguridad APIs OAUTH20.
Oversampling y Undersampling
- Oversampling: Técnica utilizada para aumentar la cantidad de ejemplos de la clase minoritaria en datasets desbalanceados. Ejemplo común: SMOTE (Synthetic Minority Oversampling Technique), que genera ejemplos sintéticos interpolando entre puntos reales de la clase minoritaria.
- Undersampling: Reduce la cantidad de ejemplos de la clase mayoritaria, equilibrando el dataset al eliminar muestras. Esto puede llevar a pérdida de información si no se hace correctamente.
Train-Test Split
Dividir los datos en conjuntos de entrenamiento y prueba es esencial para evaluar el desempeño del modelo. En tu caso:
- Se utilizarán 20 datos para evaluación (test set), mientras que el resto serán los datos de entrenamiento (train set). Esto asegura que el modelo se pruebe en datos no vistos previamente.
- El subconjunto de prueba no debe tocarse durante el entrenamiento para evitar sesgos.
Fold Cross-Validation
El método k-fold cross-validation divide los datos en k subconjuntos (folds):
- Se entrena el modelo en
k-1folds y se evalúa en el fold restante. - Este proceso se repite
kveces, cambiando el fold de evaluación en cada iteración. - El resultado final es el promedio de las métricas en los
kfolds, ofreciendo una evaluación más robusta.
Métricas de Evaluación
R-cuadrado (R²)
- Indica el porcentaje de varianza en los datos que el modelo es capaz de explicar.
- Valor cercano a 1: Buen ajuste.
- Valor cercano a 0: El modelo no explica bien los datos.
Matriz de Confusión
La matriz de confusión mide el desempeño de un modelo de clasificación, dividiendo las predicciones en cuatro categorías:
- True Positives (TP): Predicciones correctas de la clase positiva.
- False Positives (FP): Predicciones incorrectas como positivas.
- True Negatives (TN): Predicciones correctas de la clase negativa.
- False Negatives (FN): Predicciones incorrectas como negativas.
Precisión y Exactitud
- Precisión: Proporción de predicciones positivas correctas entre todas las predicciones positivas.
Fórmula: Precisioˊn=TPTP+FP\text{Precisión} = \frac{TP}{TP + FP} - Exactitud (Accuracy): Proporción de predicciones correctas entre todas las predicciones.
Fórmula: Exactitud=TP+TNTP+TN+FP+FN\text{Exactitud} = \frac{TP + TN}{TP + TN + FP + FN}
Curva ROC (Receiver Operating Characteristic)
- Muestra la relación entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) para diferentes umbrales.
- El AUC (Área Bajo la Curva) es una métrica que resume el desempeño del modelo:
- AUC cercano a 1: Modelo excelente.
- AUC = 0.5: Modelo no mejor que el azar.
Equilibrio entre Sesgo y Varianza
- Sesgo alto: Modelo demasiado simple (no captura la complejidad de los datos, underfitting).
- Varianza alta: Modelo demasiado complejo (se ajusta demasiado al conjunto de entrenamiento, overfitting).
- Objetivo: Encontrar un equilibrio entre la complejidad del modelo y el error, reduciendo tanto el sesgo como la varianza para mejorar el desempeño en la práctica.
Modelos Basados en Instancias y Basados en Modelos
Basados en Instancias:
- Utilizan directamente los datos de entrenamiento para hacer predicciones.
- Ejemplo: k-Nearest Neighbors (kNN).
- Ideal para bases de datos vectorizadas, donde se calcula la distancia entre puntos para clasificar o predecir.
Basados en Modelos:
- Construyen un modelo general a partir de los datos de entrenamiento.
- Ejemplo: Regresión lineal, árboles de decisión, redes neuronales.
Outliers en Modelos Basados en Valores
- Los modelos basados en regresión o clasificación pueden verse afectados por outliers, que son valores extremos que no siguen la tendencia general de los datos.
- Técnicas para manejar outliers:
- Eliminación: Si se confirma que son errores de muestreo.
- Transformaciones: Aplicar logaritmos o escalado robusto para reducir su impacto.
Árboles de Decisión y Entropía
En los árboles de decisión, la entropía se utiliza para medir la impureza de un nodo:
- Entropía alta: Mezcla de clases (mala clasificación).
- Entropía baja: Dominancia de una sola clase (buena clasificación).
El objetivo es reducir la entropía en cada división del árbol.
Modelos Ensemble: Bagging y Boosting
Bagging (Bootstrap Aggregating):
- Combina varios modelos independientes para reducir la varianza.
- Ejemplo: Random Forest, que genera múltiples árboles de decisión y promedia sus predicciones.
Boosting:
- Combina modelos secuenciales, donde cada modelo corrige los errores del anterior.
- Ejemplo: Gradient Boosting, AdaBoost.
r2 = 1 es bueno puede que no generalice la curva de ro tiene que ser una curva
metanodo agrupa varios nodos
hay que utilizar particion y para poder utilizar unos datos dataset balanceado? enlaces de tomen ?