Entrenamiento y Evaluación de Modelos

Relacionado: CENT. 12 Introduccion a la Criptografiaseguridad. seguridad web y auditoria. 2025 04 20 Computacion Cuantica y Criptografia Post Cuantica. 2025 03 27 charla seguridad APIs OAUTH20.

Oversampling y Undersampling

Oversampling: Técnica utilizada para aumentar la cantidad de ejemplos de la clase minoritaria en datasets desbalanceados. Ejemplo común: SMOTE (Synthetic Minority Oversampling Technique), que genera ejemplos sintéticos interpolando entre puntos reales de la clase minoritaria.
Undersampling: Reduce la cantidad de ejemplos de la clase mayoritaria, equilibrando el dataset al eliminar muestras. Esto puede llevar a pérdida de información si no se hace correctamente.

Train-Test Split

Dividir los datos en conjuntos de entrenamiento y prueba es esencial para evaluar el desempeño del modelo. En tu caso:

Se utilizarán 20 datos para evaluación (test set), mientras que el resto serán los datos de entrenamiento (train set). Esto asegura que el modelo se pruebe en datos no vistos previamente.
El subconjunto de prueba no debe tocarse durante el entrenamiento para evitar sesgos.

Fold Cross-Validation

El método k-fold cross-validation divide los datos en k subconjuntos (folds):

Se entrena el modelo en k-1 folds y se evalúa en el fold restante.
Este proceso se repite k veces, cambiando el fold de evaluación en cada iteración.
El resultado final es el promedio de las métricas en los k folds, ofreciendo una evaluación más robusta.

Métricas de Evaluación

R-cuadrado (R²)

Indica el porcentaje de varianza en los datos que el modelo es capaz de explicar.
Valor cercano a 1: Buen ajuste.
Valor cercano a 0: El modelo no explica bien los datos.

Matriz de Confusión

La matriz de confusión mide el desempeño de un modelo de clasificación, dividiendo las predicciones en cuatro categorías:

True Positives (TP): Predicciones correctas de la clase positiva.
False Positives (FP): Predicciones incorrectas como positivas.
True Negatives (TN): Predicciones correctas de la clase negativa.
False Negatives (FN): Predicciones incorrectas como negativas.

Precisión y Exactitud

Precisión: Proporción de predicciones positivas correctas entre todas las predicciones positivas.
Fórmula: Precisioˊn=TPTP+FP\text{Precisión} = \frac{TP}{TP + FP}
Exactitud (Accuracy): Proporción de predicciones correctas entre todas las predicciones.
Fórmula: Exactitud=TP+TNTP+TN+FP+FN\text{Exactitud} = \frac{TP + TN}{TP + TN + FP + FN}

Curva ROC (Receiver Operating Characteristic)

Muestra la relación entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) para diferentes umbrales.
El AUC (Área Bajo la Curva) es una métrica que resume el desempeño del modelo:
- AUC cercano a 1: Modelo excelente.
- AUC = 0.5: Modelo no mejor que el azar.

Equilibrio entre Sesgo y Varianza

Sesgo alto: Modelo demasiado simple (no captura la complejidad de los datos, underfitting).
Varianza alta: Modelo demasiado complejo (se ajusta demasiado al conjunto de entrenamiento, overfitting).
Objetivo: Encontrar un equilibrio entre la complejidad del modelo y el error, reduciendo tanto el sesgo como la varianza para mejorar el desempeño en la práctica.

Modelos Basados en Instancias y Basados en Modelos

Basados en Instancias:

Utilizan directamente los datos de entrenamiento para hacer predicciones.
Ejemplo: k-Nearest Neighbors (kNN).
- Ideal para bases de datos vectorizadas, donde se calcula la distancia entre puntos para clasificar o predecir.

Basados en Modelos:

Construyen un modelo general a partir de los datos de entrenamiento.
Ejemplo: Regresión lineal, árboles de decisión, redes neuronales.

Outliers en Modelos Basados en Valores

Los modelos basados en regresión o clasificación pueden verse afectados por outliers, que son valores extremos que no siguen la tendencia general de los datos.
Técnicas para manejar outliers:
1. Eliminación: Si se confirma que son errores de muestreo.
2. Transformaciones: Aplicar logaritmos o escalado robusto para reducir su impacto.

Árboles de Decisión y Entropía

En los árboles de decisión, la entropía se utiliza para medir la impureza de un nodo:

Entropía alta: Mezcla de clases (mala clasificación).
Entropía baja: Dominancia de una sola clase (buena clasificación).
El objetivo es reducir la entropía en cada división del árbol.

Modelos Ensemble: Bagging y Boosting

Bagging (Bootstrap Aggregating):

Combina varios modelos independientes para reducir la varianza.
Ejemplo: Random Forest, que genera múltiples árboles de decisión y promedia sus predicciones.

Boosting:

Combina modelos secuenciales, donde cada modelo corrige los errores del anterior.
Ejemplo: Gradient Boosting, AdaBoost.

r2 = 1 es bueno puede que no generalice la curva de ro tiene que ser una curva

metanodo agrupa varios nodos

hay que utilizar particion y para poder utilizar unos datos dataset balanceado? enlaces de tomen ?

Quartz 4

Explorer

Entrenamiento y Evaluación de Modelos

Entrenamiento y Evaluación de Modelos

Oversampling y Undersampling

Train-Test Split

Fold Cross-Validation

Métricas de Evaluación

R-cuadrado (R²)

Matriz de Confusión

Precisión y Exactitud

Curva ROC (Receiver Operating Characteristic)

Equilibrio entre Sesgo y Varianza

Modelos Basados en Instancias y Basados en Modelos

Basados en Instancias:

Basados en Modelos:

Outliers en Modelos Basados en Valores

Árboles de Decisión y Entropía

Modelos Ensemble: Bagging y Boosting

Bagging (Bootstrap Aggregating):

Boosting:

Graph View

Table of Contents

Backlinks