kahoot

caracteristica: entradas de un ml

clasificacion: saber si un correo es spam o no

regresion: estimaar el numero de ventas, predecir el precio de una casa. Regresion lineal: ajustar los datos

regresion: predecir un valor numerico

no supervisados:

clustering: agrupar clientes segun sus similitudes. las etiquetas no se conocen previamente, son no supervisados.

No algoritmo de clasificacion: regrersion lineal

regresion lofistica: es de clasificacion

onehotencoder: variables texcto o categoriass, de forma numerica para tener numeros como entrada, variables sin orden (sexo de persona), mutualmente excluyentees para que seas dos columnas. para que no sea magnitud, solo presencia de categoria.

transformaciones mas comunes en fechas: extraer año, mes y dia. calcular duracion o anitguedad.

powertransformer: cuando los datos no estan normalmente distribuidos se aplica.

EDA: (((((((

  • explorar relaciones entre variables

  • entender los datos dantews de modelar

  • identificar valores faltants y outliers

Utilizar el conjunto de vallidacion o pruebas durante la fase de prepocesaimento puede ocasionar overfitting.

Overfitting:

distribucion guasiana:

SVM:

Random forest: