Skip to content

PreProcesado de Datos

Introducción

Tenemos una serie de datos, ya observados, la idea es suministrar estos datos al machine-learning y la máquina va intentar aprender rasgos y patrones a partir de las variables independientes de las distintas categorías y los rasgos númericos que definen las observaciones de nuestros usuarios, para intentar definir una variable dependiente.

Notas Python y R

  • Cambiar formato decimales en spider por 0f, si no obtendremos los números en anotación científica.
  • Python inicia a contar desde 0
  • R inicia a contar desde 1

Variables Machine Learning

  • Variables independientes → Son las variables que le daremos al algoritmo para intentar predecir.
  • Variables dependientes → Es la variable que queremos predecir.

Datos Desconocidos

Cuando nos encontramos con ausencia de valores podemos optar por introducir la media o la moda de dicha columna, siempre será mejor esto que poner ese valor a 0.

Datos Categóricos

Se tratan de esos valores que su columna en vez de tener una númerico contiene un valor para catalogar o clasificar un usuario.

  • Variable dummy → traducir una variable a variable categorica sin orden. La variable dummy clasificada en activa o no activa.

Es decir tener una columna con Provincias, 3 en este ejemplo (Cataluña,Valencia y Madrid), si lo hiciéramos como una variable ordinal o categórica el resultado no sería correcto, ya que el valor de los números tendría un efecto que no queremos en nuestro algoritmo, el 1 va antes que el 2. Que hace nuestra variable dummy, crea una tabla con las columnas según este ejemplo tres, en cada fila obtendremos un 1 en la provincia que pertenezca a dicha fila y un 0 para el resto. De esta forma nos olvidamos de los valores ordinales obteniendo un resultado más óptimo en  nuestro algoritmo de machine-learning.

Set de entrenamiento y Set de Test

Hover fitting → problema que hay que intentar evitar. El algoritmo de machine-learning no tiene comparaciones suficientes y aprende los datos de memoria

  • 70% o 80% para entrenamiento
  • 20% 0 30% para testing

Escalado de datos

Diferencias de rango de valores, ejemplo edad(27) y salarios(51000). El efecto de la edad pasaría inadvertido en nuestro algoritmo de machine learning.
Si tenemos una variable cuyo rango de valor es muy superior a las otras, podría ser un problema porque las variables de menor rango podrían pasar inadvertidas o no tener importancia.

  • Normalización de valores menor valor -1 mayor valor 1: Standarización o Normalización
  • Standarización → Permite aglutinar valores en torno a la media
  • Normalización → El más pequeño es 0 el mayor es 1

Normalizacion.png