Introducción
Tenemos una serie de datos, ya observados, la idea es suministrar estos datos al machine-learning y la máquina va intentar aprender rasgos y patrones a partir de las variables independientes de las distintas categorías y los rasgos númericos que definen las observaciones de nuestros usuarios, para intentar definir una variable dependiente.
Notas Python y R
- Cambiar formato decimales en spider por 0f, si no obtendremos los números en anotación científica.
- Python inicia a contar desde 0
- R inicia a contar desde 1
Variables Machine Learning
- Variables independientes → Son las variables que le daremos al algoritmo para intentar predecir.
- Variables dependientes → Es la variable que queremos predecir.
Datos Desconocidos
Cuando nos encontramos con ausencia de valores podemos optar por introducir la media o la moda de dicha columna, siempre será mejor esto que poner ese valor a 0.
Datos Categóricos
Se tratan de esos valores que su columna en vez de tener una númerico contiene un valor para catalogar o clasificar un usuario.
- Variable dummy → traducir una variable a variable categorica sin orden. La variable dummy clasificada en activa o no activa.
Es decir tener una columna con Provincias, 3 en este ejemplo (Cataluña,Valencia y Madrid), si lo hiciéramos como una variable ordinal o categórica el resultado no sería correcto, ya que el valor de los números tendría un efecto que no queremos en nuestro algoritmo, el 1 va antes que el 2. Que hace nuestra variable dummy, crea una tabla con las columnas según este ejemplo tres, en cada fila obtendremos un 1 en la provincia que pertenezca a dicha fila y un 0 para el resto. De esta forma nos olvidamos de los valores ordinales obteniendo un resultado más óptimo en nuestro algoritmo de machine-learning.
Set de entrenamiento y Set de Test
Hover fitting → problema que hay que intentar evitar. El algoritmo de machine-learning no tiene comparaciones suficientes y aprende los datos de memoria
- 70% o 80% para entrenamiento
- 20% 0 30% para testing
Escalado de datos
Diferencias de rango de valores, ejemplo edad(27) y salarios(51000). El efecto de la edad pasaría inadvertido en nuestro algoritmo de machine learning.
Si tenemos una variable cuyo rango de valor es muy superior a las otras, podría ser un problema porque las variables de menor rango podrían pasar inadvertidas o no tener importancia.
- Normalización de valores menor valor -1 mayor valor 1: Standarización o Normalización
- Standarización → Permite aglutinar valores en torno a la media
- Normalización → El más pequeño es 0 el mayor es 1