PreProcesado de Datos

Introducción

Tenemos una serie de datos, ya observados, la idea es suministrar estos datos al machine-learning y la máquina va intentar aprender rasgos y patrones a partir de las variables independientes de las distintas categorías y los rasgos númericos que definen las observaciones de nuestros usuarios, para intentar definir una variable dependiente.

Notas Python y R

  • Cambiar formato decimales en spider por 0f, si no obtendremos los números en anotación científica.
  • Python inicia a contar desde 0
  • R inicia a contar desde 1

Variables Machine Learning

  • Variables independientes → Son las variables que le daremos al algoritmo para intentar predecir.
  • Variables dependientes → Es la variable que queremos predecir.

Datos Desconocidos

Cuando nos encontramos con ausencia de valores podemos optar por introducir la media o la moda de dicha columna, siempre será mejor esto que poner ese valor a 0.

Datos Categóricos

Se tratan de esos valores que su columna en vez de tener una númerico contiene un valor para catalogar o clasificar un usuario.

  • Variable dummy → traducir una variable a variable categorica sin orden. La variable dummy clasificada en activa o no activa.

Es decir tener una columna con Provincias, 3 en este ejemplo (Cataluña,Valencia y Madrid), si lo hiciéramos como una variable ordinal o categórica el resultado no sería correcto, ya que el valor de los números tendría un efecto que no queremos en nuestro algoritmo, el 1 va antes que el 2. Que hace nuestra variable dummy, crea una tabla con las columnas según este ejemplo tres, en cada fila obtendremos un 1 en la provincia que pertenezca a dicha fila y un 0 para el resto. De esta forma nos olvidamos de los valores ordinales obteniendo un resultado más óptimo en  nuestro algoritmo de machine-learning.

Set de entrenamiento y Set de Test

Hover fitting → problema que hay que intentar evitar. El algoritmo de machine-learning no tiene comparaciones suficientes y aprende los datos de memoria

  • 70% o 80% para entrenamiento
  • 20% 0 30% para testing

Escalado de datos

Diferencias de rango de valores, ejemplo edad(27) y salarios(51000). El efecto de la edad pasaría inadvertido en nuestro algoritmo de machine learning.
Si tenemos una variable cuyo rango de valor es muy superior a las otras, podría ser un problema porque las variables de menor rango podrían pasar inadvertidas o no tener importancia.

  • Normalización de valores menor valor -1 mayor valor 1: Standarización o Normalización
  • Standarización → Permite aglutinar valores en torno a la media
  • Normalización → El más pequeño es 0 el mayor es 1

Normalizacion.png

Seguridad informática, cositas que todas deberíamos conocer

En RomSolutions creemos firmemente que la mejor forma de mantener nuestros servicios, correos y comunicaciones seguras es la formación y el conocimiento. Por eso en esta entrada os dejamos con algunas cositas que todo el mundo debería saber hoy en día.

Fundamentos en lo que se basa la ingeniería social.

  • A todos nos gusta ayudar a los otros.
  • No nos gusta crear problemas a decir que no.
  • La primera impresión hacia la otra persona siempre es de confianza.
  • A todo el mundo le gusta que lo avalen.

Falsas alarmas (HOAX)

  • El objetivo principal de las HOAX es conseguir tantas direcciones electrónicas como sea posible.
  • La publicidad fraudulenta por medio de mensajería instantánea se llama SPIM,es decir, el ‘SPAM’ en servicios como WhatsApp, Telegram, Facebook Messenger o Signal.

 Medidas ha seguir para protegerse de la pesca (phishing)

  • Ante cualquier duda lo primero que se ha de hacer es mirar la procedencia del correo, esto es un claro indicador ya que normalmente suelen usar correos extraños y dinámicos.
  • No hacer caso de ningún correo electrónico que pida datos personales.
  • No acceder nunca a la web de banco a través de enlaces de correo.
  • Utilizar filtros de correo.

Medidas para minimizar los efectos del correo basura:

  • NO contestar nunca los correos basura.
  • No pulsar sobre la imagen de los correos basura.
  • Tener cuidado de dar la dirección de correo.
  • Utilizar diferentes cuentas de correo.
  • Utilizar una dirección poco identificable.
  • No publicar la dirección de correo.

Correo basura (spam) es el nombre genérico que se le da a cualquier tipo de comunicación no deseada y realizada de manera electrónica.

Un detector (Sniffer) es cualquier programa que permita la monitorización y el análisis de paquetes de información que circulan por una red.

Dos estrategias que se siguen para evitar notificaciones masivas:

  • Establecer dependencias entre los servicios.
  • Establecer un servicio que indica si el equipo esta activo.

Es recomendable firmar electrónicamente los ficheros de registro de las aplicaciones para detectar la manipulación.