2020-09-17 – Blog Romsolutions

Introducción

Tenemos una serie de datos, ya observados, la idea es suministrar estos datos al machine-learning y la máquina va intentar aprender rasgos y patrones a partir de las variables independientes de las distintas categorías y los rasgos númericos que definen las observaciones de nuestros usuarios, para intentar definir una variable dependiente.

Notas Python y R

Cambiar formato decimales en spider por 0f, si no obtendremos los números en anotación científica.
Python inicia a contar desde 0
R inicia a contar desde 1

Variables Machine Learning

Variables independientes → Son las variables que le daremos al algoritmo para intentar predecir.
Variables dependientes → Es la variable que queremos predecir.

Datos Desconocidos

Cuando nos encontramos con ausencia de valores podemos optar por introducir la media o la moda de dicha columna, siempre será mejor esto que poner ese valor a 0.

Datos Categóricos

Se tratan de esos valores que su columna en vez de tener una númerico contiene un valor para catalogar o clasificar un usuario.

Variable dummy → traducir una variable a variable categorica sin orden. La variable dummy clasificada en activa o no activa.

Es decir tener una columna con Provincias, 3 en este ejemplo (Cataluña,Valencia y Madrid), si lo hiciéramos como una variable ordinal o categórica el resultado no sería correcto, ya que el valor de los números tendría un efecto que no queremos en nuestro algoritmo, el 1 va antes que el 2. Que hace nuestra variable dummy, crea una tabla con las columnas según este ejemplo tres, en cada fila obtendremos un 1 en la provincia que pertenezca a dicha fila y un 0 para el resto. De esta forma nos olvidamos de los valores ordinales obteniendo un resultado más óptimo en nuestro algoritmo de machine-learning.

Set de entrenamiento y Set de Test

Hover fitting → problema que hay que intentar evitar. El algoritmo de machine-learning no tiene comparaciones suficientes y aprende los datos de memoria

70% o 80% para entrenamiento
20% 0 30% para testing

Escalado de datos

Diferencias de rango de valores, ejemplo edad(27) y salarios(51000). El efecto de la edad pasaría inadvertido en nuestro algoritmo de machine learning.
Si tenemos una variable cuyo rango de valor es muy superior a las otras, podría ser un problema porque las variables de menor rango podrían pasar inadvertidas o no tener importancia.

Normalización de valores menor valor -1 mayor valor 1: Standarización o Normalización
Standarización → Permite aglutinar valores en torno a la media
Normalización → El más pequeño es 0 el mayor es 1

En RomSolutions creemos firmemente que la mejor forma de mantener nuestros servicios, correos y comunicaciones seguras es la formación y el conocimiento. Por eso en esta entrada os dejamos con algunas cositas que todo el mundo debería saber hoy en día.

Fundamentos en lo que se basa la ingeniería social.

A todos nos gusta ayudar a los otros.
No nos gusta crear problemas a decir que no.
La primera impresión hacia la otra persona siempre es de confianza.
A todo el mundo le gusta que lo avalen.

Falsas alarmas (HOAX)

El objetivo principal de las HOAX es conseguir tantas direcciones electrónicas como sea posible.
La publicidad fraudulenta por medio de mensajería instantánea se llama SPIM,es decir, el ‘SPAM’ en servicios como WhatsApp, Telegram, Facebook Messenger o Signal.

Medidas ha seguir para protegerse de la pesca (phishing)

Ante cualquier duda lo primero que se ha de hacer es mirar la procedencia del correo, esto es un claro indicador ya que normalmente suelen usar correos extraños y dinámicos.
No hacer caso de ningún correo electrónico que pida datos personales.
No acceder nunca a la web de banco a través de enlaces de correo.
Utilizar filtros de correo.

Medidas para minimizar los efectos del correo basura:

NO contestar nunca los correos basura.
No pulsar sobre la imagen de los correos basura.
Tener cuidado de dar la dirección de correo.
Utilizar diferentes cuentas de correo.
Utilizar una dirección poco identificable.
No publicar la dirección de correo.

Correo basura (spam) es el nombre genérico que se le da a cualquier tipo de comunicación no deseada y realizada de manera electrónica.

Un detector (Sniffer) es cualquier programa que permita la monitorización y el análisis de paquetes de información que circulan por una red.

Dos estrategias que se siguen para evitar notificaciones masivas:

Establecer dependencias entre los servicios.
Establecer un servicio que indica si el equipo esta activo.

Es recomendable firmar electrónicamente los ficheros de registro de las aplicaciones para detectar la manipulación.

PreProcesado de Datos