Skip to content

Cómo aumentar el rendimiento de sus análisis utilizando técnicas de aprendizaje automático

Image Source: FreeImages

Es posible que ya haya oído hablar del aprendizaje automático y de otras tecnologías relacionadas con la Inteligencia Artificial (IA). Pues bien, este artículo trata de aumentar la eficacia de sus análisis con técnicas de aprendizaje automático. Veamos cómo puede utilizar el aprendizaje automático en su beneficio. Supongamos que usted es una empresa que necesita comprender el coste y el impacto de varios tipos de inversiones realizadas por sus clientes y socios y elaborar un análisis adecuado teniendo en cuenta las diversas contingencias. Si quiere ser más eficaz en sus actividades de marketing, necesita adoptar nuevas y mejores estrategias de marketing que incluyan el Machine Learning . Puede leer más sobre esto en profundidad en nuestro artículo sobre Cómo aumentar la eficacia de su análisis utilizando técnicas de aprendizaje automático . Veamos cómo puede utilizar las técnicas de Machine Learning para aumentar la eficacia de sus análisis.

¿Qué es el aprendizaje automático?

El aprendizaje automático es una rama de la algoritmia que permite a los programas aprender a través de la experiencia y luego aplicar ese conocimiento a nuevos problemas. En este caso, el algoritmo de aprendizaje automático se entrena con datos de muestra para aprender de ellos sin necesidad de escribir código. Esta técnica da lugar a programas que son mucho más fáciles de mantener, mantienen un solo lugar para el almacenamiento de datos y son lo suficientemente generales como para manejar una amplia variedad de problemas.

Cómo aumentar el rendimiento de sus análisis utilizando técnicas de aprendizaje automático

El aprendizaje automático es una técnica que permite a los programas aprender a través de la experiencia y luego aplicar ese conocimiento a nuevos problemas. Esta técnica da lugar a programas que son mucho más fáciles de mantener, mantienen un solo lugar para el almacenamiento de datos y son lo suficientemente generales como para manejar una amplia variedad de problemas. Para medir el rendimiento de sus análisis, utilice una herramienta de supervisión del rendimiento como Metrics Monitor o Streamline para recopilar datos que permitan analizar e informar sobre el estado de sus datos. A continuación, utilice los datos para mejorar sus algoritmos.

Las ventajas de la IA

El aprendizaje automático tiene el potencial de mejorar la eficiencia y el impacto de muchas actividades diferentes. Por ejemplo, puede mejorar el rendimiento del análisis de varios tipos de inversiones realizadas por sus clientes y socios. También puede mejorar su capacidad para comprender y predecir la demanda de los clientes y responder adecuadamente a ella. El aprendizaje automático también puede mejorar su capacidad para crear ofertas y campañas a medida basadas en las necesidades y el comportamiento de sus clientes. Por ejemplo, puede crear una campaña que destaque las ventajas de la IA y luego ayudar a sus clientes a entender el impacto de su elección de ofertas asistidas por la IA. O puede crear una campaña que destaque las ventajas de la IA y luego muestre cómo las herramientas asistidas por la IA pueden utilizarse para reducir las frustraciones de los clientes.

Lo que los algoritmos de aprendizaje automático pueden hacer por sus análisis

Hay una serie de algoritmos de aprendizaje automático que puede utilizar en sus análisis. A continuación hemos enumerado algunos de los más comunes. RNN – El entrenamiento de redes neuronales regulares es el enfoque más común en el aprendizaje automático. Esta técnica utiliza neuronas regulares y una representación interna para producir patrones a gran escala. Se entrena con un gran número de ejemplos para aprender. El número de tareas que puede manejar es limitado. Aprendizaje profundo – El aprendizaje profundo es el enfoque más antiguo del aprendizaje automático. Se basa en redes neuronales descentralizadas y se utiliza para realizar tareas como el reconocimiento de imágenes y el reconocimiento del habla. SVM – El modelo de árbol de decisión estándar utilizado en el aprendizaje automático. También se conoce como «hembra pegajosa». Se basa en atractores en forma de Y y representa las tareas como puntos y luego como incertidumbres. Otras herramientas que puedes utilizar para entrenar tu modelo de IA son los algoritmos tradicionales, como RNN o SVM. Si quieres utilizar otro enfoque, también puedes utilizar redes neuronales para entrenar tu modelo de IA. Cuando se utilizan redes neuronales, cada capa es una representación independiente de los datos de entrada. Este enfoque le permite entrenar sus modelos de IA con un gran número de ejemplos para aumentar su precisión.

¿Qué datos se necesitan para apoyar un algoritmo de aprendizaje automático en una aplicación?

Puede utilizar cualquier conjunto de datos que admita el aprendizaje automático para crear un modelo de aprendizaje automático. Los siguientes son algunos ejemplos de conjuntos de datos que puede utilizar en sus campañas de aprendizaje automático: – Datos de compra del cliente. Esto incluye el código de pedido, el precio y la cantidad comprada. – Datos del comportamiento del cliente. Esto incluye su comportamiento de compra, incluyendo si compraron el producto al por mayor, o si compraron el producto en una sola pieza. – Otros datos. Incluye datos de asesoramiento, datos de campaña y datos de marketing.

Conclusión

Se espera que el aprendizaje automático desempeñe un papel importante en las tecnologías de aprendizaje automático e IA en un futuro próximo. Actualmente se utiliza para entrenar redes neuronales en grandes cantidades de datos para aprender de ellos. A continuación, hablaremos de cómo puede utilizar el aprendizaje automático en su beneficio para aumentar el rendimiento de sus análisis.

Cómo aumentar el rendimiento de sus análisis con técnicas de aprendizaje automático

– Coloque sus datos en un lugar al que pueda acceder fácilmente. De este modo, tendrá un acceso fácil y constante a los datos. – Asegúrese de que los datos están ordenados según alguna regla común. Esto le permite crear datos limpios. – Utilice funciones para crear marcos de datos. Esto le permite mostrar los datos en tablas o gráficos. – Utilice gráficos para mostrar la información. Esto puede ser una muestra visual o métrica. – Configure una campaña de Hora de Aventuras. Los datos seguirán al héroe a través de su viaje y se utilizarán como un marco de datos para representar su progreso. – Concluir las campañas con resultados positivos. Los marcos de datos son una gran manera de compartir los resultados con la comunidad.

Los beneficios de la IA

El aprendizaje automático puede mejorar la eficiencia y el impacto de muchas actividades diferentes. Por ejemplo, puede mejorar la eficiencia y el impacto del análisis de varios tipos de inversiones realizadas por sus clientes y socios. También puede mejorar su capacidad para comprender y predecir la demanda de los clientes y responder adecuadamente a ella. El aprendizaje automático también puede utilizarse para crear ofertas y campañas a medida basadas en las necesidades y el comportamiento de sus clientes. Por ejemplo, puede crear una campaña que destaque las ventajas de la IA y, a continuación, muestre cómo pueden utilizarse las herramientas asistidas por la IA para reducir las frustraciones de los clientes.

Reflexiones acerca del Posicionamiento web 2021

Posicinamiento SEO, El SERP
Posicinamiento SEO, El SERP

Reflexiones acerca del Posicionamiento Web

Hace ya años que tenemos empresarios cada vez más preocupados por su posicionamiento web y la apariencia de sus empresas en los principales buscadores.

Al igual que yo que llevo cerca de diez años estudiando las distintas formas de posicionamiento orgánico para empresas y sus productos o servicios. Como administrador de sistemas y programador, además de 17 años de experiencia como electricista, siempre he tenido otro punto de vista sobre la formación que debería tener alguien para ofrecer mejoras en nuestras web, ya que mi visión sobre la red siempre ha sido un conjunto gracias a las tres aptitudes, con el objetivo siempre de mejorar el posicionamiento web en las búsquedas de internet he continuado mi formación tanto en programación, como administración y Posicionamiento Web.

Y la verdad, si no tienes un buen equipo detrás, se me hace raro, que alguien que sabe soló de posicionamiento orgánico pueda recomendar ninguna mejora que salga de mejorar las cabeceras de la web, estrategia SEO de los textos, títulos y URL’s.

No lo veo revisando el incremento de gastos para mejorar las capacidades de un servidor, el utilizar o no utilizar WordPress para tú web o tú proyecto, así como en el uso de la web o herramienta a utilizar y la formación de quién la va ha utilizar. Hay tantos detalles en un servidor, su sistema operativo y su uso, que no se pueden dejar atrás y en manos de terceros.

Podemos tener la mejor estrategia SEO aplicada, pero si nuestra web tardá 6 segundos en cargar todo el trabajo no valdrá de nada, sí en nuestra web se hace difícil programar o publicar una serie de post, se nos hará un mundo este proceso. De que nos sirve tener un web hecha exclusivamente a código para nosotros, si luego no podemos tener un backend ameno y universal para facilitar a los editores la distintas publicaciones, la sincronización con redes sociales, automatización de sitemaps y utilizar las distintas herramientas que ya existen.

Un buen estratega SEO además de contar con experiencia en la visión de datos Analytics, controlar Google Search Console, tener un amplio conocimiento en vocabulario, ser una persona dinámica y adaptable a los cambios rápidos; Debe tener aptitudes y conocimientos de administración y programación, sino como crear campañas solventes y adaptables, como utilizar y dar justificaciones de nuestros servicios y servidores.

Un buen estratega SEO debería poder llevar tú máquina a trabajar al 100% de sus posibilidades.

Un buen estratega SEO debería ser capaz de crear un red de páginas y controlarla.

Un buen estratega SEO debe dar indicaciones claras y ser capaz de justificarlas.

Un buen estratega SEO debe tener conocimientos sobre machine-learning para poder tener otros puntos de vista, y es que, debe ser un DataScients debido a la gran cantidad de datos que debe manejar.

Un buen estratega SEO debe saber que herramientas utilizar en cada momento, ¿Estás seguro que tú problema es la competencia?. Primero asegurate de mostrar lo que quierés en la red y como lo estás mostrando actualmente.

El posicionamiento web, más concretamente el posicionamiento orgánico no aporta siempre las mejores estadísticas, el que trae un tráfico de calidad. Le mejora en el SERP no son tres puntos y miles de palabras clave, la mejora en el posicionamiento SEO consta de un conjunto, de un histórico y un trabajo que se aprecia con el tiempo y la constancia.

Ánimo y escuchen al Friki que tienen al lado.

Bosques aleatorios para regresión

Regresión con bosques aleatorios

Bosques aleatorios

Versión mejorada del árbol de regresión ya que es capaz de utilizar miles de árboles de regresión para obtener una mejor predicción.

Pasos a seguir

  1. Elegir un número aleatorio K de puntos de datos del conjunto de Entranamiento.
  2. Árbol de desición asociado a esos K puntos.
  3. Elegir el número de NTree de árboles que queremos construir y repetimos Paso 1 y Paso 2
  4. Cada uno de los árboles hace una predicción del valor Y, luego hacemos un promedio de esos NTree predicciones.

Árboles de decisión para Regresión Lineal

CART -> Classification and Regressión Tree

Una vez ejecutamos nuestro algoritmo árbol de decisión, el conjunto de datos de las variables independientes quedará dividido en segmentos.

Arbol de decision.png

Básicamente se fija en la entropia de los puntos para poder agruparlos, cada una de estas divisiones aporta una información realmente buena.

Arbol decision2.png

Podemos ver en verda la media de los segmentos y en la imagen de abajo el árbol de decisiones

Arbol decision3.png

 
 

Regresión con máquina de soporte vectorial

Regresión con máquina de soporte vectorial SVR

Sirven tanto para regresiones lineales como no lineales. La idea es ajustar una calle, he intentar mantener cuántas más obvervaciones posibles del conjunto de datos dentro de la calle, limitando unos márgenes máximos.

Hyper parámetro épsilon

La anchura del pasillo se controla mediante un hiper parámetro, épsilon. Cuánto mayor es ese valor, mayor es la anchura de la calle.

Objetivo

En la regresión lineal se intenta minimizar el error entre la predicción y los datos. En SVR el objetivo es que los errores no superen el umbral establecido.

Regresión Lineal Multiple

Restriciones de la Regresión Lineal

  1. Linealidad
  2. Homoceadasticidad
  3. Normalidad Multivariable
  4. Independencia de los errores
  5. Ausencia de multicolinealidad. El modelo es incapaz de distinguir los efectos de una variable dummy.

Variable Dummy

Cuando necesitemos construir un modelo con variables ficticias (variables dummy), hay que omitir uno de los factores, uno de los niveles de la variable ficticia. Es decir, si tenemos 100 países como variables ficticias, solo colocaríamos como dummy 99 en el modelo de regresión.

P-Valor

Que no es

  • El p-valor no es la probabilidad de que la afirmación sea cierta.
  • El p-valor no es la probabilidad de que la hipótesis nula sea cierta.

Nos indica que tan probable es obtener un resultado con una hipótesis nula verdadera.

[[1]]

Paso a paso en la regresión lineal multiple

Añadir todas las variables independientes

No, por dos razones:

  1. NO por añadir más variables vamos a tener más información. In Basura = Out Basura.
  2. Si el número de variables va creciendo hace díficil la explicación lógica del proceso.

5 métodos obtención de variables relevantes

Tenemos 5 métodos disponibles para obtener las variables importantes y que tendrán relevancia en el algoritmo de regresión lineal multiple.

Exhaustivo (All-in)

Metemos todas las variables en el modelo, razones por las que hacer esto:

  • Conocimiento previo de todas las variables. Todas son variables predictoras.
  • Por necesidad, nos obligan a utilizar todas las variables.
  • Preparación previa para realizar la eliminación hacia atrás.

Eliminación hacia atrás

  1. Selección del el nivel de significación en el modelo, normalmente SL=0.05
  2. Se calcula el modelo con todas las variables
  3. Se obtiene la variable predictoras con el p-valor más grande. Si P > SL, entonces pasamos al paso 4, sino vamos a fin.
  4. Se elimina la variable predictora.
  5. Reajuste del modelo sin dicha variable.

Con el nuevo modelo creado, las variables de ese tendrán una seria de p-valores y por tanto repetimos el paso 3, consideramos la variable predictora con p-valor más grande, si el p-valor es todavía mayor que el nivel de significación, se elimina y se reajusta el modelo otra vez.

Selección hacia adelante

  1. Seleccionamos un nivel de significación, pero en este caso será para entrar en el modelo.
  2. Ajustamos todos los modelos de regresión lineal simple. Elegimos el que tiene el menor p-valor.
  3. Conservamos esta variables y ajustamos todos los modelos con la variable extra añadida a la que ya tenga el modelo en ese momento.
  4. Consideramos la variable predictora con el menor p-valor. Si P < SL volvemos al paso 3.

Seguiremos sucesivamente añadiendo variables mientras el p-valor sean inferior al nivel de siginificación, en el caso que la variable que se acaba de añadir ya supere el SL, daremos por terminado el trabajo y conservaremos el modelo anterior como el correcto.

Eliminación bidireccional o regresión dual

  1. Seleccionamos dos niveles de significación para entrar y salir del modelo.
  2. Selección hacía delante p-valor < SLEnter
  3. Selección hacía atrás p-valor < SLStay
  4. No hay nuevas variables para entrar ni tampoco variables antiguas para salir

Comparaciones de puntos

  1. Seleccionar un criterio de la bondad de ajuste. Cuando un modelo será mejor que otro.
  2. Construir todos los Modelos: 2N – 1
  3. Selección del modelo con mejor criterio

OJO! -> 10 columnas de datos = 1023 modelos

Regresión Lineal Simple

Vamos a intentar predecir y crear un modelo lineal, regresión lineal simple. Buscará todas las rectas posibles y nos dirá cuál es la recta que más se acerca la distancia de la propia recta a los puntos de referencia.
Es la línea de tendencia que más se ajusta a los datos ofrecidos.

Variables

Categóricas

  • Nominales -> Rojo,verde,azul,… (Factores)
  • Ordinales -> Pequeño,Mediano,Grande, A,B,C (Tiene un orden)

Numéricas

  • Discretas -> 800 empleados (objetos que podemos contar sin usar decimales)
  • Continuas -> El peso, la altura, entran todo tipo de números.

La palabra regresión

LLamamos análisis de regresión al precio estadístico de estimar las relaciones que existen entre variables.
Se centra en estudiar las relaciones entre una variable dependiente de una o varias variables independientes.

Regresion.png

Regresión Lineal Simple

Regresion lineal.png

Lo que hará nuestro algoritmo de regresión lineal es sumar todas las diferencias, las rectas entre yî y ŷî, las elevará al cuadrado porque algunas serán positivas y otras negativas. De todas las rectas se que con aquella que minimiza los cuadrados de las diferencias entre el dato real y la predicción.

Modelos de predicción y clasificación Machine-Learning​

Machine Learning cuenta con distintos modelos ya sea para la predicción de datos como para la clasificación de estos. Os dejamos los modelos principales:

Regresión.

  • Regresión Lineal Simple
  • Regresión Lineal Multiple
  • Regresión Polinómica
  • Regresión con máquina de soporte vectorial
  • Árboles de decisión para la Regresión
  • Regresión con Bosques Aleatorios

Clasificación

  • Regresión Logística
  • K-Nearest  Neighbors K-NN
  • Support Vector Machine SVM
  • Kernel SVM
  • Navie Bayes
  • Árboles de decisión para clasificación
  • Clasificación con Bosques Aleatorios

Cada predicción o clasificación es especial y requiere de uno o varios modelos para poder llegar a una conclusión coherente.

Pronto os avanzaremos una breve explicación de cada una de ellas

Hasta Pronto!

 

 

PreProcesado de Datos

Introducción

Tenemos una serie de datos, ya observados, la idea es suministrar estos datos al machine-learning y la máquina va intentar aprender rasgos y patrones a partir de las variables independientes de las distintas categorías y los rasgos númericos que definen las observaciones de nuestros usuarios, para intentar definir una variable dependiente.

Notas Python y R

  • Cambiar formato decimales en spider por 0f, si no obtendremos los números en anotación científica.
  • Python inicia a contar desde 0
  • R inicia a contar desde 1

Variables Machine Learning

  • Variables independientes → Son las variables que le daremos al algoritmo para intentar predecir.
  • Variables dependientes → Es la variable que queremos predecir.

Datos Desconocidos

Cuando nos encontramos con ausencia de valores podemos optar por introducir la media o la moda de dicha columna, siempre será mejor esto que poner ese valor a 0.

Datos Categóricos

Se tratan de esos valores que su columna en vez de tener una númerico contiene un valor para catalogar o clasificar un usuario.

  • Variable dummy → traducir una variable a variable categorica sin orden. La variable dummy clasificada en activa o no activa.

Es decir tener una columna con Provincias, 3 en este ejemplo (Cataluña,Valencia y Madrid), si lo hiciéramos como una variable ordinal o categórica el resultado no sería correcto, ya que el valor de los números tendría un efecto que no queremos en nuestro algoritmo, el 1 va antes que el 2. Que hace nuestra variable dummy, crea una tabla con las columnas según este ejemplo tres, en cada fila obtendremos un 1 en la provincia que pertenezca a dicha fila y un 0 para el resto. De esta forma nos olvidamos de los valores ordinales obteniendo un resultado más óptimo en  nuestro algoritmo de machine-learning.

Set de entrenamiento y Set de Test

Hover fitting → problema que hay que intentar evitar. El algoritmo de machine-learning no tiene comparaciones suficientes y aprende los datos de memoria

  • 70% o 80% para entrenamiento
  • 20% 0 30% para testing

Escalado de datos

Diferencias de rango de valores, ejemplo edad(27) y salarios(51000). El efecto de la edad pasaría inadvertido en nuestro algoritmo de machine learning.
Si tenemos una variable cuyo rango de valor es muy superior a las otras, podría ser un problema porque las variables de menor rango podrían pasar inadvertidas o no tener importancia.

  • Normalización de valores menor valor -1 mayor valor 1: Standarización o Normalización
  • Standarización → Permite aglutinar valores en torno a la media
  • Normalización → El más pequeño es 0 el mayor es 1

Normalizacion.png