Machine Learning: Qué es, Algoritmos y Beneficios
¿Qué es el aprendizaje automático (machine learning) y cómo funciona?
El aprendizaje automático (Machine Learning, ML) es un tipo de inteligencia artificial (Artificial Intelligence, AI) centrado en la creación de sistemas computacionales que aprenden a partir de datos. La amplia gama de técnicas que engloba el ML permite que las aplicaciones de software mejoren su rendimiento con el tiempo.
Los algoritmos de aprendizaje automático se entrenan para encontrar relaciones y patrones en los datos. Utilizan datos históricos como entrada para hacer predicciones, clasificar información, agrupar puntos de datos, reducir la dimensionalidad e incluso ayudar a generar nuevo contenido, como demuestran las nuevas aplicaciones impulsadas por ML, tales como ChatGPT, Dall-E 2 y GitHub Copilot.
El aprendizaje automático tiene aplicaciones en muchas industrias. Por ejemplo, los motores de recomendación son utilizados por empresas de comercio electrónico, redes sociales y organizaciones de noticias para sugerir contenido basado en el comportamiento pasado de un cliente.
Los algoritmos de aprendizaje automático y la visión por computadora (computer vision) son componentes críticos de los automóviles autónomos, ayudándoles a navegar seguros por las carreteras. En el sector salud, se utiliza el aprendizaje automático para diagnosticar y sugerir planes de tratamiento. Otros casos de uso comunes de ML incluyen la detección de fraudes, el filtrado de spam, la detección de amenazas de malware, el mantenimiento predictivo y la automatización de procesos empresariales.
Aunque el aprendizaje automático es una herramienta poderosa para resolver problemas, mejorar operaciones empresariales y automatizar tareas, también es una tecnología compleja y desafiante, que requiere de una profunda experiencia y recursos significativos. Elegir el algoritmo adecuado para una tarea requiere un sólido conocimiento de matemáticas y estadísticas.
El entrenamiento de los algoritmos de aprendizaje automático a menudo implica grandes cantidades de datos de buena calidad para producir resultados precisos. Los resultados en sí pueden ser difíciles de entender, especialmente los producidos por algoritmos complejos, como las redes neuronales de aprendizaje profundo (deep learning) que se asemejan al cerebro humano. Y los modelos de ML pueden ser costosos de ejecutar y ajustar.
Sin embargo, la mayoría de las organizaciones, ya sea directamente o a través de productos infundidos con ML, están adoptando el aprendizaje automático. Según el “Informe de Investigación sobre IA y Aprendizaje Automático 2023” de Rackspace Technology, el 72% de las empresas encuestadas afirmaron que la IA y el aprendizaje automático forman parte de sus estrategias de TI y negocios, y el 69% describió la IA/ML como la tecnología más importante. Las empresas que lo han adoptado informaron que lo utilizan para mejorar procesos existentes (67%), predecir el rendimiento empresarial y las tendencias del sector (60%) y reducir riesgos (53%).
¿Por qué es importante el aprendizaje automático?
El aprendizaje automático ha desempeñado un papel cada vez más central en la sociedad humana desde sus inicios a mediados del siglo XX, cuando pioneros de la AI como Walter Pitts, Warren McCulloch, Alan Turing y John von Neumann sentaron las bases para la computación. El entrenamiento de máquinas para aprender a partir de datos y mejorar con el tiempo ha permitido a las organizaciones automatizar tareas rutinarias que anteriormente eran realizadas por humanos, en principio, liberándonos para trabajos más creativos y estratégicos.
El aprendizaje automático también realiza tareas manuales que están más allá de nuestra capacidad de ejecutar a gran escala, por ejemplo, procesando las enormes cantidades de datos generados hoy en día por dispositivos digitales. La capacidad del aprendizaje automático para extraer patrones y conocimientos de vastos conjuntos de datos se ha convertido en un diferenciador competitivo en campos que van desde finanzas y retail hasta salud y descubrimiento científico. Muchas de las empresas líderes de hoy, incluyendo Facebook, Google y Uber, hacen del aprendizaje automático una parte central de sus operaciones.
A medida que el volumen de datos generado por las sociedades modernas sigue proliferando, el aprendizaje automático probablemente se volverá aún más vital para los humanos y esencial para la inteligencia de las máquinas en sí mismas. La tecnología no solo nos ayuda a dar sentido a los datos que creamos, sino que la abundancia de datos que generamos fortalece aún más las capacidades de aprendizaje basadas en datos del ML.
¿Qué surgirá de este ciclo continuo de aprendizaje? El aprendizaje automático es un camino hacia la inteligencia artificial, que a su vez impulsa avances en ML que también mejoran la AI y progresivamente difuminan las fronteras entre la inteligencia de las máquinas y el intelecto humano.
¿Cuáles son los diferentes tipos de aprendizaje automático?
El aprendizaje automático clásico a menudo se categoriza por cómo un algoritmo aprende a ser más preciso en sus predicciones. Existen cuatro tipos básicos de aprendizaje automático: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje semi-supervisado y aprendizaje por refuerzo.
El tipo de algoritmo que eligen los científicos de datos depende de la naturaleza de los datos. Muchos de los algoritmos y técnicas no están limitados a solo uno de los tipos principales de ML aquí mencionados. A menudo se adaptan a múltiples tipos, dependiendo del problema a resolver y del conjunto de datos.
Por ejemplo, los algoritmos de aprendizaje profundo, como las redes neuronales convolucionales y las redes neuronales recurrentes, se utilizan en tareas de aprendizaje supervisado, no supervisado y por refuerzo, según el problema específico y la disponibilidad de datos.
Aprendizaje automático vs. redes neuronales de aprendizaje profundo
El aprendizaje profundo es un subcampo del ML que trata específicamente con redes neuronales que contienen múltiples niveles, es decir, redes neuronales profundas. Los modelos de aprendizaje profundo pueden aprender automáticamente y extraer características jerárquicas de los datos, haciéndolos efectivos en tareas como el reconocimiento de imágenes y de voz.
¿Cómo funciona el aprendizaje automático supervisado?
En el aprendizaje supervisado, los científicos de datos proporcionan algoritmos con datos de entrenamiento etiquetados y definen las variables que el algoritmo debe evaluar para correlaciones. Tanto la entrada como la salida del algoritmo están especificadas en el aprendizaje supervisado. Inicialmente, la mayoría de los algoritmos de aprendizaje automático trabajaban con aprendizaje supervisado, pero los enfoques no supervisados están ganando popularidad.
Los algoritmos de aprendizaje supervisado se utilizan para varias tareas, incluyendo las siguientes:
- Clasificación binaria. Divide los datos en dos categorías.
- Clasificación multiclase. Elige entre más de dos tipos de respuestas.
- Ensamblaje. Combina las predicciones de múltiples modelos de ML para producir una predicción más precisa.
- Modelado de regresión. Predice valores continuos basándose en relaciones dentro de los datos.
- Regresión lineal, logística, polinomial, de series de tiempo y de vectores de soporte (support vector regression).
¿Cómo funciona el aprendizaje automático no supervisado?
Los algoritmos de aprendizaje automático no supervisado no requieren que los datos estén etiquetados. Revisan los datos no etiquetados en busca de patrones que pueden usarse para agrupar puntos de datos en subconjuntos. La mayoría de los tipos de aprendizaje profundo, incluidas las redes neuronales, son algoritmos no supervisados.
Los algoritmos de aprendizaje no supervisado son buenos para las siguientes tareas:
- Agrupamiento. Divide el conjunto de datos en grupos basados en la similitud utilizando algoritmos de agrupamiento.
- Detección de anomalías. Identifica puntos de datos inusuales en un conjunto de datos utilizando algoritmos de detección de anomalías.
- Regla de asociación. Descubre conjuntos de elementos en un conjunto de datos que ocurren frecuentemente juntos usando minería de reglas de asociación.
- Reducción de dimensionalidad. Disminuye el número de variables en un conjunto de datos utilizando técnicas de reducción de dimensionalidad.
¿Cómo funciona el aprendizaje automático semi-supervisado?
El aprendizaje semi-supervisado funciona alimentando al algoritmo con una pequeña cantidad de datos de entrenamiento etiquetados. A partir de estos datos, el algoritmo aprende las dimensiones del conjunto de datos, que luego puede aplicar a nuevos datos no etiquetados. El rendimiento de los algoritmos típicamente mejora cuando se entrenan en conjuntos de datos etiquetados. Pero etiquetar datos puede ser un proceso que consume tiempo y es costoso. Este tipo de aprendizaje automático establece un equilibrio entre el rendimiento superior del aprendizaje supervisado y la eficiencia del aprendizaje no supervisado.
El aprendizaje semi-supervisado puede utilizarse en las siguientes áreas, entre otras:
- Traducción automática. Enseña a los algoritmos a traducir idiomas basándose en menos que un diccionario completo de palabras.
- Detección de fraudes. Identifica casos de fraude cuando solo hay unos pocos ejemplos positivos.
- Etiquetado de datos. Los algoritmos entrenados en pequeños conjuntos de datos aprenden a aplicar etiquetas de datos a conjuntos más grandes automáticamente.
¿Cómo funciona el aprendizaje por refuerzo?
El aprendizaje por refuerzo funciona programando un algoritmo con un objetivo claro y un conjunto de reglas prescritas para alcanzar ese objetivo. Un científico de datos también programa el algoritmo para buscar recompensas positivas por realizar una acción que es beneficiosa para alcanzar su objetivo final y evitar castigos por realizar una acción que lo aleje de su objetivo.
El aprendizaje por refuerzo se utiliza a menudo en las siguientes áreas:
- Robótica. Los robots aprenden a realizar tareas en el mundo físico.
- Juego de video. Enseña a los bots a jugar videojuegos.
- Gestión de recursos. Ayuda a las empresas a planificar la asignación de recursos.
Cómo elegir y construir el modelo de aprendizaje automático adecuado
Desarrollar el modelo de aprendizaje automático adecuado para resolver un problema puede ser complejo. Requiere diligencia, experimentación y creatividad, como se detalla en un plan de siete pasos sobre cómo construir un modelo de ML, un resumen de los cuales sigue.
- Entender el problema empresarial y definir los criterios de éxito. El objetivo es convertir el conocimiento del grupo sobre el problema empresarial y los objetivos del proyecto en una definición de problema adecuada para el aprendizaje automático. Las preguntas deben incluir por qué el proyecto requiere aprendizaje automático, qué tipo de algoritmo es el más adecuado para el problema, si hay requisitos para la transparencia y la reducción de sesgos, y cuáles son las entradas y salidas esperadas.
- Entender e identificar las necesidades de datos. Determinar qué datos son necesarios para construir el modelo y si están en forma para la ingestión del modelo. Las preguntas deben incluir cuántos datos se necesitan, cómo se dividirán los datos recopilados en conjuntos de prueba y entrenamiento, y si se puede usar un modelo de ML pre-entrenado.
- Recopilar y preparar los datos para el entrenamiento del modelo. Las acciones incluyen limpiar y etiquetar los datos; reemplazar datos incorrectos o faltantes; mejorar y aumentar los datos; reducir el ruido y eliminar la ambigüedad; anonimizar datos personales; y dividir los datos en conjuntos de entrenamiento, prueba y validación.
- Determinar las características del modelo y entrenarlo. Seleccionar los algoritmos y técnicas adecuados. Ajustar y ajustar los hiper-parámetros, entrenar y validar el modelo, y luego optimizarlo. Dependiendo de la naturaleza del problema empresarial, los algoritmos de aprendizaje automático pueden incorporar capacidades de comprensión del lenguaje natural, como las redes neuronales recurrentes o los transformadores que están diseñados para tareas de procesamiento del lenguaje natural (NLP). Además, los algoritmos de impulso pueden ser utilizados para optimizar los modelos de árboles de decisión.
- Evaluar el rendimiento del modelo y establecer puntos de referencia. El trabajo aquí abarca cálculos de matriz de confusión, indicadores clave de rendimiento empresarial, métricas de aprendizaje automático, mediciones de calidad del modelo y determinar si el modelo puede cumplir con los objetivos empresariales.
- Desplegar el modelo y monitorear su rendimiento en producción. Esta parte del proceso es conocida como operacionalización del modelo y generalmente es manejada en colaboración por científicos de datos e ingenieros de aprendizaje automático. Medir continuamente el modelo para el rendimiento, desarrollar un punto de referencia contra el cual medir futuras iteraciones del modelo e iterar para mejorar el rendimiento general.
- Refinar y ajustar continuamente el modelo en producción. Incluso después de que el modelo de ML esté en producción y monitoreado continuamente, el trabajo continúa. Los requisitos empresariales, las capacidades tecnológicas y los datos del mundo real cambian de formas inesperadas, lo que potencialmente da lugar a nuevas demandas y requisitos.
Aplicaciones de aprendizaje automático para empresas
El aprendizaje automático se ha convertido en parte integral del software empresarial que ejecutan las organizaciones. A continuación se presentan algunos ejemplos de cómo varias disciplinas utilizan ML:
- Inteligencia empresarial. El software de BI y análisis predictivo utiliza algoritmos de aprendizaje automático, incluidos la regresión lineal y logística, para identificar puntos de datos significativos, patrones y anomalías en grandes conjuntos de datos.
- Gestión de relaciones con el cliente. Las aplicaciones clave de aprendizaje automático en CRM incluyen analizar datos de clientes para segmentarlos, predecir comportamientos como la rotación, hacer recomendaciones, ajustar precios, optimizar campañas de correo electrónico, proporcionar soporte de chatbot y detectar fraudes.
Beneficios empresariales del aprendizaje automático
Los beneficios empresariales del aprendizaje automático incluyen la retención de clientes, la generación de ingresos y la reducción de costos.
- Seguridad y cumplimiento. Algoritmos avanzados, como la detección de anomalías y las técnicas de máquina de vectores de soporte (SVM), identifican comportamientos normales y desviaciones, lo cual es crucial para identificar posibles ciberamenazas. Las SVM encuentran la mejor línea o límite que divide los datos en grupos diferentes separados por tanto espacio como sea posible.
- Sistemas de información de recursos humanos. Los modelos de ML agilizan el proceso de contratación al filtrar solicitudes e identificar a los mejores candidatos para un puesto abierto.
- Gestión de la cadena de suministro. Las técnicas de aprendizaje automático optimizan los niveles de inventario, agilizan la logística, mejoran la selección de proveedores y abordan proactivamente las interrupciones en la cadena de suministro.
- Procesamiento del lenguaje natural. Los modelos de ML permiten que asistentes virtuales como Alexa, Google Assistant y Siri interpreten y respondan al lenguaje humano.
¿Cuáles son las ventajas y desventajas del aprendizaje automático?
La capacidad del aprendizaje automático para identificar tendencias y predecir resultados con mayor precisión que los métodos que dependen estrictamente de estadísticas convencionales, o de la inteligencia humana, proporciona una ventaja competitiva a las empresas que implementan ML de manera efectiva. El aprendizaje automático puede beneficiar a las empresas de varias maneras:
- Analizar datos históricos para retener clientes.
- Lanzar sistemas de recomendación para aumentar ingresos.
- Mejorar la planificación y las previsiones.
- Evaluar patrones para detectar fraudes.
- Aumentar la eficiencia y reducir costos.
Sin embargo, el aprendizaje automático también presenta desventajas. En primer lugar, puede ser costoso. Los proyectos de aprendizaje automático suelen estar impulsados por científicos de datos, que tienen salarios altos. Estos proyectos también requieren infraestructura de software que puede ser costosa. Y las empresas pueden enfrentar muchos otros desafíos.
Hay un problema con el sesgo en el aprendizaje automático. Los algoritmos entrenados en conjuntos de datos que excluyen ciertas poblaciones o contienen errores pueden conducir a modelos inexactos del mundo que, en el mejor de los casos, fallan y, en el peor, son discriminatorios. Cuando una empresa basa procesos empresariales fundamentales en modelos sesgados, puede sufrir daños regulatorios y de reputación.
Importancia del aprendizaje automático interpretable por humanos
Explicar cómo funciona un modelo específico de ML puede ser desafiante cuando el modelo es complejo. En algunas industrias, los científicos de datos deben usar modelos de aprendizaje automático simples porque es importante para el negocio explicar cómo se tomó cada decisión. Esto es especialmente cierto en industrias con cargas de cumplimiento pesadas, como la banca y los seguros.
Los científicos de datos a menudo se encuentran teniendo que equilibrar entre la transparencia y la precisión y eficacia de un modelo. Los modelos complejos pueden producir predicciones precisas, pero explicar a una persona cómo se determinó un resultado puede ser difícil.
Ejemplos de aprendizaje automático en la industria
El aprendizaje automático ha sido ampliamente adoptado en diversas industrias. Aquí se presentan algunos de los sectores que utilizan el aprendizaje automático para satisfacer sus requisitos de mercado:
- Servicios financieros. Evaluación de riesgos, comercio algorítmico, atención al cliente y banca personalizada son áreas donde las empresas de servicios financieros aplican el aprendizaje automático. Capital One, por ejemplo, implementó ML para la defensa de tarjetas de crédito, que la empresa incluye en la categoría más amplia de detección de anomalías.
- Farmacéuticas. Los fabricantes de medicamentos utilizan ML para el descubrimiento de fármacos, en ensayos clínicos y en la fabricación de medicamentos. Eli Lilly, por ejemplo, ha construido modelos de IA y ML para encontrar los mejores sitios para ensayos clínicos y aumentar la diversidad de los participantes. Los modelos han reducido drásticamente los tiempos de los ensayos clínicos, según la empresa.
- Manufactura. Los casos de uso de mantenimiento predictivo son prevalentes en la industria manufacturera, donde una avería de equipo puede llevar a costosos retrasos en la producción. Además, el aspecto de visión por computadora del aprendizaje automático puede inspeccionar artículos que salen de la línea de producción para asegurar el control de calidad.
- Seguros. Los motores de recomendación pueden sugerir opciones para los clientes basándose en sus necesidades y cómo otros clientes se han beneficiado de productos de seguros específicos. El aprendizaje automático también es útil en la suscripción y el procesamiento de reclamaciones.
- Retail. Además de los sistemas de recomendación, los minoristas utilizan visión por computadora para la personalización, gestión de inventarios y planificación de estilos y colores de una línea de moda dada. La previsión de demanda es otro caso de uso clave.
¿Cuál es el futuro del aprendizaje automático?
Impulsado por la enorme cantidad de investigación de empresas, universidades y gobiernos de todo el mundo, el aprendizaje automático es un objetivo en constante movimiento. Los avances en IA y ML parecen ocurrir diariamente, volviendo obsoletas las prácticas aceptadas casi tan pronto como se aceptan. Una cosa que se puede decir con certeza sobre el futuro del aprendizaje automático es que continuará desempeñando un papel central en el siglo XXI, transformando cómo se realiza el trabajo y la forma en que vivimos.
En el campo del procesamiento del lenguaje natural, algoritmos mejorados y una infraestructura más robusta darán lugar a IA conversacional más fluida, modelos de ML más versátiles capaces de adaptarse a nuevas tareas y modelos de lenguaje personalizados afinados a las necesidades empresariales.
El campo en rápida evolución de la visión por computadora se espera que tenga un profundo efecto en muchos dominios, desde la salud, donde desempeñará un papel cada vez más importante en el diagnóstico y la supervisión a medida que la tecnología mejore, hasta la ciencia ambiental, donde podría utilizarse para analizar y monitorear hábitats, hasta la ingeniería de software, donde es un componente central de las tecnologías de realidad aumentada y virtual.
A corto plazo, las plataformas de aprendizaje automático están entre los ámbitos más competitivos de la tecnología empresarial. Grandes proveedores como Amazon, Google, Microsoft, IBM y OpenAI compiten por inscribir a los clientes en servicios de plataformas de aprendizaje automático automatizadas que cubren todo el espectro de actividades de ML, incluyendo la recolección de datos, la preparación de datos, la clasificación de datos, la construcción de modelos, el entrenamiento y la implementación de aplicaciones.
En medio del entusiasmo, las empresas enfrentarán muchos de los mismos desafíos presentados por tecnologías de vanguardia anteriores y de rápida evolución. Los nuevos desafíos incluyen adaptar la infraestructura heredada a los sistemas de aprendizaje automático, mitigar el sesgo de ML y descubrir cómo usar mejor estos impresionantes nuevos poderes de la IA para generar ganancias para las empresas, a pesar de los costos.