Modelos Fundacionales: Todo lo Que Necesitas Saber
¿Qué son los modelos fundacionales?
Los modelos fundacionales son modelos de inteligencia artificial (IA) de gran escala y adaptables que están redefiniendo la IA. Estos modelos ofrecen grandes promesas, pero también enfrentan riesgos como sesgos, brechas de seguridad e impactos ambientales.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pertenecen a una categoría llamada modelos fundacionales. Estos modelos de lenguaje toman entradas lingüísticas y generan salidas sintetizadas. Los modelos fundacionales trabajan con múltiples tipos de datos. Son multimodales, es decir, funcionan en otros modos además del lenguaje.
Esto permite a las empresas establecer nuevas conexiones entre tipos de datos y expandir la gama de tareas para las que se puede utilizar la IA. Como punto de partida, una empresa puede usar modelos fundacionales para crear modelos de IA generativa personalizados, utilizando herramientas como LangChain, con características adaptadas a sus casos de uso específicos.
El lanzamiento de LLMs poderosos como GPT-4 ha impulsado discusiones sobre la inteligencia artificial general — básicamente, diciendo que la IA puede hacer cualquier cosa. Desde su lanzamiento, se han creado numerosas aplicaciones impulsadas por GPTs.
GPT-4 y otros modelos fundacionales se entrenan con un amplio corpus de datos no etiquetados y pueden adaptarse a muchas tareas. Eso es lo que los hace un modelo fundacional.

¿Qué es un modelo fundacional?
Los modelos fundacionales representan un nuevo paradigma en el desarrollo de sistemas de IA. Anteriormente, la IA se entrenaba con datos específicos de la tarea para realizar un rango limitado de funciones.
Un modelo fundacional es un modelo de aprendizaje automático a gran escala que se entrena con un conjunto amplio de datos y puede adaptarse y afinarse para una gran variedad de aplicaciones y tareas derivadas. Los modelos fundacionales son conocidos por su generalidad y adaptabilidad.
GPT-4, Dall-E 2 son ejemplos de modelos fundacionales.
Aunque muchos de los modelos fundacionales icónicos son modelos de lenguaje, el término modelo de lenguaje es simplemente demasiado estrecho para nuestro propósito: como describimos, el alcance de los modelos fundacionales va mucho más allá del lenguaje.
El nombre de “modelo fundacional” subraya la incompletitud fundamental de los modelos; son la base para modelos derivados específicos que están entrenados para lograr un conjunto de tareas más especializado y estrecho.
Características de los modelos fundacionales
Las principales características de los modelos fundacionales incluyen las siguientes:
- Escala. Para que los modelos fundacionales sean poderosos, hay tres ingredientes que habilitan la escala para los modelos fundacionales:
- Mejoras en hardware. Las GPU, que alimentan los chips de los modelos fundacionales, han aumentado significativamente el rendimiento y la memoria.
- Arquitectura del modelo transformador. Los transformadores son la arquitectura de modelo de aprendizaje automático que alimenta muchos modelos de lenguaje, como BERT y GPT-4.
- Disponibilidad de datos. Hay muchos datos para que estos modelos se entrenen y aprendan. Los modelos fundacionales necesitan grandes cantidades de datos no estructurados para entrenar.
- Entrenamiento tradicional. Los modelos fundacionales utilizan métodos de entrenamiento de aprendizaje automático tradicionales, como una combinación de aprendizaje no supervisado y supervisado, o aprendizaje por refuerzo a partir de retroalimentación humana.
- Aprendizaje por transferencia. Al usar el conocimiento aprendido de una tarea y aplicarlo a otra, los modelos usan aprendizaje por transferencia en tareas sustitutas y luego se afinan para una específica. La pre-entrenamiento es el tipo de aprendizaje por transferencia utilizado en la serie de modelos de lenguaje GPT.
- Emergencia. El comportamiento del modelo se induce más que se construye explícitamente. El modelo produce resultados que no están directamente relacionados con ningún mecanismo en el modelo.
- Homogeneización. La homogeneización significa que una amplia gama de aplicaciones podrían ser alimentadas por un solo algoritmo de aprendizaje genérico. El mismo método subyacente se utiliza en muchos dominios. Casi todos los modelos de procesamiento de lenguaje natural (NLP) de última generación están adaptados de uno de sólo unos pocos modelos fundacionales.
Ejemplos de aplicaciones de modelos fundacionales
Los modelos fundacionales se afinan para crear aplicaciones. GPT-3 y GPT-4 se han convertido en la base de muchas aplicaciones en el corto tiempo que han estado disponibles, siendo ChatGPT el más notable.
Un artículo de investigadores de OpenAI, OpenResearch y la Universidad de Pensilvania postuló que los GPTs — el modelo de IA — exhiben cualidades de tecnologías de uso general. Las tecnologías de uso general, como la máquina de vapor, la imprenta y los GPTs, se caracterizan por una proliferación generalizada, mejora continua y la generación de innovaciones complementarias. Estas tecnologías complementarias pueden trabajar con, apoyar o construir sobre la base de los GPTs.
Otro ejemplo de modelo fundacional es el de Microsoft Florence, que se utiliza para proporcionar servicios de visión por computadora listos para producción en Azure AI Vision. La aplicación utiliza el modelo para analizar imágenes, leer texto y detectar rostros con etiquetado de imágenes preconstruido.
Suecia está intentando construir un LLM fundacional para todos los principales idiomas de la región nórdica: danés, sueco, islandés, noruego y feroés. Se utilizaría principalmente por el sector público. El consorcio sueco que dirige el proyecto ha obtenido acceso al superordenador Berzelius, junto con ayuda de hardware y software de Nvidia. El modelo todavía está en desarrollo, pero las primeras versiones están disponibles en Hugging Face.
Hugging Face es un repositorio de código abierto de muchos LLMs, algo así como un GitHub para la IA. Proporciona herramientas que permiten a los usuarios construir, entrenar y desplegar modelos de aprendizaje automático.
¿Cómo se utilizan los modelos fundacionales?
Los modelos fundacionales sirven como base para aplicaciones más específicas. Una empresa puede tomar un modelo fundacional, entrenarlo con sus propios datos y afinarlo para una tarea específica o un conjunto de tareas específicas del dominio.
Varias plataformas, incluyendo Amazon SageMaker, IBM Watson, Google Cloud Vertex AI y Microsoft Azure AI, proporcionan a las organizaciones un servicio para construir, entrenar y desplegar modelos de IA.
Por ejemplo, una organización podría usar una de estas plataformas para tomar un modelo de Hugging Face, entrenar el modelo en sus datos propietarios y afinar el modelo utilizando ingeniería de prompts.
Oportunidades y desafíos de los modelos fundacionales
Los modelos fundacionales son multimodales porque tienen múltiples capacidades, incluyendo lenguaje, audio y visión.
Debido a su adaptabilidad general, los modelos fundacionales podrían proporcionar numerosas oportunidades y casos de uso en una variedad de industrias diferentes, incluyendo las siguientes:
- Salud. En esta industria, los modelos fundacionales muestran promesa para tareas generativas, como el descubrimiento de fármacos. Un modelo fundacional de IBM — Generación Controlada de Moléculas, más conocido como CogMol — recientemente generó un conjunto de nuevos antivirales COVID-19 usando una arquitectura común llamada autoencoder variacional. MoLFormer-XL de IBM es otro modelo fundacional que actualmente está siendo utilizado por Moderna para diseñar medicamentos de ARN mensajero.
- Derecho. El derecho cuenta con tareas de redacción en la que los modelos fundacionales podrían ayudar. Sin embargo, actualmente carecen de la capacidad de razonamiento para generar documentos verídicos. Si pudieran desarrollarse para mostrar procedencia y garantizar la factualidad, entonces serían beneficiosos en este campo.
- Educación. La educación es un dominio complejo que requiere interacción humana matizada para entender los objetivos y estilos de aprendizaje de los estudiantes. Hay muchas corrientes de datos individuales en la educación que juntas son demasiado limitadas para entrenar modelos fundacionales. Sin embargo, los modelos fundacionales podrían ser ampliamente aplicables a tareas generativas, como la generación de problemas.
A pesar de su amplio potencial, los modelos fundacionales plantean muchos desafíos, incluyendo los siguientes:
- Sesgo. Debido a que los modelos fundacionales provienen de sólo unas pocas tecnologías centrales, los sesgos inherentes debidos a problemas sociales o morales en esos pocos modelos podrían propagarse a través de cada aplicación de IA.
- Sistema. Los sistemas informáticos son un cuello de botella clave para escalar el tamaño del modelo y la cantidad de datos. El entrenamiento de modelos fundacionales podría requerir una cantidad prohibitivamente grande de memoria. El entrenamiento es costoso e intensivo en términos de cómputo.
- Disponibilidad de datos. Los modelos fundacionales necesitan acceso a grandes cantidades de datos de entrenamiento para funcionar. Si esos datos se cortan o restringen, no tienen el combustible para funcionar.
- Seguridad. Los modelos fundacionales representan un único punto de fallo, lo que los convierte en un objetivo viable para los ciberatacantes.
- Ambiente. Lleva un gran peaje ambiental entrenar y ejecutar grandes modelos fundacionales, como GPT-4.
- Emergencia. Los resultados de los modelos fundacionales pueden ser difíciles de rastrear hasta un paso particular en el proceso de creación.
Conclusión
Los modelos fundacionales están transformando el panorama de la inteligencia artificial, proporcionando una plataforma robusta y versátil para el desarrollo de nuevas aplicaciones y la mejora de las existentes. Si bien ofrecen un potencial enorme para innovar y optimizar procesos en una multitud de sectores, también plantean desafíos significativos en términos de sesgo, seguridad y impacto ambiental.
Será crucial para los desarrolladores, investigadores y empresas no solo aprovechar las capacidades de estos modelos, sino también abordar proactivamente sus limitaciones y riesgos. Al hacerlo, los modelos fundacionales podrían bien ser la base de la próxima generación de tecnologías de IA, revolucionando industrias enteras de maneras que apenas estamos comenzando a comprender.