Las nuevas capacidades de Meta AI están impulsadas por una versión actualizada de Llama, el modelo de lenguaje grande insignia de Meta. El modelo gratuito anunciado hoy también podría tener un amplio impacto, dado lo ampliamente que los desarrolladores y las nuevas empresas ya han adoptado la familia Llama.
A diferencia de los modelos OpenAI, Llama se puede descargar y ejecutar localmente sin costo alguno, aunque existen algunas restricciones sobre el uso comercial a gran escala. La Llama también se puede ajustar o modificar más fácilmente con entrenamiento adicional para tareas específicas.
Patrick Wendell, cofundador y vicepresidente de ingeniería de Databricks, una empresa que alberga modelos de inteligencia artificial, incluido Llama, dice que muchas empresas se sienten atraídas por los modelos abiertos porque les permiten proteger mejor sus propios datos.
Los grandes modelos de lenguaje se están volviendo cada vez más “multimodales”, lo que significa que están capacitados para manejar audio e imágenes como entrada, además de texto. Esto amplía las capacidades de un modelo y permite a los desarrolladores crear nuevos tipos de aplicaciones de IA sobre él, incluidos los llamados agentes de IA capaces de realizar tareas informáticas útiles en su nombre. Llama 3.2 debería facilitar a los desarrolladores la creación de agentes de IA que puedan, por ejemplo, navegar por la web y tal vez buscar ofertas sobre un tipo específico de producto cuando se les proporciona una breve descripción.
«Los modelos multimodales son muy importantes porque los datos que utilizan las personas y las empresas no son sólo texto, sino que pueden venir en muchos formatos diferentes, incluidas imágenes y audio o formatos más especializados como secuencias de proteínas o libros financieros», dice. Felipe Isolaun profesor del MIT. “En los últimos años, hemos pasado de modelos de lenguaje fuertes a tener ahora modelos que también funcionan bien con imágenes y voces. Cada año, vemos que estos sistemas tienen acceso a más modalidades de datos”.
«Con Llama 3.1, Meta demostró que los modelos abiertos finalmente podían cerrar la brecha con sus homólogos propietarios», dice Nathan Benaich, fundador y socio general de Air Street Capital y autor de un influyente artículo. informe anual sobre IA. Benaich añade que los modelos multimodales tienden a superar a los modelos más grandes de sólo texto. «Estoy emocionado de ver cómo evoluciona 3.2», dice.
Hoy temprano, el Instituto Allen de IA (Ai2), un instituto de investigación en Seattle, lanzó un modelo multimodal avanzado de código abierto llamado Molmo. Molmo se lanzó bajo una licencia menos restrictiva que Llama, y Ai2 también está publicando detalles de sus datos de entrenamiento, que pueden ayudar a investigadores y desarrolladores a experimentar y modificar el modelo.
Meta dijo hoy que lanzaría varios tamaños de Llama 3.2 con las capacidades correspondientes. Además de dos instancias más poderosas con 11 mil millones y 90 mil millones de parámetros (una medida de la complejidad de un modelo así como su tamaño), Meta está lanzando versiones menos capaces de 1 mil millones y 3 mil millones de parámetros diseñadas para funcionar bien en dispositivos portátiles. Meta dice que estas versiones han sido optimizadas para chips móviles basados en ARM de Qualcomm y MediaTek.
La renovación de la IA de Meta llega en un momento emocionante, en el que los gigantes tecnológicos compiten por ofrecer la IA más avanzada. La decisión de la compañía de lanzar sus modelos más valiosos de forma gratuita podría brindarle una ventaja al proporcionar la base para muchas herramientas y servicios de IA, especialmente a medida que las empresas comienzan a explorar el potencial de los agentes de IA.
«Introvertido. Solucionador de problemas. Aficionado total a la cultura pop. Estudiante independiente. Creador».