Cronica

Mundo completo de noticias

Tecnología

DeepMind prueba los límites de los grandes sistemas de lenguaje de IA con un modelo de 280 mil millones de parámetros

La generación del lenguaje es la cosa más caliente en IA ahora, con una clase de sistemas conocidos como «modelos de lenguaje grande» (o LLM) que se utilizan para todo, desde mejorando el motor de búsqueda de Google por crear juegos de fantasía basados ​​en texto. Pero estos programas también tienen serios problemas, incluida la regurgitación del lenguaje sexista y racista y fallas en las pruebas de razonamiento lógico. Una gran pregunta es, ¿se pueden mejorar estas debilidades simplemente agregando más datos y potencia de cómputo, o estamos empujando los límites de este paradigma tecnológico?

Este es uno de los temas que el laboratorio de inteligencia artificial de Alphabet, DeepMind, está abordando en un trío de artículos de investigación. publicado hoy. La conclusión de la empresa es que una mayor expansión de estos sistemas debería traer muchas mejoras. “Un hallazgo importante del artículo es que el progreso y las capacidades de los grandes modelos de lenguaje siguen aumentando. Esta no es un área que se haya estabilizado ”, dijo a los periodistas el científico investigador de DeepMind, Jack Rae, en una conferencia telefónica.

DeepMind, que publica regularmente su trabajo en los productos de Google, investigó los recursos de estos LLM mediante la creación de un modelo de lenguaje con 280 mil millones de parámetros llamado gopher. Los parámetros son una medida rápida del tamaño y la complejidad de los modelos de un idioma, lo que significa que Gopher es más grande que OpenAI GPT-3 (175 mil millones de parámetros), pero no tan grande como algunos sistemas más experimentales como Microsoft y Nvidia Modelo Megatron (530 mil millones de parámetros).

READ  Estas 7 métricas indican que es hora de comprar bitcoins

Generalmente, en el mundo de la IA, es cierto que cuanto más grande, mejor, y que los modelos más grandes generalmente brindan un mejor rendimiento. La investigación de DeepMind confirma esta tendencia y sugiere que el aumento de LLM proporciona un mejor rendimiento en los puntos de referencia más comunes, probando cosas como análisis de sentimiento y resumen. Sin embargo, los investigadores también advirtieron que algunos problemas inherentes a los modelos de lenguaje necesitarán algo más que datos y cálculos para ser corregidos.

«Creo que ahora realmente parece que el modelo puede fallar de varias maneras», dijo Rae. «Algunos subconjuntos de estas formas se deben a que el modelo simplemente no tiene una comprensión suficientemente buena de lo que está leyendo, y creo que para esa clase de problemas veremos un rendimiento mejorado con más datos y escala».

Pero, agregó, existen «otras categorías de problemas, como el modelo que perpetúa prejuicios estereotipados o el modelo que se persuade a dar verdades falsas, que […] nadie en DeepMind cree que la escala será la solución [to]. En estos casos, los modelos de lenguaje necesitarán “rutinas de entrenamiento adicionales”, como la retroalimentación de los usuarios humanos, señaló.

Para llegar a estas conclusiones, los investigadores de DeepMind evaluaron una variedad de modelos de lenguaje de diferentes tamaños en 152 tareas de lenguaje o puntos de referencia. Descubrieron que los modelos más grandes generalmente funcionaban mejor, y la propia Gopher proporcionaba un rendimiento de vanguardia en aproximadamente el 80% de las pruebas seleccionadas por los científicos.

READ  ¿Qué dice este Scope Trace? UPD y Wireshark

En otro periódico, la empresa también encuestó la amplia gama de daños potenciales involucrados en la implementación de LLM. Esto incluye el uso de lenguaje tóxico por parte de los sistemas, su capacidad para compartir información inexacta y su potencial para ser utilizado con fines maliciosos, como compartir spam o publicidad. Todas estas preguntas serán cada vez más importantes a medida que los modelos de lenguaje de IA se implementen más ampliamente, como chatbots y agentes de ventas, por ejemplo.

Sin embargo, es importante recordar que el rendimiento de la evaluación comparativa no es el punto principal al evaluar los sistemas de aprendizaje automático. En un artículo reciente, varios investigadores de IA (incluidos dos de Google) han explorado las limitaciones de los puntos de referencia, señalando que estos conjuntos de datos siempre tendrán un alcance limitado y no podrán igualar la complejidad del mundo real. Como suele ocurrir con las nuevas tecnologías, la única forma confiable de probar estos sistemas es ver cómo funcionan realmente. Con excelentes modelos de idiomas, pronto veremos más de estas aplicaciones.

DEJA UNA RESPUESTA

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

"Introvertido. Solucionador de problemas. Aficionado total a la cultura pop. Estudiante independiente. Creador".