Créditos de imagen: TechCrunch
Google está tratando de causar sensación con Gemini, una nueva plataforma de inteligencia artificial generativa que recientemente hizo su gran debut. Pero si bien Géminis parece prometedor en algunos aspectos, se queda corto en otros. Entonces, ¿qué es Géminis? ¿Cómo puedes utilizarlo? ¿Y cómo se compara con la competencia?
Para que sea más fácil mantenerse al día con los últimos desarrollos de Gemini, hemos elaborado esta práctica guía, que mantendremos actualizada a medida que se lancen nuevos modelos y funciones de Gemini.
¿Qué es Géminis?
Géminis es de Google prometido hace mucho tiempo, una familia de modelos de IA generativa de próxima generación desarrollados por los laboratorios de investigación de IA de Google DeepMind y Google Research. Viene en tres sabores:
- Ultra Géminisel modelo principal de Géminis
- Géminis profesionalun modelo Géminis “ligero”
- Nano Géminisun modelo “destilado” más pequeño que se ejecuta en dispositivos móviles como el Pixel 8 Pro
Todos los modelos Gemini han sido entrenados para ser “nativamente multimodales”; en otras palabras, capaces de trabajar y utilizar algo más que texto. Han sido previamente capacitados y ajustados en una variedad de audio, imágenes y videos, un gran conjunto de bases de código y texto en diferentes idiomas.
Esto diferencia a Gemini de modelos como el gran modelo de lenguaje LaMDA de Google, que fue entrenado únicamente con datos de texto. LaMDA no puede comprender ni generar nada más que texto (por ejemplo, ensayos, borradores de correos electrónicos, etc.), pero ese no es el caso de los modelos Gemini. Tu capacidad para comprender imágenes, audio y otras modalidades aún es limitada, pero es mejor que nada.
¿Cuál es la diferencia entre Bardo y Géminis?
Google, demostrando una vez más que no tiene talento para la marca, no dejó claro desde el principio que Gemini es separado y distinto de Bard. Bard es simplemente una interfaz a través de la cual se puede acceder a ciertos modelos de Gemini; considérelo como una aplicación o cliente para Gemini y otros modelos de IA de otra generación. Gemini, por otro lado, es una familia de plantillas, no una aplicación o interfaz. No existe una experiencia Géminis independiente, y probablemente nunca la habrá. Si lo comparas con los productos de OpenAI, Bard corresponde a ChatGPT, la popular aplicación de IA conversacional de OpenAI, y Gemini corresponde al modelo de lenguaje que la impulsa, que en el caso de ChatGPT es GPT-3.5 o 4.
Por cierto, Gemini también es completamente independiente de Imagen-2, un modelo de conversión de texto a imagen que puede encajar o no en la estrategia general de IA de la empresa. ¡No te preocupes, no eres el único confundido por esto!
¿Qué puede hacer Géminis?
Debido a que los modelos Gemini son multimodales, pueden, en teoría, realizar una variedad de tareas, desde transcribir voz hasta subtitular imágenes y videos y generar obras de arte. Pocas de estas características han llegado a la etapa de producto todavía (más sobre esto más adelante), pero Google promete todas ellas, y más, en algún momento en un futuro no muy lejano.
Por supuesto, es un poco difícil creer la palabra de la empresa.
Google tuvo un rendimiento muy inferior con la versión original de Bard. Y más recientemente, enfureció a la gente con un vídeo que pretendía mostrar las capacidades de Géminis, que resultó estar muy manipulado y era más o menos aspiracional. Mellizos EsHay que darle crédito al gigante tecnológico, disponible de alguna forma hoy en día, pero de forma muy limitada.
Aún así, suponiendo que Google sea más o menos sincero en sus afirmaciones, esto es lo que los diferentes niveles de los modelos Gemini podrán hacer cuando se lancen:
Ultra Géminis
Pocas personas han conseguido hasta ahora Gemini Ultra, el modelo “base” sobre el que se construyen los demás: sólo un “conjunto selecto” de clientes en un puñado de aplicaciones y servicios de Google. Eso no cambiará hasta finales de este año, cuando el modelo más grande de Google se lance más ampliamente. La mayor parte de la información sobre Ultra proviene de demostraciones de productos dirigidas por Google, por lo que es mejor tomarlo con cautela.
Google dice que Gemini Ultra puede usarse para ayudar con cosas como tareas de física, resolver problemas paso a paso en una hoja de cálculo y señalar errores potenciales en respuestas ya completadas. Gemini Ultra también se puede aplicar a tareas como identificar artículos científicos relevantes para un problema específico, dice Google: extraer información de esos artículos y “actualizar” un gráfico de uno de ellos, generando las fórmulas necesarias para recrear el gráfico con datos más nuevos.
Gemini Ultra técnicamente admite imágenes como se mencionó anteriormente. Pero esa capacidad no llegará a la versión de producción del modelo en el momento del lanzamiento, según Google, tal vez porque el mecanismo es más complejo que la forma en que aplicaciones como ChatGPT generan imágenes. En lugar de enviar mensajes a un generador de imágenes (como DALL-E 3 en el caso de ChatGPT), Gemini genera imágenes «de forma nativa» sin un paso intermedio.
Géminis profesional
A diferencia de Gemini Ultra, Gemini Pro está disponible públicamente hoy. Pero, de manera confusa, sus capacidades dependen de dónde se utiliza.
Google dice que en Bard, donde Gemini Pro se lanzó por primera vez en formato de solo texto, el modelo es una mejora con respecto a LaMDA en sus capacidades de razonamiento, planificación y comprensión. Un independiente para estudiar por investigadores de Carnegie Mellon y BerriAI descubrieron que Gemini Pro es en realidad mejor que GPT-3.5 de OpenAI para manejar cadenas de razonamiento más largas y complejas.
Pero el estudio también encontró que, como todos los principales modelos de lenguaje, Gemini Pro tiene dificultades especiales con problemas matemáticos que involucran varios dígitos, y los usuarios encontraron muchos ejemplos de razonamiento deficiente y errores. Cometió muchos errores fácticos en cuestiones sencillas, como quién ganó el último Oscar. Google ha prometido mejoras, pero no está claro cuándo llegarán.
Gemini Pro también está disponible a través de API en Vertex AI, la plataforma de desarrollo de IA totalmente administrada de Google que acepta texto como entrada y genera texto como salida. Un punto final adicional, Gemini Pro Vision, puede procesar texto Es imágenes, incluidas fotos y videos, y generar texto siguiendo las líneas del modelo GPT-4 de OpenAI con Vision.
En Vertex AI, los desarrolladores pueden personalizar Gemini Pro para contextos y casos de uso específicos mediante un proceso de ajuste o «relleno». Gemini Pro también se puede conectar a API externas de terceros para realizar acciones específicas.
En algún momento a “principios de 2024”, los clientes de Vertex podrán utilizar Gemini Pro para potenciar agentes de chat y conversacionales personalizados (es decir, chatbots). Gemini Pro también se convertirá en una opción para potenciar las capacidades de generación de respuestas, recomendaciones y resúmenes de búsqueda en Vertex AI, aprovechando documentos de diversas modalidades (por ejemplo, PDF, imágenes) de diferentes fuentes (por ejemplo, OneDrive, Salesforce) para satisfacer las consultas.
En AI Studio, la herramienta web de Google para desarrolladores de aplicaciones y plataformas, existen flujos de trabajo para crear mensajes de chat estructurados y de forma libre utilizando Gemini Pro. Los desarrolladores tienen acceso a los terminales Gemini Pro y Gemini Pro Vision y pueden ajustar la temperatura de el modelo para controlar el rango creativo de la producción y proporcionar ejemplos para proporcionar instrucciones de tono y estilo, y también ajustar la configuración de seguridad.
Nano Géminis
Gemini Nano es una versión mucho más pequeña de los modelos Gemini Pro y Ultra y es lo suficientemente eficiente como para ejecutarse directamente en (algunos) teléfonos en lugar de enviar la tarea a un servidor en algún lugar. Hasta ahora, ofrece dos funciones en el Pixel 8 Pro: Resumir en Grabadora y Respuesta inteligente en Gboard.
La aplicación Grabadora, que permite a los usuarios presionar un botón para grabar y transcribir audio, incluye un resumen desarrollado por Gemini de sus conversaciones, entrevistas, presentaciones y otros extractos grabados. Los usuarios reciben estos resúmenes incluso si no tienen señal o conexión Wi-Fi disponible y, en un guiño a la privacidad, ningún dato sale del teléfono en el proceso.
El Gemini Nano también está en Gboard, la aplicación de teclado de Google, como vista previa para desarrolladores. Allí, activa una función llamada Respuesta inteligente, que ayuda a sugerir lo siguiente que quieres decir cuando chateas en una aplicación de mensajería. Inicialmente, la función solo funciona con WhatsApp, pero llegará a más aplicaciones en 2024, dice Google.
¿Es Gemini mejor que el GPT-4 de OpenAI?
No hay manera de saber cómo funciona la familia Géminis. en realidad se acumula hasta que Google lanza Ultra a finales de este año, pero la compañía ha afirmado mejoras en el estado del arte, que generalmente es GPT-4 de OpenAI.
Google ha elogiado repetidamente la superioridad de Gemini en los puntos de referencia, afirmando que Gemini Ultra supera los resultados actuales del estado del arte en «30 de 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de grandes modelos de lenguaje». Mientras tanto, la compañía afirma que Gemini Pro es más capaz de realizar tareas como resumir contenido, generar ideas y escribir que GPT-3.5.
Pero dejando de lado la cuestión de si los puntos de referencia realmente indican un modelo mejor, los puntajes que Google señala parecen ser sólo marginalmente mejores que los correspondientes modelos OpenAI. Y, como se mencionó anteriormente, algunas impresiones iniciales no fueron buenas: los usuarios y académica señalando que Gemini Pro tiende a equivocarse en los datos básicos, tiene dificultades con las traducciones y ofrece sugerencias de codificación deficientes.
¿Cuánto costará Géminis?
Gemini Pro es de uso gratuito en Bard y, por ahora, en AI Studio y Vertex AI.
Sin embargo, una vez que Gemini Pro salga de la vista previa en Vertex, el modelo costará $0.0025 por personaje, mientras que la producción costará $0.00005 por personaje. Los clientes de Vertex pagan por 1.000 caracteres (entre 140 y 250 palabras) y, en el caso de modelos como Gemini Pro Vision, por imagen (0,0025 dólares).
Supongamos que un artículo de 500 palabras contiene 2000 caracteres. Resumir este artículo con Gemini Pro costaría $5. Mientras tanto, generando un artículo de longitud similar costaría 0,1 dólares.
¿Dónde puedes probar Géminis?
Géminis profesional
El lugar más fácil para probar Gemini Pro es Bard. Una versión mejorada de Pro está respondiendo preguntas de Bard basadas en texto en inglés en los EE. UU. en este momento, y se espera que lleguen idiomas adicionales y países admitidos en el futuro.
También se puede acceder a Gemini Pro en vista previa en Vertex AI a través de una API. La API es de uso gratuito “dentro de límites” por ahora y admite 38 idiomas y regiones, incluida Europa, así como funciones como chat y funcionalidad de filtrado.
En otros lugares, Gemini Pro se puede encontrar en AI Studio. Al utilizar el servicio, los desarrolladores pueden iterar mensajes y chatbots basados en Gemini y luego obtener claves API para usarlas en sus aplicaciones, o exportar el código a un IDE con más funciones.
Duet AI para desarrolladores, el conjunto de herramientas de asistencia impulsadas por inteligencia artificial de Google para completar y generar código, comenzará a utilizar un modelo Gemini en las próximas semanas. Y Google planea llevar los modelos Gemini a las herramientas de desarrollo para Chrome y su plataforma de desarrollo móvil Firebase aproximadamente al mismo tiempo, a principios de 2024.
Nano Géminis
Gemini Nano está en el Pixel 8 Pro y llegará a otros dispositivos en el futuro. Los desarrolladores interesados en incorporar el modelo a sus aplicaciones de Android pueden inscribirse para echar un vistazo.
Mantendremos esta publicación actualizada con las últimas novedades.
«Introvertido. Solucionador de problemas. Aficionado total a la cultura pop. Estudiante independiente. Creador».