¿Qué es Gemini, la IA de próxima generación de Google?

Google ha presentado su último avance en el campo de la Inteligencia Artificial (IA), un nuevo modelo llamado Gemini.

¿Qué es Gemini, la IA de próxima generación de Google?

De acuerdo con Google, Gemini promete superar a la tecnología GPT-4, de OpenAI, en cuanto a capacidad de generación de texto, comprensión de lenguaje natural y resolución de problemas, revolucionando la forma en que buscamos y encontramos información en la web.

La multinacional de tecnología lanzó su nuevo modelo IA, llamado Gemini, el 6 de diciembre, indicando que este es capaz de aprender de una gran variedad de fuentes de información, adaptarse a diferentes contextos y dominios y generar respuestas coherentes y relevantes a cualquier consulta. 

Google Gemini es el resultado de varios años de investigación y desarrollo en el laboratorio de Google DeepMind, donde se han aplicado las últimas técnicas de aprendizaje profundo, redes neuronales y procesamiento del lenguaje natural. La compañía afirma que su nuevo modelo de IA es el más inteligente y potente que existe en el mercado a la fecha, y que supone un gran salto cualitativo en la carrera de la IA, donde compite con otras empresas como OpenAI, Meta y Microsoft.

Actualmente, Gemini está disponible en tres versiones, Ultra, Pro, Nano y, de acuerdo con Google, puede probarse a través de su chatbot Bard, que también rivaliza con el ChatGPT de OpenAI.

¿Qué es Google Gemini?

Gemini es un modelo de inteligencia artificial o IA basado en redes neuronales profundas, que puede procesar información de diferentes tipos y fuentes, como texto, imágenes, audio o vídeo. Además, Gemini puede entender el contexto y el propósito de una consulta, y generar respuestas relevantes y completas, incluso si la consulta es compleja o ambigua.

Según Demis Hassabis, CEO y cofundador de Google DeepMind, Gemini es “el modelo más capaz y general que jamás hayamos construido”

Fuente: X – @GoogleDeepMind

Si se le pregunta a Gemini “¿Qué necesito para escalar el monte Fuji en invierno?”, el modelo de IA podría analizar información de diferentes sitios web, blogs, vídeos o imágenes sobre el tema, para ofrecernos una lista de consejos, equipamiento, rutas y precauciones que hay tener en cuenta para realizar la actividad. Además, la IA tiene la capacidad de comparar el monte Fuji con otras montañas que hayamos escalado antes, para sugerir cómo adaptar nuestra experiencia previa a las condiciones del monte Fuji.

Al respecto, Hassabis enfatizó que Gemini fue diseñado y construido desde cero para ser multimodal, lo que significa que “puede generalizar y comprender, operar y combinar, sin problemas, diferentes tipos de información”.

¿Cómo funciona la nueva IA de Google?

Gemini es capaz de hacer todo esto porque utiliza una arquitectura llamada Transformer, que le permite aprender de forma simultánea y autónoma múltiples tareas y habilidades, como comprensión del lenguaje natural, generación de texto, reconocimiento de imágenes, traducción o síntesis de voz. De esta forma, Gemini puede transferir lo que aprende de una tarea a otra, y mejorar su rendimiento con el tiempo.

Según Google, Gemini es 1.000 veces más potente que su modelo anterior, BERT, que ya era capaz de entender el significado de las palabras en función del contexto. 

Con Gemini, Google pretende crear un asistente inteligente que pueda responder a cualquier tipo de consulta, y que pueda interactuar con todos de forma natural y fluida.

Una IA multimodal de forma nativa, con rendimiento de próxima generación

Gemini no solo es un chatbot inteligente y creativo, sino que también tiene capacidades de programación avanzadas, incluyendo la generación de código de alta calidad. Esta IA también puede resolver problemas de programación complejos y colaborar con desarrolladores.

Según Google, el nuevo modelo obtuvo una puntuación del 90% en Measuring Massive Multitask Language Understanding (MMLU), o medición de la comprensión masiva del lenguaje multitarea, superando a los expertos humanos en el área. MMLU utiliza una combinación de 57 materias, como matemáticas, física, historia, derecho, medicina y ética, para poner a prueba tanto el conocimiento del mundo como las habilidades de resolución de problemas, destacó la compañía.

“Nuestro nuevo enfoque de referencia para MMLU permite a Gemini usar sus capacidades de razonamiento para pensar más cuidadosamente antes de responder preguntas difíciles”.

El experto en IA, Rowan Cheung, había señalado que Gemini es el chatbot más potente disponible en el mercado. Sin embargo, después de que Google admitiera que había escenificado la demostración inicial de Gemini, cuestionó la transparencia de la compañía y las capacidades de este modelo IA. “¿Fue solo un simple error de comunicación de relaciones públicas, o está más atrasado con respecto a ChatGPT de lo que se pensó inicialmente?”, se preguntó Cheung. 

A pesar de esto, otros expertos consideran que Gemini podría convertirse en la base que profundice aún más la integración de la IA en las tareas y actividades cotidianas.

Continúa leyendo: Google Cloud se convierte en un validador dentro de la red Polygon PoS