Google I/O 2024: Inclusión y evolución de los modelos de inteligencia artificial como estandarte

Google I/O 2024

Google tiene una gran cantidad de noticias sobre inteligencia artificial que surgen de su conferencia de I/O realizada el pasado 14 de Mayo y centrada en desarrolladores. En esta, ha mostrado algunas actualizaciones importantes de sus últimos modelos de IA, incluido un nuevo modelo de IA llamado «Proyecto Astra», el futuro de la Búsqueda de Google con la IA generativa incorporada, y también las últimas funciones que llegarán a Android 15.

En el evento Google I/O 2024, se presentaron varias innovaciones destacadas, marcando un hito en la integración de la inteligencia artificial en los servicios, tal es la importancia que la palabra «inteligencia artificial» ha sido nombrada unas 120 veces según el CEO de la compañía. Continú leyendo este artículo para informarte sobre todo lo informado en el I/O.

SynthID

La implementación de SynthID en la IA generativa de Google, una marca de agua que identifica los contenidos generados por IA, es una medida que podría ser especialmente útil en trabajos de alto realismo y ayudar a mantener la transparencia en la creación de contenido. También se destacó el trabajo del grupo AI-Assisted Red Teaming, que se centra en proteger la seguridad de los modelos de IA y evitar su uso indebido.

El nuevo Gemini

Es una evolución de los modelos anteriores, se destacó por su velocidad y eficiencia mejoradas, lo que podría tener implicaciones importantes para el futuro de los dispositivos móviles y la computación en general. La conferencia también puso de manifiesto la importancia de la IA generativa en los resultados de búsqueda, con Google buscando «buscar por ti», lo que podría indicar un cambio hacia una experiencia de usuario más intuitiva y adaptada.

Gemini Live

Una característica que permite a los usuarios participar en chats de voz con la IA a través de sus smartphones. Esta innovación forma parte del impulso más amplio de Google hacia la IA, como lo demuestra la introducción de otras características como Imagen 3 y Ask Photos. Gemini Live permite a los suscriptores de Gemini Advanced interactuar con la IA en tiempo real, utilizando lenguaje natural y activando la cámara para iniciar conversaciones sobre su entorno, similar a las capacidades vistas anteriormente en GPT-4o.

Gemini 1.5 Pro

El modelo Gemini 1.5 Pro ofrece un rendimiento mejorado con una innovadora ventana de contexto largo de 1 millón de tokens, que puede extenderse a 2 millones de tokens para desarrolladores y clientes de Google Cloud en una lista de espera. El Gemini 1.5 Pro está diseñado para satisfacer a desarrolladores y clientes empresariales, proporcionándoles una herramienta potente para una variedad de aplicaciones, incluyendo el razonamiento multimodal a través de grandes cantidades de información.

Gemini 1.5 Flash

El evento introdujo Gemini 1.5 Flash, un modelo más ligero optimizado para la velocidad y la eficiencia, ideal para tareas de alto volumen y alta frecuencia. Estas actualizaciones subrayan el compromiso de Google con la superación de los límites de la IA y la provisión de herramientas que son tanto potentes como accesibles para una amplia gama de usuarios. Para obtener más información detallada, se puede consultar la publicación oficial del blog de Google sobre el tema.

Gemini nano

Esta nueva característica de Gemini AI, la plataforma de inteligencia artificial de Google, permite una interacción multimodal en dispositivos, lo que significa que puede procesar entradas de texto, audio y video simultáneamente. Esto mejora notablemente las funciones de accesibilidad, como TalkBack en Android, donde Gemini Nano puede generar descripciones para imágenes y elementos de la interfaz que carecen de ellas. Además, esta actualización promete alertas en tiempo real durante llamadas telefónicas para detectar patrones de conversación típicos de estafas, aumentando así la seguridad del usuario.

La presentación de Veo e Imagen 3

Siguiendo la tendencia de otras plataformas como Midjourney y Sora. Veo, el avanzado modelo de generación de videos, es capaz de producir videos de alta definición en resolución 1080p, reflejando la visión creativa de un usuario con una impresionante comprensión del lenguaje natural y la semántica visual. Puede generar videos que no solo son detallados, sino que también aplican técnicas cinematográficas como el timelapse o tomas aéreas, ofreciendo un nivel de control creativo sin precedentes.

Imagen 3, por otro lado, es el último modelo de texto a imagen que presume de la capacidad de crear imágenes fotorrealistas. Ha mejorado la interpretación del lenguaje natural y puede agregar detalles intrincados a las imágenes a partir de indicaciones extensas, proporcionando una gama más amplia de estilos y representaciones visuales más precisas.

Proyect Astra

Representa un avance significativo en el procesamiento de datos en tiempo real y las capacidades de búsqueda. Esta iniciativa es parte de la visión más amplia de Google de aprovechar el poder de la inteligencia artificial en tareas cotidianas, haciendo que la tecnología sea más accesible e intuitiva. Project Astra tiene como objetivo desarrollar agentes universales que puedan asistir en actividades diarias, revolucionando potencialmente la forma en que interactuamos con nuestros dispositivos.

Con la integración de la IA en las funciones de búsqueda, Google está listo para simplificar tareas complejas, proporcionando a los usuarios una recuperación de información más eficiente y precisa. Los avances en IA mostrados en Google I/O 2024, incluyendo Project Astra, están listos para redefinir el panorama tecnológico, ofreciendo nuevas posibilidades tanto para desarrolladores como para consumidores. La conferencia ha destacado el compromiso de Google con la IA y su potencial para transformar nuestras experiencias digitales.

Ask Photo

Google photos + IA = búsqueda y organización de fotos de una manera mucho más eficiente. Integrada en Google Photos, esta función utiliza el modelo de IA Gemini para permitir a los usuarios buscar en sus galerías de fotos de manera más intuitiva y natural. Por ejemplo, se puede pedir a Google Photos que muestre «la mejor foto de cada parque nacional que he visitado» o que recuerde «dónde acampé el año pasado». Además, «Ask Photo» no solo mejora la búsqueda, sino que también asiste en la creación de resúmenes de viajes y sugiere subtítulos personalizados para compartir en redes sociales. Esta herramienta representa un paso adelante en cómo interactuamos con nuestras memorias digitales, facilitando el acceso a la información y los recuerdos valiosos con solo formular una pregunta.

Tecnología para identificar llamadas fraudulentas

En un esfuerzo por combatir las llamadas fraudulentas, Google reveló planes para desarrollar tecnología que pueda escuchar y analizar las llamadas en tiempo real para identificar posibles fraudes. Este es un claro ejemplo de cómo la IA puede ser utilizada para mejorar la seguridad y la confianza en las comunicaciones digitales. Además, se introdujo LearnLM, una nueva familia de modelos basados en Gemini orientados al aprendizaje, lo que podría transformar la educación y la formación profesional al proporcionar herramientas más eficaces para la planificación y evaluación de las evaluaciones.