Novo modelo de IA aberto do Google revoluciona a geração de texto com velocidade 4x maior

Por Luciano Nascimento / junho 11, 2026

O Google DeepMind lançou nesta terça-feira (10) o DiffusionGemma. Trata-se de um modelo de inteligência artificial de código aberto que abandona a geração sequencial de texto para produzir blocos de 256 tokens em paralelo. Dessa maneira, ele alcança até 1.000 tokens por segundo numa NVIDIA H100 e opera com maior velocidade.

O que é o DiffusionGemma e como funciona a geração paralela de texto

De modo geral, o novo modelo da família Gemma 4 promete operar com velocidade até 4x maior em comparação com versões anteriores. Nesse sentido, a inovação está na forma como ele gera seus textos em blocos paralelos, trabalhando de forma inspirada em técnicas de difusão usadas em IA de imagens.

Novo modelo DiffusionGemma redefine a eficiência da IA local

Diferente do que se vê em modelos tradicionais autorregressivos, que geram texto token por token, o DiffusionGemma gera blocos inteiros de texto de forma simultânea. Esse processo “denoising”, então, é bem parecido com o que se utiliza em geração de imagens, refinando tokens até formar o texto final.

Clique aqui para ler mais