O Google anunciou na última terça-feira (5) os Multi-Token Prediction drafters, ou MTP, novos modelos assistentes projetados para acelerar em até 3 vezes o desempenho do modelo de IA Gemma 4 em execução local. A novidade promete resolver o gargalo de lentidão e alto consumo de recursos em hardware de consumidores comuns, incluindo celulares, mantendo a grande vantagem da privacidade ao processar dados offline.
O sistema utiliza uma técnica chamada “Speculative Decoding”, trabalhando com modelos de IA secundários. Ainda que soe contraintuitivo, já que usar vários modelos ao mesmo tempo pode parecer ser algo que consumiria mais desempenho do aparelho, a solução opera de forma bastante esperta para garantir o oposto.
De forma resumida, o método faz com que os modelos menores (drafters) atuem em paralelo, tentando “adivinhar” as próximas palavras do pedido do usuário antes mesmo de o modelo principal terminar a leitura. Enquanto o assistente avança no texto, o Gemma 4 apenas verifica se a previsão está correta. Se a sugestão for validada, o processo avança rapidamente e processa blocos inteiros de informação. Caso haja algum erro, a IA faz apenas a substituição pontual.
