Google lança modelos Gemma 4 para IA local em smartphones

A Google lançou novos modelos Gemma 4 com Quantization-Aware Training (QAT), uma abordagem que permite executar IA local em dispositivos como smartphones, portáteis e hardware edge com requisitos de memória muito mais baixos. Ao contrário da quantização tradicional pós-treino, que comprime um modelo já treinado e pode comprometer a qualidade dos resultados, o QAT integra esse processo durante o treino.

- Advertisement -

Assim, o próprio modelo aprende a adaptar-se à compressão, preservando um nível de desempenho mais próximo da versão original. Segundo a Google, esta técnica permite manter uma qualidade semelhante à de bfloat16, reduzindo de forma significativa a memória necessária para carregar o modelo.

Google mantém a força no universo de IA

Além disso, a empresa disponibilizou cinco variantes: Gemma 4 E2B, E4B, 12B, 26B A4B e 31B. Os dois modelos mais pequenos contam com compressão de 2 bits, enquanto os maiores recorrem a QAT de 4 bits. Por outro lado, os ficheiros estão acessíveis em vários formatos, incluindo GGUF, uma versão otimizada para mobile e Compressed Tensors, com distribuição através de plataformas como o Hugging Face e o LM Studio.

Este lançamento surge pouco depois da apresentação do Gemma 4 12B, um modelo multimodal com arquitetura unificada e sem encoder separado, capaz de processar texto, imagem e áudio no mesmo sistema. Nesse caso, a proposta já apontava para execução local em portáteis com 16 GB de VRAM ou memória unificada.

No entanto, os novos checkpoints com QAT descem ainda mais essa fasquia. O Gemma 4 E2B, com menos de 1 GB de memória, abre espaço para inferência local em smartphones e outros dispositivos com recursos limitados. Ao mesmo tempo, o modelo 31B em 4 bits torna-se mais viável em GPUs desktop com 24 GB de VRAM.

Expansão da IA on-device para programadores

Para os programadores, as implicações são relevantes. Os modelos chegam afinados para instruções e compatíveis com multi-token prediction, o que, por conseguinte, facilita a combinação com speculative decoding para acelerar a inferência. Além disso, a Google também lançou uma aplicação desktop para macOS, permitindo interações locais por voz e imagem sem dependência da cloud.

- Advertisement -

Em termos práticos, esta nova geração de modelos QAT posiciona-se como a referência oficial para inferência comprimida em ambiente local. Assim, para a comunidade de IA local, estes pesos passam a ser uma alternativa mais fiável e otimizada face às quantizações pós-treino criadas informalmente por terceiros.

Fica ainda mais conectado:

Fonte

- Pub -
João Paulo
João Paulo
Aprendiz de código, com gosto por artes marciais e tecnologia. Encontro na tecnologia o espaço onde posso encontrar ferramentas que me ajudam no dia a dia e a ligar-me a quem preciso.