A Google lançou novos modelos Gemma 4 com Quantization-Aware Training (QAT), uma abordagem que permite executar IA local em dispositivos como smartphones, portáteis e hardware edge com requisitos de memória muito mais baixos. Ao contrário da quantização tradicional pós-treino, que comprime um modelo já treinado e pode comprometer a qualidade dos resultados, o QAT integra esse processo durante o treino.
Assim, o próprio modelo aprende a adaptar-se à compressão, preservando um nível de desempenho mais próximo da versão original. Segundo a Google, esta técnica permite manter uma qualidade semelhante à de bfloat16, reduzindo de forma significativa a memória necessária para carregar o modelo.
Google mantém a força no universo de IA
Além disso, a empresa disponibilizou cinco variantes: Gemma 4 E2B, E4B, 12B, 26B A4B e 31B. Os dois modelos mais pequenos contam com compressão de 2 bits, enquanto os maiores recorrem a QAT de 4 bits. Por outro lado, os ficheiros estão acessíveis em vários formatos, incluindo GGUF, uma versão otimizada para mobile e Compressed Tensors, com distribuição através de plataformas como o Hugging Face e o LM Studio.
Este lançamento surge pouco depois da apresentação do Gemma 4 12B, um modelo multimodal com arquitetura unificada e sem encoder separado, capaz de processar texto, imagem e áudio no mesmo sistema. Nesse caso, a proposta já apontava para execução local em portáteis com 16 GB de VRAM ou memória unificada.
No entanto, os novos checkpoints com QAT descem ainda mais essa fasquia. O Gemma 4 E2B, com menos de 1 GB de memória, abre espaço para inferência local em smartphones e outros dispositivos com recursos limitados. Ao mesmo tempo, o modelo 31B em 4 bits torna-se mais viável em GPUs desktop com 24 GB de VRAM.
Expansão da IA on-device para programadores
Para os programadores, as implicações são relevantes. Os modelos chegam afinados para instruções e compatíveis com multi-token prediction, o que, por conseguinte, facilita a combinação com speculative decoding para acelerar a inferência. Além disso, a Google também lançou uma aplicação desktop para macOS, permitindo interações locais por voz e imagem sem dependência da cloud.
Em termos práticos, esta nova geração de modelos QAT posiciona-se como a referência oficial para inferência comprimida em ambiente local. Assim, para a comunidade de IA local, estes pesos passam a ser uma alternativa mais fiável e otimizada face às quantizações pós-treino criadas informalmente por terceiros.
Fica ainda mais conectado:
- Os 5 melhores smartwatches até 200 euros em 2026
- Alerta: SMS falso do IRS tenta roubar dados bancários em Portugal
- Dyson Clean+Wash Hygiene Review: adeus esfregona tradicional?

