Gemma

Gemma 4 est la nouvelle génération de modèles de langage large (LLM) de Google DeepMind. Gemma 4 est conçu pour offrir une intelligence conversationnelle avancée et des capacités d'agent de pointe, le tout avec une licence Apache 2.0.

Cette version représente un saut qualitatif majeur, destinée aux développeurs, chercheurs et entreprises qui souhaitent intégrer une IA de calibre professionnel, totalement ouverte et déployable localement, sans dépendance à une plateforme unique.

Contrairement aux modèles des générations précédentes, Gemma 4 ne se contente pas de générer du texte ; il est conçu pour agir. Il représente le chaînon manquant entre le simple chatbot et l'automatisation de flux de travail complexes, transformant l'IA en un véritable moteur d'automatisation.

Les Capacités Révolutionnaires de Gemma 4

La puissance de Gemma 4 repose sur trois piliers technologiques majeurs :

1. L'Intelligence d'Agent Native (Function Calling)

Gemma 4 est optimisé pour devenir un véritable agent. Il est capable de :

Planifier et Interagir: Il ne répond pas simplement ; il planifie des actions en plusieurs étapes.
Function Calling: Le modèle supporte nativement l'appel de fonctions, ce qui lui permet d'interagir avec des API externes (réservation de vol, consultation de stock, etc.) et de piloter des outils complexes.
Sortie Structurée: Il génère des sorties au format JSON structuré, garantissant une intégration parfaite et fiable dans tout flux de travail logiciel.

2. La Multimodalité de Pointe

Le modèle traite de manière native et unifiée plusieurs types de données, ce qui étend considérablement son champ d'application :

Texte (compréhension et génération de haute qualité).
Image (analyse de graphiques, de schémas, et reconnaissance de contenu visuel).
Vidéo (analyse de séquences et identification d'événements).
Audio (surtout sur les versions "Edge" pour la reconnaissance vocale).

3. Le Contexte de Mémoire Massive

Gemma 4 offre une fenêtre de contexte allant jusqu'à 128K ou même 256K tokens. Cela signifie que l'IA peut analyser :

Des dépôts de code entiers.
Des documents massifs (rapports, manuels) en une seule requête.
Des transcriptions très longues, en maintenant une cohérence contextuelle irréprochable.

Spécifications Techniques et Tailles des Modèles

La famille Gemma 4 est remarquablement adaptée à tous les niveaux de déploiement, du smartphone au supercalculateur, offrant un équilibre parfait entre performance et accessibilité.

Modèle	Taille (Paramètres)	Multimodalité	Contexte Max	Usage Typique	Exigences VRAM (Min.)
Gemma 4 E2B	2 Milliards (B)	Texte + Audio	128K	Edge Device / Embarqué (Raspberry Pi)	Très Faible
Gemma 4 E4B	4 Milliards (B)	Texte + Audio	128K	Mobile / Mini PC (Meilleur compromis)	Faible (Mac Air)
Gemma 4 26B	26 Milliards (MoE)	Texte + Image	256K	Stations de travail / Serveur Local	20 Go VRAM (RTX milieu de gamme)
Gemma 4 31B	31 Milliards (Dense)	Texte + Image	256K	Haute Performance / Serveur	24-32 Go VRAM (RTX haut de gamme)

Note : Le modèle 31B se positionne comme une bête de performance, s'imposant déjà parmi les meilleurs modèles ouverts des benchmarks de l'industrie.

Les modèles QAT : Gemma 4 en plus léger

Si tu as déjà essayé de faire tourner un modèle d'IA sur ton Mac ou ton PC et que ça a planté faute de mémoire, les versions QAT de Gemma 4 sont faites pour toi. Ce sont des variantes qui consomment beaucoup moins de mémoire vive (RAM) tout en restant très performantes.

Concrètement, un modèle classique de 12 milliards de paramètres peut nécessiter environ 24 Go de RAM juste pour ses poids. En version QAT, ce besoin peut descendre autour de 6 à 10 Go selon ton contexte et ton runtime, rendant le modèle utilisable sur des machines bien plus modestes.

La commande pour lancer un modèle QAT avec Ollama est simple :

ollama run gemma4:12b-it-qat

Et pour une machine plus limitée :

ollama run gemma4:e4b-it-qat

Pour choisir le bon modèle selon ta machine :

Ta Machine	Modèle à tester en premier
Mac avec 8 Go RAM	`e2b-it-qat` ou `e4b-it-qat`
Mac avec 16 Go RAM	`e4b-it-qat`, éventuellement `12b-it-qat`
Mac avec 32 Go RAM	`12b-it-qat`, possiblement `26b-a4b-it-qat`
GPU 24 Go (RTX 3090/4090)	`26b-a4b-it-qat` ou `31b-it-qat`

Comprendre QAT en détail

Cette section s'adresse à ceux qui veulent comprendre ce qui se cache derrière ces variantes.

Que signifie QAT ?

Un modèle classique est stocké en précision élevée, par exemple en bfloat16 ou float16. Cela signifie que chaque paramètre occupe environ 16 bits, soit 2 octets.

La quantification consiste à réduire le nombre de bits utilisés pour stocker les poids :

Format	Mémoire par poids	Effet
FP16 / BF16	16 bits	Qualité haute, mémoire élevée
INT8	8 bits	Environ 2× moins lourd
Q4 / 4-bit	4 bits	Environ 4× moins lourd

QAT signifie Quantization-Aware Training. L'important, c'est que le modèle a été entraîné en sachant qu'il serait quantifié. Il apprend donc à mieux supporter cette compression. C'est généralement meilleur qu'une quantification faite après coup, appelée PTQ (Post-Training Quantization), où l'on prend un modèle existant et on le compresse sans réentraînement.

En résumé : un modèle QAT offre une meilleure qualité qu'une quantification improvisée, tout en consommant nettement moins de mémoire.

Comment lire les tags des modèles

Les noms de modèles QAT suivent une logique précise. Prenons l'exemple de gemma4:12b-it-qat :

Élément	Signification
`gemma4`	Famille Gemma 4
`12b`	Environ 12 milliards de paramètres
`it`	Instruction-tuned, optimisé pour le chat / assistant
`qat`	Quantization-Aware Trained, optimisé pour une version quantifiée

Pour gemma4:26b-a4b-it-qat, le a4b indique un modèle de type Mixture-of-Experts (MoE) : il y a environ 26B paramètres au total, mais seulement une partie (environ 3,8B) est activée par token, ce qui le rend plus économe en calcul qu'un modèle dense de même taille.

La mémoire en pratique : ce que QAT change (et ce qu'il ne change pas)

QAT réduit la taille des poids du modèle, mais la mémoire utilisée pendant l'inférence comprend aussi d'autres éléments :

Les poids du modèle — C'est là que QAT aide énormément. Les poids en 4-bit sont beaucoup plus petits.
Le KV cache — C'est la mémoire utilisée pour retenir le contexte pendant la génération. Plus tu utilises un contexte long (32K, 128K, 256K tokens), plus ça consomme. Gemma 4 annonce jusqu'à 256K tokens de contexte, ce qui peut devenir très coûteux en mémoire.
Les buffers d'exécution — Dépendent du backend, de la taille du batch, du GPU, de Metal/CUDA/Vulkan, etc.

Donc QAT réduit surtout la taille des poids, mais ne rend pas magiquement gratuit un très long contexte.

Déploiement Local : Comment ça Marche ?

L'objectif d'open source de Google est de garantir que l'utilisateur final puisse déployer le modèle sur son propre matériel.

Sur Mac (Apple Silicon): Le modèle fonctionne parfaitement grâce à l'utilisation de la mémoire unifiée. Les versions E2B et E4B sont idéales pour démarrer sur un MacBook Pro ou Air, permettant des usages de chat, résumé ou traduction avancés localement.
Sur PC/Serveur (GPU): L'accélération maximale est atteinte sur les GPU professionnels (via CUDA pour Nvidia, et ROCm pour AMD). Les modèles 26B/31B nécessitent une VRAM conséquente.
Simplification du déploiement: Des outils tiers (comme Ollama) simplifient l'installation, permettant de gérer facilement les différentes tailles de modèles et de maximiser l'utilisation de la mémoire sur des architectures variées.

Et du côté de Gemini ? (Complémentarité)

En complément de Gemma, il est utile de connaître Gemini, qui représente la puissance maximale de l'écosystème Google.

🤖 Gemini : Est idéal lorsque l'on a besoin de la performance absolue et de l'accès à des fonctionnalités propriétaires Google (comme l'analyse de vidéos d'une heure). Il est très puissant pour l'analyse de données massives et les usages commerciaux intégrés à Google Workspace.
⭐ Gemma 4 : Est le choix privilégié lorsque l'on exige l'indépendance, la personnalisation et le déploiement local. Il offre le meilleur compromis entre performance de pointe et ouverture de la licence.

Conclusion : Quand choisir quoi ?

Objectif	Recommandation	Raisonnement
Déploiement privé/local	Gemma 4	Open-source, libre de dépendances cloud, performance garantie.
Faible consommation (IoT, Raspberry Pi)	Gemma 4 E2B ou E4B	Très léger, conçu pour l'efficacité énergétique.
Performance maximale / Vidéo très longue	Gemini	Accès aux modèles les plus puissants et aux fonctionnalités propriétaires Google.

Les Capacités Révolutionnaires de Gemma 4​

1. L'Intelligence d'Agent Native (Function Calling)​

2. La Multimodalité de Pointe​

3. Le Contexte de Mémoire Massive​

Spécifications Techniques et Tailles des Modèles​

Les modèles QAT : Gemma 4 en plus léger​

Comprendre QAT en détail​

Que signifie QAT ?​

Comment lire les tags des modèles​

La mémoire en pratique : ce que QAT change (et ce qu'il ne change pas)​

Déploiement Local : Comment ça Marche ?​

Et du côté de Gemini ? (Complémentarité)​

Conclusion : Quand choisir quoi ?​