Gemma 4 sur Hugging Face : La surprise de Pâques de Google à télécharger

Gemma-4

Google lance Gemma 4 : la nouvelle famille de modèles (E2B à 31B) apporte des capacités de raisonnement et de multimodalité directement aux ordinateurs portables et aux smartphones. Avec une énorme fenêtre de contexte allant jusqu'à 256 000 jetons et une licence Apache 2.0, Google donne l'exemple en matière d'IA locale gratuite.

Marc Herter (traduit par DeepL / Ninh Duy), Publié 04/03/2026 🇺🇸 🇩🇪 ...

Juste avant Pâques, Google a lâché une surprise de taille sur Hugging Facele très attendu Gemma 4 est désormais disponible au téléchargement. Le lancement comprend quatre classes de taille principales : E2B, E4B, 26B A4B et 31B. Tous les modèles sont dotés d'un mode "Réflexion" intégré, qui leur permet de traiter des problèmes complexes étape par étape avant de fournir une réponse finale. L'enthousiasme suscité par cette nouvelle version est évident, car Gemma 4 est devenu utilisable localement dans des outils tels que LM Studio et Unsloth dans les heures qui ont suivi sa sortie.

Selon Googlecette nouvelle génération privilégie l'efficacité à la taille brute. Une amélioration notable par rapport à l'itération Gemma 3 précédente est que les plus petits modèles de la série actuelle atteignent déjà les niveaux de performance du plus grand modèle Gemma 3 sur différents bancs d'essai. Concrètement, cela signifie que des tâches qui nécessitaient auparavant un matériel haut de gamme peuvent désormais être effectuées localement sur un smartphone.

L'architecture varie en fonction du cas d'utilisation envisagé. Alors que la variante 31B utilise une structure relativement classique, le modèle 26B-A4B utilise une approche de mélange d'experts (MoE). Lors de l'inférence - le processus de calcul proprement dit - seuls quatre milliards de paramètres environ sont activés, bien que le modèle en possède 26 milliards au total. Cela garantit une vitesse élevée et une consommation modérée de ressources sans sacrifier la profondeur des connaissances. Les modèles E2B et E4B, plus petits, utilisent les Per-Layer Embeddings (PLE), qui fournissent des informations spécialisées pour chaque jeton à chaque couche du modèle, optimisant ainsi les performances spécifiquement pour les processeurs mobiles.

La fenêtre contextuelle, c'est-à-dire la quantité de données que le modèle peut garder "à l'esprit" simultanément, a également fait l'objet d'avancées significatives. Les modèles E2B et E4B prennent en charge 128 000 jetons, tandis que les variantes plus grandes (26B A4B et 31B) peuvent gérer jusqu'à 256 000 jetons. Cette capacité permet aux utilisateurs d'analyser des documents massifs ou des structures de code complexes en un seul passage.

La multimodalité est profondément intégrée dans Gemma 4, ce qui permet aux utilisateurs de mélanger texte et images de manière transparente dans une seule invite. Les modèles sont capables de reconnaître des objets, de lire des documents PDF et de reconnaître des caractères optiques (OCR). En outre, les modèles de périphérie (E2B et E4B) incluent le traitement natif des formats vidéo et audio, ce qui permet des fonctions telles que la reconnaissance automatique de la parole.

Une autre caractéristique puissante est la prise en charge native de l'"appel de fonction" Cela permet à l'IA d'agir comme un assistant virtuel, en exécutant de manière indépendante des commandes logicielles ou en utilisant des outils externes pour accomplir des tâches. Un exemple clair de cette tendance est l'outil "OpenClaw" actuellement populaire en Chine, qui repose sur ce principe d'agents d'IA. Avec Gemma 4, il devient nettement plus facile de déployer de tels systèmes entièrement sur son propre appareil.

Le cadre juridique est également un changement bienvenu : les modèles sont diffusés sous la licence Apache 2.0. Cela signifie qu'ils sont non seulement libres d'utilisation, mais qu'ils peuvent également être intégrés de manière flexible dans des projets propriétaires et utilisés commercialement, ce qui réduit considérablement la barrière pour les développeurs. Auparavant, tous les modèles Gemma étaient publiés sous une licence personnalisée créée par Google.

Les premiers tests pratiques soulignent les capacités linguistiques impressionnantes et l'efficacité accrue de ces modèles. En utilisant LM Studio sur un Bosgame M5nous avons obtenu une vitesse de réponse d'un peu plus de 10 tokens par seconde (tok/s) avec le modèle Gemma 4 31B, soit plus vite que le lecteur moyen ne peut traiter l'information. Les modèles plus petits sont encore plus agiles : les variantes E4B et 26B A4B dépassent facilement 40 tok/s, le plus petit modèle atteignant 60 tok/s. Toutefois, ceux qui souhaitent utiliser la taille de contexte complète du plus grand modèle Gemma 4 peuvent trouver que même 128 Go de RAM (comme dans le Bosgame M5) sont insuffisants ; l'IA peut réclamer plus de 80 Go pour elle-même, ce qui laisse peu de mémoire disponible pour d'autres tâches.