Tencent dévoile quatre modèles compacts de Hunyuan à source ouverte avec des paramètres de 0,5B, 1,8B, 4B et 7B

Tencent a mis en libre accès son modèle d'IA Hunyuan, en publiant quatre modèles linguistiques compacts en libre accès (Source : Tencent)

Tencent a mis en libre accès son modèle d'IA Hunyuan, en publiant quatre modèles de langage compacts avec 0,5 milliard, 1,8 milliard, 4 milliards et 7 milliards de paramètres qui peuvent fonctionner sur un seul GPU grand public.

Nathan Ali (traduit par Ninh Duy), Publié 08/04/2025 🇺🇸 🇪🇸 ...

AI Open Source Chinese Tech

Tencent a publié sur une nouvelle série de modèles compacts Hunyuan une nouvelle série de modèles Hunyuan compacts : 0.5 milliards, 1,8 milliard, 4 milliards et 7 milliards de paramètres ; ils sont destinés aux déploiements à faible consommation d'énergie et en périphérie. Les quatre configurations sont désormais disponibles sur GitHub et Hugging Face, et chacune d'entre elles peut exécuter l'inférence sur une seule carte graphique grand public, ce qui les rend adaptées aux ordinateurs portables, aux smartphones, aux systèmes de cabine intelligente et à d'autres matériels à ressources limitées.

Malgré leur petite taille, les modèles obtiennent les meilleurs résultats en compréhension du langage, en mathématiques et en raisonnement dans plusieurs tests de référence publics. Tencent attribue ces résultats à une architecture de "raisonnement par fusion" qui permet aux utilisateurs de choisir entre un mode de réflexion rapide pour des réponses concises et un mode de réflexion lente pour un raisonnement plus élaboré en plusieurs étapes.

L'une des principales caractéristiques techniques est la fenêtre contextuelle native de 256 000 jetons, qui permet d'ingérer environ 500 000 mots anglais en une seule fois. Tencent met en avant des applications internes telles que Tencent Meeting et WeChat Reading, où les modèles peuvent analyser une transcription de réunion entière ou un livre complet en une seule fois, en conservant les relations entre les personnages et les détails de l'intrigue pour les requêtes ultérieures.

Les quatre LLM compacts s'intègrent aux cadres d'inférence courants, notamment SGLang, vLLM et TensorRT-LLM, et prennent en charge plusieurs formats de quantification. Les premiers soutiens d'Arm, Qualcomm, Intel et MediaTek indiquent que des packages de déploiement optimisés pour leurs processeurs clients respectifs seront bientôt disponibles.

Les premiers cas d'utilisation soulignent l'aspect pratique de cette version. Tencent Mobile Manager fait état d'une interception de spam au niveau de la milliseconde sans transfert de données hors de l'appareil. Dans le même temps, un schéma à double modèle dans l'assistant de cabine intelligent de Tencent permet d'équilibrer la consommation d'énergie à bord et la profondeur de la conversation. Selon Tencent, ces exemples démontrent que de petits modèles peuvent offrir des capacités d'agent de niveau entreprise lorsqu'ils sont conçus de manière réfléchie.