Lancement du modèle QwQ-32B : Raisonnement avancé à faible coût

Alibaba Cloud lance QwQ-32B, un modèle de raisonnement compact de 32 milliards de paramètres, alliant performances et accessibilité.

Alibaba Cloud a récemment lancé le modèle de raisonnement QwQ-32B, un modèle compact de 32 milliards de paramètres qui parvient à offrir des performances rivalisant avec celles de modèles plus volumineux et à la pointe de la technologie.

Construit sur la base du modèle de langage Qwen2.5-32B, qui a le même nombre de paramètres, QwQ-32B excelle dans plusieurs benchmarks, dont AIME 24 (capacité de raisonnement mathématique), Live CodeBench (compétence en programmation), LiveBench (contamination de l'ensemble de test et évaluation objective), IFEval (capacité à suivre des instructions), et BFCL (comme les capacités d’appel d’outils et de fonctions).

La performance de QwQ-32B par rapport aux autres modèles de pointe, tels que DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini et le modèle original DeepSeek-R1, est révélatrice des avancées réalisées.

Renforcement des capacités de raisonnement par l'apprentissage par renforcement

Les performances exceptionnelles de QwQ-32B soulignent l'efficacité de l'Apprentissage par Renforcement (RL), qui est la technique centrale de ce modèle, lorsqu'elle est appliquée à une solide base comme le Qwen2.5-32B, pré-entraîné sur une vaste connaissance du monde. En tirant parti de l'évolutivité continue du RL, QwQ-32B affiche des améliorations notables dans le raisonnement mathématique et la compétence en programmation.

De plus, le modèle a été formé en utilisant des récompenses issues d'un modèle de récompense général et des vérificateurs basés sur des règles, ce qui améliore ses capacités globales. Cela comprend une meilleure capacité à suivre des instructions, une meilleure conformité aux préférences humaines, et des performances améliorées des agents.

Intégration des capacités d’agent pour un raisonnement avancé

L'équipe de recherche a également intégré des capacités liées aux agents dans QwQ-32B, permettant ainsi au modèle de penser de manière critique, d'utiliser des outils efficacement et d'adapter son raisonnement en fonction des retours d'environnement. L'équipe explore également l'intégration accrue des agents avec le RL pour permettre un raisonnement à long terme, aspirant à débloquer une intelligence encore plus grande par le biais d'une évolutivité en temps d'inférence.

QwQ-32B est désormais disponible en tant que modèle open-source sur Hugging Face et Model Scope sous licence Apache 2.0, offrant la possibilité de téléchargements gratuits. Il est également accessible via Qwen Chat. Grâce à ses coûts de déploiement réduits, ce modèle peut être déployé de manière efficace sur du matériel grand public.

En résumé, le lancement de QwQ-32B marque une avancée significative dans le domaine des modèles de langage compact, démocratisant l'accès à des performances de haut niveau en matière de raisonnement et de programmation. L’approche novatrice de l'apprentissage par renforcement ainsi que l'intégration des capacités d'agents apportent une dimension exceptionnelle à ce modèle, avec des applications potentielles dans divers domaines. Que ce soit pour des tâches de codage ou pour des raisonnements complexes, QwQ-32B se positionne comme un outil puissant et accessible.

Partager :

Articles sur le même thème

Les robots humanoïdes avancent, mais des défis techniques et économiques freinent leur adoption à grande échelle. L’avenir reste incertain.

Tmall d’Alibaba annonce un soutien stratégique aux marques en 2025, visant croissance et innovation sur sa plateforme B2C.

DeepSeek, pionnier de l’IA, a conquis 100M d’utilisateurs en 7 jours, redéfinissant l’innovation avec des modèles open-source.

Prada ouvre son premier restaurant à Shanghai, Mi Shang, en collaboration avec Wong Kar-wai, marquant une tendance des marques de luxe en Chine.