12 septembre 2024

Apprendre à raisonner avec les LLM

Découvrez OpenAI o1, un nouveau modèle de langage de grande taille conçu pour résoudre des problèmes complexes. Grâce à l’apprentissage par renforcement, o1 est capable de raisonner avant de répondre, en produisant une chaîne de pensée interne qui lui permet de mieux comprendre les questions posées.

OpenAI o1 est un nouveau modèle

de langage qui se classe parmi les meilleurs : il est dans le top 11 % des compétitions de programmation sur Codeforces, figure parmi les 500 meilleurs étudiants aux États-Unis lors des qualifications pour l’Olympiade de Mathématiques (AIME), et dépasse la précision du niveau doctorat humain sur des tests en physique, biologie et chimie (GPQA). Bien qu’il ne soit pas encore aussi simple à utiliser que d’autres modèles, une première version nommée OpenAI o1-preview est déjà disponible dans ChatGPT et pour les utilisateurs API de confiance.

L’algorithme d’apprentissage par renforcement à grande échelle apprend au modèle à réfléchir efficacement en utilisant des chaînes de pensée complexes. Les performances d’o1 s’améliorent avec plus de temps d’apprentissage et de réflexion. Cette approche présente des défis de mise à l’échelle différents de ceux de la préformation des modèles actuels, et nous continuons à les explorer.

Évaluations

Pour montrer l’amélioration du raisonnement par rapport à GPT-4o, ils ont testé le modèle OpenAI o1 sur un large éventail d’examens humains et de tests de performance en apprentissage automatique. Les résultats montrent que o1 dépasse largement GPT-4o sur la plupart des tâches nécessitant un raisonnement complexe. Sauf mention contraire, o1 a été évalué avec le paramètre de calcul du temps de test maximal.

o1 surpasse largement GPT-4o sur les tests de raisonnement complexes. Les barres pleines indiquent la précision de pass@1, tandis que la zone ombrée montre les performances obtenues par vote majoritaire (consensus) avec 64 échantillons.

 

o1 s’améliore par rapport à GPT-4o sur une large gamme de tests, y compris les sous-catégories MMLU 54/57. Sept d’entre eux sont présentés à titre d’illustration.

 

Dans de nombreux tests de référence en raisonnement, o1 atteint des performances comparables à celles des experts humains. Certains tests comme MATH et GSM8K sont maintenant moins efficaces pour différencier les modèles car les nouveaux modèles les réussissent trop bien. o1 a été évalué sur l’examen AIME, qui est destiné aux meilleurs élèves en mathématiques du lycée. Lors de l’examen AIME 2024, GPT-4o n’a résolu en moyenne que 12 % des problèmes, tandis que o1 a réussi 74 % avec un seul essai par problème, 83 % avec un consensus de 64 essais, et 93 % en reclassement avec 1 000 échantillons. Ce score place o1 parmi les 500 meilleurs élèves au niveau national, au-dessus du seuil de l’Olympiade mathématique des États-Unis.

o1 a aussi été testé sur GPQA diamond, un test difficile en chimie, physique et biologie. Des experts avec un doctorat ont répondu aux questions et o1 les a surpassés, devenant le premier modèle à atteindre ce niveau. Cela ne signifie pas que o1 est meilleur qu’un doctorat dans tous les domaines, mais qu’il est plus efficace sur certains types de problèmes. o1 a également amélioré l’état de l’art sur d’autres tests de ML. Avec la perception visuelle, il a obtenu 78,2 % sur MMMU, devenant le premier modèle à rivaliser avec les experts humains. Il a aussi surpassé GPT-4o sur 54 des 57 sous-catégories MMLU.

Codage

Ils ont formé un modèle basé sur o1 qui a obtenu 213 points et s’est classé dans le 49e percentile lors de l’Olympiade internationale d’informatique 2024 (IOI). Le modèle a été testé dans les mêmes conditions que les participants humains, avec dix heures pour résoudre six problèmes complexes et 50 soumissions possibles par problème. Leur système a utilisé une stratégie intelligente pour sélectionner les meilleures soumissions, en se basant sur les résultats des tests publics et des cas de test générés par le modèle lui-même. En comparaison, une soumission aléatoire aurait obtenu environ 156 points, montrant l’importance de la stratégie utilisée.

Lorsque la contrainte de soumission a été relâchée, le modèle a encore mieux performé : avec 10 000 soumissions possibles par problème, il a obtenu un score de 362,14, dépassant ainsi le seuil de la médaille d’or, même sans stratégie de sélection avancée.

Pour évaluer les compétences en programmation, ils ont simulé des concours de programmation compétitive sur Codeforces. GPT-4o a obtenu une note Elo de 3 sur 808, se classant dans le 11e percentile des concurrents humains. En revanche, leur modèle a obtenu une note Elo de 1807, surpassant 93 % des participants et montrant des compétences de codage bien supérieures à celles de GPT-4o et o1.

Sécurité

Le raisonnement par chaîne de pensée offre de nouvelles possibilités pour améliorer la sécurité et l’alignement des modèles d’IA. En intégrant nos règles de comportement dans le processus de raisonnement du modèle, cela permet d’enseigner efficacement les valeurs et principes humains. En enseignant au modèle nos règles de sécurité et comment raisonner autour de celles-ci, nous avons observé que la capacité de raisonnement renforçait la robustesse du modèle. Par exemple, o1-preview a montré des améliorations significatives sur les tests de sécurité les plus exigeants et sur la résistance aux « jailbreaks ».

Utiliser une chaîne de pensée améliore la sécurité car cela (1) permet de voir clairement comment le modèle « pense » et (2) rend le raisonnement du modèle plus solide, même dans des situations inattendues.