mai 27, 2024

Les Meilleures Chatbots d’IA Open Source à Mai 2024

Il n’y a pas si longtemps, les modèles open-source étaient à la remorque de GPT-3.5 et de Claude, mais les choses ont commencé à changer. Nous avons testé au sein de notre Lab IA, VUCA-AI, quatre modèles pour voir comment ils se comportent.

Nous avons fait simple : pas de traitement multimodal comme la vision ou l’audio, juste du bon vieux langage naturel. Nous avons utilisé le même message simple : « Imaginez que vous êtes un enseignant en Primaire. Pouvez-vous expliquer la théorie de la relativité à une classe de CE2 ? »

Spoiler : Nos modèles open-source préférés (et les moins préférés)

Gemma remporte la première place pour avoir fourni un plan clair, des questions de discussion stimulantes et, de loin, les définitions les plus succinctes et les plus faciles à comprendre des concepts clés.

LLaVa occupe la dernière place pour son manque d’informations claires et concises. Plus que les autres, il a sacrifié la clarté pour obtenir un ton spécifique.

La base de comparaison : Les performances de Claude Opus, GPT-4 et Gemini Pro sur la même tâche

Avant de déterminer quels modèles open-source ont réussi le test, établissons une base de référence avec les trois grands LLM (Claude, GPT et Gemini).

Claude Opus

Notre note : 7.5/10

‍Les points forts : La structure narrative était très bien adaptée au public visé par le Prompt. Il utilise une analogie cohérente pour décrire l’ensemble de la théorie.

‍Où il a échoué : il a donné la priorité à la narration sur la clarté à certains moments, ce qui a rendu l’analogie moins utile à la compréhension du concept.

ChatGPT (GPT-4)

Notre note : 9/10

‍Les points forts : Il a fourni des analogies les plus faciles à comprendre pour le public visé par le Prompt. Il a commencé de manière simple et s’est appuyé sur ses explications pour devenir plus complexe.

‍Les points faibles : La réponse est assez difficile à critiquer, mais si nous devions pinailler, nous dirions qu’elle ne fait qu’allusion à certaines parties de la théorie au lieu de les expliquer complètement.

Gemini

Notre note : 8/10

‍Les points forts : Il a utilisé le même style narratif et les mêmes analogies que Claude, mais il a expliqué le concept de manière beaucoup plus claire.

‍Où il a échoué : il a fourni des suggestions de discussion qui n’avaient rien à voir avec le sujet. Il fait également référence à des exemples qui sont probablement trop complexes pour le public auquel nous nous adressons.

Le meilleur des trois « grands »

Chacun d’entre eux est capable de décomposer correctement des concepts complexes en utilisant la narration et les analogies, mais GPT-4 a fourni la réponse la plus accessible pour les novices avec le contexte le plus réaliste.

Évaluation des modèles open-source

Lorsque nous parlons de la taille d’un modèle, nous parlons de la quantité de données sur lesquelles il a été entraîné. Cette quantité est mesurée en « paramètres » (2 milliards, 7 milliards, etc.). Plus de paramètres signifie plus de connaissances, mais les modèles plus petits peuvent toujours être performants, car ce n’est pas seulement une question de taille – l’efficacité et la performance comptent aussi.

Mistral Medium

Créateur : Mistral, une startup française fondée en avril 2022 par d’anciens employés de Meta et de DeepMind de Google.

‍Taille du modèle : Moyenne

‍Notre note : 6/10

‍Les points forts : Utilise un ton réaliste et conversationnel, donne des exemples appropriés à l’énoncé.

‍Les points faibles : les analogies utilisées ne sont pas très claires. Il ne décompose pas les concepts de manière suffisamment simple et ne fournit pas de résumé pour rappeler les points principaux.

‍Notre avis : Le modèle linguistique de Mistral est un choix fiable et personnalisable pour ceux qui souhaitent adapter leur assistant d’intelligence artificielle à leurs préférences. Il existe depuis un certain temps et propose des modèles open-source plus petits qui peuvent même fonctionner sur votre ordinateur portable. Toutefois, si vous avez besoin d’une solution instantanée et prête à l’emploi, vous devriez peut-être chercher ailleurs pour l’instant.

Gemma

Créateur : Google

‍Taille du modèle : Petit / moyen

‍Notre note : 8/10

‍Les points forts : Organisation de l’information très claire, succincte et digeste. Fournit des questions de discussion plus pertinentes que celles de Gemini.

Points faibles : Bien qu’il explique les choses très simplement, il n’utilise pas d’analogies ou de comparaisons pour illustrer un concept. Il s’agit davantage d’une vue d’ensemble que d’un récit didactique.

‍Notre avis : Gemma est notre choix de prédilection pour les modèles linguistiques d’IA prêts à l’emploi. C’est un assistant qui n’a pas besoin de beaucoup de formation, parfait pour créer vos propres applications d’IA sans encombrement supplémentaire. Polyvalent, efficace et prêt à s’attaquer à presque toutes les tâches, Gemma est l’acteur principal pour créer quelque chose d’intéressant avec des modèles de langage open-source.

DBRX

Créateur : Databricks

Taille du modèle : Grand

‍Notre note : 7/10

‍Les points forts : Réponse claire, sans fioritures, qui va immédiatement à l’essentiel. Utilise des exemples simples et concrets qui rendent les concepts digestes.

‍Les points faibles : Ne fournit pas de récapitulatif pour résumer les principaux apprentissages.

‍Notre avis : malgré ses impressionnants 132 milliards de paramètres DBRX n’a pas pu égaler les performances de Gemma lors de nos tests. Alors que DBRX est plus puissant, Gemma a l’intelligence et la finesse nécessaires pour fournir les résultats dont nous avions besoin. Cela prouve que la taille n’est pas toujours meilleure en IA – parfois, un modèle plus petit et plus ciblé comme Gemma peut surpasser ses homologues plus grands en comprenant mieux et en répondant à des besoins spécifiques.

LLaVa 1.5

Créateurs : Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

Taille du modèle : Moyen / Grand

Notre note : 5/10

‍Les points forts : Il n’a pas vraiment excellé en quoi que ce soit, mais il a réussi à adopter un ton amical et accessible. Il a tenté des analogies pour simplifier un sujet complexe, mais n’a pas vraiment réussi.

‍Les points faibles : Les analogies créent plus de confusion qu’elles n’apportent d’aide. Elle introduit des concepts confus – tels que les objets qui tombent vers le haut et les « horloges spéciales » – et n’explique jamais complètement quoi que ce soit. Une synthèse rendrait sa réponse plus efficace.

‍Notre avis : Alors que la génération de texte de LLaVa nous a laissés sur notre faim, son véritable potentiel réside dans ses capacités de vision, non testées. Si vous avez besoin d’un modèle capable de traiter à la fois du texte et des images, LLaVa est un bon point de départ. Un peu de peaufinage peut l’aider à s’adapter à vos besoins spécifiques.

Les modèles open-source sont-ils en train de rejoindre les références ?

Notre verdict : Presque.

Quelques-unes de ces réponses open-source étaient presque aussi bonnes que celles fournies par les trois grands, mais aucune d’entre elles n’a atteint la narration et le ton qu’Opus, GPT-4 et Gemini ont été en mesure de formuler.

Bien sûr, il y a plus à prendre en compte que le simple fait de répondre à une question de base. Si vous envisagez d’opter pour un modèle open-source, prenez en compte des éléments tels que le coût par million de tokens, la vitesse globale et la possibilité de personnaliser et de contrôler le modèle en fonction de votre cas d’utilisation spécifique.