Lundi 13 mai 2024, OpenAI a annoncé le lancement de son nouveau modèle, GPT-4o, version améliorée du précédent, GPT-4.
Voyons ce qui rend ce lancement intéressant, pourquoi il donne des sueurs froides aux grandes entreprises technologiques et ce qui pourrait nous inquiéter (s’il y a lieu).
Qu’est-ce que GPT-4o ?
GPT-4o est le nouveau modèle phare d’OpenAI – voici ce qu’il améliore :
- Même "niveau d'intelligence" que GPT4, mais réponses beaucoup plus rapides,
- Accepte les Prompts et fournit des réponses en mode texte, vocal et visuel (vous pourrez donc allumer votre caméra et lui parler comme à un collègue),
- Gratuit pour tout le monde, bien que les utilisateurs gratuits soient limités en termes de capacité,
- Intègre une application pour ordinateur de bureau (et pas seulement une version pour navigateur),
- Parle en 50 langues et sur plusieurs tonalités, comme le sarcasme (sic), la joie, le chant...
Ce nouveau modèle est actuellement déployé pour les utilisateurs de ChatGPT Plus et Team, et sera bientôt disponible pour les utilisateurs de la version Enterprise. Pour l’instant, il semble que seules les applications mobiles et de bureau auront des capacités multimodales complètes, et qu’elles seront déployées pour tous les utilisateurs dans les semaines à venir.
Ce qui est intéressant et ce qui n’est que de la com’
Certaines de ces fonctionnalités sont réellement révolutionnaires, tandis que d’autres ne font qu’étoffer le communiqué de presse.
Voici ce que nous en pensons.
Révolutionnaire :
- Des capacités multimodales au sein d'une seule plateforme (voix, texte, vision)
- Réponses beaucoup plus rapides, permettant une conversation en temps réel
- Peut s'exprimer en 50 langues
- Gratuit (avec des limites de capacité)
- Application de bureau et application mobile - améliorera certainement l'utilité de ChatGPT
Uniquement de la com’ (pour l’instant) :
- Chant, "sarcasme" et autres voix - c'est un truc sympa, mais nous ne sommes pas convaincus que cela ajoute beaucoup à l'expérience de l'utilisateur que ChatGPT ait une voix "sarcastique".
- La démonstration d'"algèbre linéaire" a donné l'impression que le problème était très complexe, alors qu'il était en fait assez simple. Des tests en situation réelle permettront de déterminer si le modèle a permis d'améliorer de manière significative les capacités de raisonnement avancé.
- Les deux GPT-4o qui interagissent et chantent ressemblent plus à un gadget qu'à une application utile, et les démonstrations sont difficiles à regarder.
La plus grande innovation: c’est une plateforme multimodale
La plus grande avancée, et de loin, est que GPT-4o est « nativement multimodal ». Cela signifie qu’il peut répondre et comprendre le monde à travers la voix, le texte et les images, le tout via une interface unique.
Ainsi, au lieu d’avoir à taper le contexte d’un problème que vous voulez que ChatGPT résolve, vous pouvez allumer votre appareil photo et montrer le problème au modèle en temps réel – et obtenir des réponses presque instantanément. La nouvelle application de bureau donnera également à ChatGPT la possibilité d’analyser les écrans de bureau et de prendre des captures d’écran pour tout ce dont vous voulez discuter.
(Attention: vous devez prendre toutes les démonstrations fournies par une entreprise avec un peu de scepticisme, surtout quand le modèle est en phase de lancement ;-))
Mais… pourquoi est-ce gratuit ?
OpenAI a mis le modèle GPT-4o à la disposition de tous, y compris de ses utilisateurs gratuits. Les utilisateurs gratuits auront une limite en termes de nombre de messages qu’ils peuvent envoyer avec GPT-4o. Une fois cette limite atteinte, ils passeront au modèle GPT-3.5 (qui, comme nous l’avons souligné dans le passé, procure une expérience très médiocre).
Les utilisateurs « Plus », quant à eux, verront leur limite de messages multipliée par 5 par rapport aux utilisateurs gratuits. Les utilisateurs « Team » et « Enterprise » auront des limites encore plus élevées. Nous ne savons pas encore quelle sera la limite pour les utilisateurs gratuits, mais OpenAI devra la rendre suffisamment basse pour inciter les gens à passer à la version payante, puisque le niveau de qualité est le même.
Comment cela est-il possible au niveau du modèle économique ?
Option 1 : ils ont réduit le coût du modèle. OpenAI a fait un grand clin d’œil à Nvidia/Jenson, nous supposons donc qu’ils ont dû apporter de sérieuses améliorations au coût du modèle. Mais il ne faut pas oublier que l’investissement important de Microsoft dans OpenAI a inspiré sa volonté d’opérer à perte pour gagner des parts de marché et améliorer ses modèles. Ils ont l’habitude de se concentrer sur la croissance de leurs consommateurs plutôt que sur la rentabilité immédiate.
Option 2 : leur croissance est axée sur les acheteurs professionnels et l’accès des développeurs. Compte tenu de l’énorme demande pour l’accès à l’API GPT-3 et GPT-4, l’offre gratuite de l’API GPT-4o est probablement une décision stratégique pour favoriser l’adoption massive face à la concurrence croissante de Gemini et de Claude.
Option 3 : nous payons avec nos données. En ayant accès à nos ordinateurs, caméras et microphones, OpenAI dispose d’un vaste réservoir de données pour former la prochaine génération de modèles. Ce réservoir de données prend de la valeur s’il s’ouvre et attire davantage d’utilisateurs gratuits. Il convient de noter que l’accès aux microphones et aux caméras n’est pas nouveau – ces capacités sont présentes dans l’application mobile d’OpenAI depuis un certain temps – et que l’intention derrière la collecte de données n’est pas de valoriser pour de la publicité ciblée. Mais la bonne règle de base reste : « Si tu ne payes par le produit, c’est que c’est toi le produit ». Dans le cas d’OpenAI, l’objectif n’est pas de monétiser les données des utilisateurs, mais d’utiliser nos contributions pour leur donner plus de valeur.
Ce que cela signifie pour le secteur de l’IA
Nous allons rapidement voir par mal de changements – voici nos prédictions :
Prédiction n° 1 : Davantage de modèles gratuits, les meilleurs de leur catégorie sont à venir. Dans une réaction défensive, d’autres développeurs de modèles innovants rendront probablement leurs meilleurs modèles gratuits. Cependant, il est peu probable qu’ils gagnent des parts de marché. La stratégie proactive d’OpenAI lui permet de capitaliser sur le potentiel de croissance, tandis que ses concurrents sont contraints de réagir et de s’adapter.
Prédiction n°2 : Apple améliorera Siri avec les capacités de GPT-4o (espérons-le lors de la WWDC en juin). Le vrai différentiateur pour Apple sera la façon dont ils gèrent la vie privée et l’exécution d’actions avec Siri (ce que le Humane Pin et le Rabbit r1 auraient dû être).
Prédiction n° 3 : Google va se planter – une fois encore – en essayant de réaliser des lunettes de réalité augmentée. Google a déjà raté le coche avec les LLM, mais il a présenté un assistant d’IA multimodal il y a 2 semaines lors de la conférence Google I/O. Le seul hic : Il est commercialisé pour être utilisé avec des lunettes de réalité augmentée, que personne n’a envie d’acheter.
Prédiction n° 4 : L’application de bureau de ChatGPT sera bientôt capable de prendre le contrôle d’un ordinateur et d’effectuer des actions. Permettre aux LLM d’exécuter du code sur un ordinateur pour accomplir des tâches semble être la prochaine étape.
Prédiction #5 : Le multimodal permettra aux LLM de construire leur propre modèle de monde « augmenté » en apprenant sur le monde réel à travers la vidéo et le texte, et la génération de vidéo commencera à s’améliorer rapidement avec de nouvelles données d’entraînement provenant des utilisateurs.
Et vous, quelles sont vos prédictions ?


