Compétition des grands modèles d'IA : des percées académiques à la plus long mêlée

Compétition des grands modèles d'IA : des points chauds académiques aux problèmes d'ingénierie

Le mois dernier, une intense "guerre des animaux" a éclaté dans le domaine de l'IA.

D'un côté, il y a le Llama, un alpaga qui est très apprécié des développeurs en raison de sa nature open source. De l'autre, il y a un grand modèle appelé Falcon. En mai, après le lancement de Falcon-40B, il a dépassé le Llama pour prendre la première place du classement des LLM open source.

Ce classement est réalisé par une communauté de modèles open source et fournit des normes pour évaluer les capacités des LLM. Les classements sont essentiellement dominés par Llama et Falcon qui se renouvellent mutuellement. Après le lancement de Llama 2, la famille des lamas prend temporairement les devants ; mais au début septembre, la version 180B de Falcon a de nouveau atteint un classement plus élevé.

Il est intéressant de noter que les développeurs de "Faucon" ne sont pas une entreprise technologique, mais un institut de recherche en innovation technologique basé dans la capitale des Émirats Arabes Unis. Des responsables gouvernementaux ont déclaré qu'ils participaient à ce projet pour perturber les acteurs clés.

Aujourd'hui, le domaine de l'IA est entré dans une phase de floraison. Des pays et des entreprises puissants développent leurs propres grands modèles de langage. Dans la région du Golfe, il n'y a pas qu'un seul acteur - en août, l'Arabie Saoudite a acheté plus de 3000 puces H100 pour former des LLM pour ses universités.

Un investisseur a critiqué en disant : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrières. Je ne m'attendais pas à ce que la création de grands modèles de technologies avancées soit toujours une bataille entre de nombreux modèles..."

Comment la technologie matérielle, prétendument difficile, est-elle devenue une tendance à laquelle tout le monde peut participer ?

L'essor des Transformers

Les startups américaines, les géants technologiques chinois et les magnats du pétrole du Moyen-Orient doivent leur implication dans les grands modèles à ce célèbre article intitulé « Attention Is All You Need ».

En 2017, huit informaticiens ont publié l'algorithme Transformer dans cet article. Cet article est actuellement le troisième document le plus cité de l'histoire de l'IA, et l'apparition du Transformer a déclenché cette vague actuelle d'engouement pour l'IA.

Les différents grands modèles actuels, y compris la série GPT qui a fait sensation dans le monde entier, sont tous basés sur le Transformer.

Avant cela, "enseigner aux machines à lire" a toujours été reconnu comme un défi académique. Contrairement à la reconnaissance d'images, lors de la lecture, les humains ne se concentrent pas seulement sur les mots et les phrases actuels, mais comprennent également en tenant compte du contexte. Les entrées des premiers réseaux de neurones étaient indépendantes les unes des autres, incapables de comprendre les longs textes, ce qui entraînait souvent des erreurs de traduction.

En 2014, le scientifique de Google Ilya Sutskever a réalisé une percée. Il a utilisé des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, améliorant considérablement les performances de Google Traduction. Le RNN a proposé un "design récurrent", permettant à chaque neurone de recevoir simultanément l'entrée actuelle et celle du moment précédent, lui conférant ainsi la capacité de "prendre en compte le contexte".

L'apparition des RNN a enflammé l'enthousiasme de la recherche académique, mais les développeurs ont rapidement découvert qu'ils présentaient des défauts graves : cet algorithme utilise un calcul séquentiel, bien qu'il résolve le problème du contexte, son efficacité d'exécution est faible et il est difficile de traiter un grand nombre de paramètres.

Depuis 2015, Noam Shazeer et 8 autres chercheurs ont commencé à développer un substitut aux RNN, et le résultat final est le Transformer. Par rapport aux RNN, le Transformer a deux grandes révolutions : d'une part, il remplace la conception cyclique par un codage de position, permettant un calcul parallèle, ce qui améliore considérablement l'efficacité de l'entraînement et propulse l'IA dans l'ère des grands modèles ; d'autre part, il renforce davantage la capacité de compréhension du contexte.

Le Transformer a résolu de nombreux défauts et est progressivement devenu une solution majeure dans le domaine du NLP. Il a transformé les grands modèles d'une recherche théorique en un problème purement technique.

En 2019, OpenAI a développé GPT-2 basé sur le Transformer, étonnant le monde académique. Google a immédiatement lancé Meena, qui surpasse GPT-2 simplement en augmentant le nombre de paramètres et la puissance de calcul. Cela a profondément choqué Shazeer, l'auteur du Transformer, qui a rédigé un mémo intitulé "Meena dévore le monde".

Depuis la sortie du Transformer, la vitesse d'innovation des algorithmes fondamentaux dans le milieu académique a considérablement ralenti. Des éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul et l'architecture des modèles deviennent de plus en plus cruciaux dans la compétition en IA. Toute entreprise disposant d'une certaine puissance technique peut développer de grands modèles.

Le scientifique en informatique Andrew Ng a déclaré lors d'une conférence à l'Université de Stanford : "L'IA est un ensemble d'outils, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement et l'IA générative. Ce sont toutes des technologies générales, semblables à l'électricité et à Internet."

OpenAI est toujours le leader d'opinion des LLM, mais les analystes estiment que l'avantage de GPT-4 réside principalement dans les solutions d'ingénierie. Si c'est open source, n'importe quel concurrent peut rapidement le reproduire. Cet analyste s'attend à ce que d'autres grandes entreprises technologiques soient bientôt en mesure de créer de grands modèles de performance équivalente à celle de GPT-4.

Une muraille fragile

Aujourd'hui, la "guerre des centaines de modèles" n'est plus une exagération, mais une réalité objective.

Des rapports connexes montrent qu'à la fin de juillet de cette année, le nombre de grands modèles nationaux avait atteint 130, dépassant les 114 des États-Unis. Divers mythes et légendes ne suffisent plus aux entreprises technologiques nationales pour nommer leurs produits.

À part les États-Unis et la Chine, certains pays plus riches ont également réalisé des modèles nationaux : le Japon et les Émirats arabes unis ont déjà leurs propres grands modèles, ainsi que Bhashini dirigé par le gouvernement indien et HyperClova X développé par la société sud-coréenne Naver.

Cette scène semble nous ramener à l'époque des débuts de l'Internet, où la bulle était omniprésente. Comme mentionné précédemment, le Transformer a transformé les grands modèles en un pur problème d'ingénierie : tant que quelqu'un a de l'argent et des cartes graphiques, le reste est confié aux paramètres. Mais bien que la barrière à l'entrée ne soit pas élevée, cela ne signifie pas que tout le monde peut devenir un géant de l'ère de l'IA.

Le "Animal Battle" mentionné au début est un exemple typique : bien que Falcon ait dépassé Llama dans le classement, il est difficile de dire quel impact cela a eu sur Meta.

Comme chacun le sait, les entreprises open source leurs réalisations, tant pour partager les dividendes technologiques que pour mobiliser l'intelligence sociale. Avec l'utilisation et l'amélioration continues de Llama par divers secteurs, Meta peut appliquer ces résultats dans ses propres produits.

Pour les grands modèles open source, une communauté de développeurs active est la clé de la compétitivité.

Meta a établi une voie open source dès la création de son laboratoire d'IA en 2015 ; Zuckerberg, qui a fait ses débuts dans les médias sociaux, maîtrise encore mieux l'art de "bien gérer les relations publiques".

En octobre, Meta a également lancé un événement intitulé "Incitation des créateurs version AI" : les développeurs utilisant Llama 2 pour résoudre des problèmes sociaux tels que l'éducation et l'environnement auront la possibilité de recevoir un financement de 500 000 dollars.

Aujourd'hui, la série Llama de Meta est devenue le baromètre des LLM open source. Au début octobre, parmi les 10 premiers du classement des LLM open source, 8 étaient basés sur Llama 2. Rien que sur cette plateforme, il y a plus de 1500 LLM utilisant le protocole open source Llama 2.

Bien sûr, améliorer les performances comme Falcon n'est pas une mauvaise idée, mais la plupart des LLM sur le marché présentent encore un écart significatif par rapport à GPT-4.

Par exemple, récemment, GPT-4 a obtenu la première place au test AgentBench avec un score de 4,41. AgentBench a été lancé par l'Université Tsinghua en collaboration avec plusieurs prestigieuses universités américaines, et est utilisé pour évaluer la capacité de raisonnement et de décision des LLM dans des environnements ouverts multidimensionnels. Les contenus des tests couvrent 8 scénarios différents, y compris les systèmes d'exploitation, les bases de données, les graphes de connaissances, et les combats de cartes.

Les résultats des tests montrent que le deuxième, Claude, n'a obtenu que 2,77 points, avec un écart encore assez marqué. Quant aux LLM open source très médiatisés, leurs scores sont généralement autour de 1 point, soit moins d'un quart de celui de GPT-4.

Il faut savoir que GPT-4 a été publié en mars de cette année, ce qui est le résultat de plusieurs mois de rattrapage pour les concurrents mondiaux. Cette différence est due à l'excellente équipe de scientifiques d'OpenAI et à l'expérience accumulée dans la recherche sur les LLM, ce qui leur permet de rester toujours en tête.

En d'autres termes, l'avantage principal des grands modèles n'est pas les paramètres, mais la construction de l'écosystème ( open source ) ou la capacité de raisonnement pure ( closed source ).

Avec l'essor de la communauté open source, les performances des LLM pourraient converger, car tout le monde utilise des architectures de modèles et des ensembles de données similaires.

Un autre problème plus intuitif est que, à part Midjourney, il semble qu'aucun grand modèle ne soit vraiment rentable.

Où se trouve le point d'ancrage de la valeur

En août de cette année, un article intitulé "OpenAI pourrait faire faillite d'ici la fin de 2024" a suscité l'attention. Le sujet de l'article peut presque être résumé en une phrase : OpenAI brûle trop d'argent trop rapidement.

Le texte mentionne qu depuis le développement de ChatGPT, les pertes d'OpenAI se sont rapidement aggravées, atteignant environ 540 millions de dollars en 2022, ne pouvant compter que sur les investissements de Microsoft pour les soutenir.

Bien que le titre de l'article soit exagéré, il révèle également la situation de nombreux fournisseurs de grands modèles : un déséquilibre sévère entre les coûts et les revenus.

Des coûts trop élevés signifient qu'actuellement, seules Nvidia et, au mieux, Broadcom peuvent gagner beaucoup d'argent grâce à l'IA.

Selon la société de conseil Omdia, NVIDIA a vendu plus de 300 000 puces H100 au deuxième trimestre de cette année. Il s'agit d'une puce très efficace pour l'entraînement en IA, que des entreprises technologiques et des instituts de recherche du monde entier s'arrachent. Si ces 300 000 H100 étaient empilées, leur poids équivaudrait à celui de 4,5 avions Boeing 747.

Les performances d'NVIDIA ont explosé, avec des revenus en hausse de 854 % par rapport à l'année précédente, ce qui a surpris Wall Street. Actuellement, le H100 est revendu sur le marché de l'occasion pour 40 000 à 50 000 dollars, alors que son coût matériel n'est que d'environ 3 000 dollars.

Le coût élevé de la puissance de calcul est devenu, dans une certaine mesure, un frein au développement de l'industrie. Sequoia Capital a estimé que les entreprises technologiques mondiales devraient dépenser environ 200 milliards de dollars par an pour construire des infrastructures de grands modèles ; en revanche, ces grands modèles ne peuvent générer au maximum que 75 milliards de dollars de revenus par an, ce qui crée un écart d'au moins 125 milliards de dollars.

De plus, à l'exception de quelques rares cas comme Midjourney, la plupart des entreprises de logiciels n'ont toujours pas trouvé de modèle économique clair malgré des investissements massifs. En particulier, les explorations des leaders du secteur, Microsoft et Adobe, sont quelque peu hésitantes.

L'outil de génération de code AI GitHub Copilot, développé par Microsoft en collaboration avec OpenAI, coûte 10 dollars par mois, mais en raison des coûts d'infrastructure, Microsoft perd en réalité 20 dollars par utilisateur chaque mois, et les utilisateurs intensifs entraînent même des pertes allant jusqu'à 80 dollars par mois pour Microsoft. D'après cela, on peut supposer que le Microsoft 365 Copilot, qui est tarifé à 30 dollars, pourrait entraîner des pertes encore plus importantes.

De même, Adobe, qui vient de lancer l'outil Firefly AI, a rapidement mis en place un système de points pour empêcher les utilisateurs d'en abuser, ce qui pourrait entraîner des pertes pour l'entreprise. Une fois que les utilisateurs dépassent le quota de points alloué chaque mois, Adobe réduit la vitesse du service.

Il faut savoir que Microsoft et Adobe sont déjà des géants du logiciel avec des scénarios d'affaires clairs et un grand nombre d'utilisateurs payants. En revanche, la plupart des grands modèles avec une multitude de paramètres ont pour principale application le chat.

Il est indéniable que sans l'émergence d'OpenAI et de ChatGPT, cette révolution de l'IA n'aurait peut-être pas eu lieu ; mais à l'heure actuelle, la valeur créée par l'entraînement de grands modèles reste à discuter.

De plus, avec l'intensification de la concurrence homogène et l'augmentation des modèles open source, les fournisseurs de grands modèles pourraient faire face à des défis plus importants.

Le succès de l'iPhone 4 ne vient pas du processeur A4 gravé en 45 nm, mais du fait qu'il peut faire fonctionner des applications comme Plants vs. Zombies et Angry Birds.

GPT-8.64%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
0/400
BearMarketNoodlervip
· 08-10 06:40
classique prendre les gens pour des idiots de richesse pétrolière
Voir l'originalRépondre0
RumbleValidatorvip
· 08-09 23:00
Les données de test de stabilité n'ont pas été publiées, ce qui rend difficile la vérification de leur crédibilité.
Voir l'originalRépondre0
BanklessAtHeartvip
· 08-09 21:36
Parti industriel en délire L'Open Source est l'avenir Je recommande de foncer
Voir l'originalRépondre0
GateUser-c799715cvip
· 08-09 21:26
Se battre jusqu'aux Émirats arabes unis, c'est ça.
Voir l'originalRépondre0
AirdropHunterXMvip
· 08-09 21:13
Se battre, se battre, qui gagne, c'est à lui.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)