Microsoft surprend l’industrie de l’IA avec l’introduction de Phi-3 Mini, un modèle de langage de taille réduite mais doté d’une puissance étonnamment impressionnante.

Un retour tonitruant dans l’arène de l’IA

Bien que l’industrie de l’IA soit actuellement obsédée par les grands modèles de langage (LLM), l’apparition de modèles de plus petite taille, appelés SLM, est de plus en plus fréquente. Des géants de la tech comme Meta aux nouvelles start-ups pleines de promesses comme Mistral investissent activement dans ce segment. Microsoft s’inscrit dans cette tendance en lançant le Phi-3 Mini, qui est le premier d’une série de trois modèles légers prévus pour les prochains mois.

La puissance dans la légèreté

Avec un total de 7 milliards de paramètres, Phi-3 Mini est un véritable poids plume dans le domaine de l’apprentissage machine. Toutefois, ce petit monument de technologie pourrait bien défier les plus grands modèles en termes de performances. Eric Boyd, vice-président chez Azure, la branche IA cloud de Microsoft, affirme que malgré sa taille réduite, Phi-3 est presque aussi performant que GPT-3.5, qui jouait un rôle déterminant dans l’industrie.

Focus sur la qualité des données

Pour arriver à de tels résultats, Microsoft a développé un système d’apprentissage tout à fait unique. Au lieu de se baser sur une quantité massive de données diverses, la compagnie a opté pour une approche centrée sur la qualité. En partant d’un ensemble de 3000 mots courants et accessibles à un enfant de 4 ans, les chercheurs ont demandé à un LLM indéfini de créer des histoires pour enfants. Celles-ci ont ensuite été utilisées comme corpus d’entraînement pour Phi-3 qui, à la surprise générale, a réussi à créer ses propres histoires avec une cohérence et une grammaire parfaites.

Vers un changement de paradigme dans l’IA grand public ?

Cette approche basée sur la qualité plutôt que sur la quantité semble prometteuse. Toutefois, elle est pour le moment incompatible avec les LLM à cause des vastes ressources humaines qu’elle requiert pour filtrer les données nécessaires à l’entraînement de ces mastodontes de l’IA. Néanmoins, cette philosophie pourrait influencer la future génération de modèles d’IA.

Nous assistons actuellement à une explosion du nombre de paramètres des LLM, ce qui engendre une augmentation conséquente du besoin en puissance de calcul, et par conséquent, du coût opérationnel. Cela explique pourquoi des entreprises comme OpenAI et Microsoft envisagent la création d’un supercalculateur à 100 milliards de dollars.

Toutefois, cette augmentation exponentielle des besoins en matériel pour accompagner les progrès de l’IA pourrait créer un goulot d’étranglement. Les fabricants de matériel informatique, comme Nvidia, peinent déjà à répondre à la demande croissante.

C’est dans ce contexte que des entreprises pourraient envisager de développer des modèles d’IA spécialisés dans le filtrage et la synthèse des données d’entraînement. Une telle stratégie permettrait d’augmenter la qualité des modèles conversationnels sans augmenter le nombre de paramètres. Cela pourrait mener ultérieurement à la création de modèles à la fois performants et économiques, indépendants de la puissance de calcul.

Il est encore trop tôt pour dire que les LLM sont dépassés. Cependant, la tendance actuelle vers une IA plus compacte mais de qualité supérieure mérite une observation attentive. Pourrait-on voir apparaître un changement radical dans la perception de l’IA dans un avenir proche ?

Ça vous a plu ? 4.4/5 (24)

Partagez maintenant.

Jessica, journaliste expérimentée avec dix ans en gestion de projet et production de contenu, est diplômée de Sciences Po en Communication et Médias. Elle apporte une expertise stratégique et un regard éclairé sur l'actualité tech, enrichissant chaque sujet avec une écriture précise et captivante. Contact : [email protected].

Publiez votre avis