Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus
Microsoft a introduit une nouvelle classe de modèles d’IA très efficaces qui traitent simultanément du texte, des images et de la parole tout en nécessitant beaucoup moins de puissance de calcul que les systèmes existants. Le nouveau Modèles PHI-4publié aujourd’hui, représentent une percée dans le développement de modèles de petits langues (SLM) qui offrent des capacités précédemment réservées aux systèmes d’IA beaucoup plus grands.
PHI-4-Multimodalun modèle avec seulement 5,6 milliards de paramètres, et PHI-4-MINIavec 3,8 milliards de paramètres, surpassent les concurrents de taille similaire et correspondent ou dépassent les performances des modèles deux fois leur taille sur certaines tâches, selon Microsoft rapport technique.
«Ces modèles sont conçus pour permettre aux développeurs de capacités de l’IA avancées», a déclaré Weizhu Chen, vice-président de l’IA génératrice à Microsoft. «PHI-4-Multimodal, avec sa capacité à traiter simultanément la parole, la vision et le texte, ouvre de nouvelles possibilités pour créer des applications innovantes et consacrées au contexte.»
La réalisation technique survient à un moment où les entreprises recherchent de plus en plus des modèles d’IA qui peuvent fonctionner sur du matériel standard ou sur le « bord»- directement sur les appareils plutôt que dans les centres de données cloud – pour réduire les coûts et la latence tout en maintenant la confidentialité des données.
Comment Microsoft a construit un petit modèle d’IA qui fait tout cela
Qu’est-ce que les ensembles PHI-4-Multimodal En dehors est son roman « mélange de loras»Technique, lui permettant de gérer le texte, les images et les entrées de la parole dans un seul modèle.
«En tirant parti du mélange de loras, PHI-4-multimodal étend les capacités multimodales tout en minimisant les interférences entre les modalités», le document de recherche États. «Cette approche permet une intégration transparente et garantit des performances cohérentes entre les tâches impliquant du texte, des images et de la parole / audio.»
L’innovation permet au modèle de maintenir ses capacités linguistiques solides tout en ajoutant une vision et une reconnaissance vocale sans la dégradation des performances qui se produit souvent lorsque les modèles sont adaptés à plusieurs types d’entrée.
Le modèle a revendiqué la position supérieure sur le Câchage à l’étreinte OpenAsr Avec un taux d’erreur de mot de 6,14%, surperformant des systèmes de reconnaissance vocale spécialisés comme Whisperv3. Il démontre également des performances compétitives sur les tâches de vision comme le raisonnement mathématique et scientifique avec des images.
IA compact, impact massif: PHI-4-Mini établit de nouvelles normes de performance
Malgré sa taille compacte, PHI-4-MINI démontre des capacités exceptionnelles dans les tâches textuelles. Microsoft rapporte que le modèle «surpasse les modèles de taille similaire et est sur la fiche avec des modèles deux fois plus grands» dans diverses références de compréhension des langues.
Les performances du modèle sur les mathématiques et les tâches de codage du modèle sont particulièrement notables. Selon le document de recherche«PHI-4-MINI se compose de 32 couches de transformateur avec une taille d’état cachée de 3 072» et incorpore l’attention de la requête de groupe pour optimiser l’utilisation de la mémoire pour la génération de contexte à long terme.
Sur Benchmark mathématique GSM-8KPHI-4-MINI a obtenu un score de 88,6%, surpassant la plupart des modèles de paramètres de 8 milliards, tandis que sur la référence en mathématiques, il a atteint 64%, sensiblement plus élevé que les concurrents de taille similaire.
«Pour l’indice de référence en mathématiques, le modèle surpasse les modèles de taille similaire avec de grandes marges, parfois plus de 20 points. Il surpasse même deux fois les scores de modèles plus grands », note le rapport technique.
Déploiements transformateurs: Efficacité réelle de PHI-4 en action
Capacitéun moteur de réponse IA qui aide les organisations à unifier divers ensembles de données, a déjà exploité la famille PHI pour améliorer l’efficacité et la précision de leur plate-forme.
Steve Frederickson, chef du produit à capacité, a déclaré dans un déclaration«D’après nos expériences initiales, ce qui nous a vraiment impressionnés à propos du PHI, c’est sa précision remarquable et la facilité de déploiement, avant même la personnalisation. Depuis lors, nous avons pu améliorer la précision et la fiabilité, tout en maintenant la rentabilité et l’évolutivité que nous avons appréciées dès le début. »
La capacité a signalé une économie de coûts de 4,2x par rapport aux flux de travail concurrents tout en obtenant des résultats qualitatifs les mêmes ou meilleurs pour les tâches de prétraitement.
AI sans limites: les modèles PHI-4 de Microsoft apportent une intelligence avancée n’importe où
Pendant des années, le développement de l’IA est motivé par une philosophie singulière: plus grand est mieux. Plus de paramètres, des modèles plus grands, de plus grandes demandes de calcul. Mais les modèles PHI-4 de Microsoft remettent en question cette hypothèse, prouvant que le pouvoir n’est pas seulement une question d’échelle – il s’agit d’efficacité.
PHI-4-Multimodal et PHI-4-MINI ne sont pas conçus pour les centres de données des géants technologiques, mais pour le monde réel – où la puissance de calcul est limitée, les préoccupations de confidentialité sont primordiales et l’IA doit fonctionner de manière transparente sans une connexion constante avec le cloud. Ces modèles sont petits, mais ils ont du poids. PHI-4-Multimodal intègre la parole, la vision et le traitement de texte dans un seul système sans sacrifier la précision, tandis que PHI-4-MINI offre des performances de mathématiques, de codage et de raisonnement à égalité avec les modèles deux fois sa taille.
Il ne s’agit pas seulement de rendre l’IA plus efficace; Il s’agit de le rendre plus accessible. Microsoft a positionné PHI-4 pour une adoption généralisée, ce qui le rend disponible via Foundry Azure AI, Visage étreintet le Catalogue API NVIDIA. L’objectif est clair: l’IA qui n’est pas verrouillée derrière un matériel coûteux ou une infrastructure massive, mais qui peut fonctionner sur des appareils standard, au bord des réseaux et dans les industries où la puissance de calcul est rare.
Masaya Nishimaki, directrice de la société japonaise de l’IA, Headwaters Co., Ltd., voit l’impact de première main. « Edge AI démontre des performances exceptionnelles même dans des environnements avec des connexions réseau instables ou où la confidentialité est primordiale », a-t-il déclaré dans un déclaration. Cela signifie l’IA qui peut fonctionner dans les usines, les hôpitaux, les véhicules autonomes – des lieux où des renseignements en temps réel sont nécessaires, mais où les modèles traditionnels basés sur le cloud échouent.
À la base, PHI-4 représente un changement de pensée. L’IA n’est pas seulement un outil pour ceux qui ont les plus gros serveurs et les poches les plus profondes. C’est une capacité qui, si elle est bien conçue, peut fonctionner n’importe où, pour n’importe qui. La chose la plus révolutionnaire à propos de PHI-4 n’est pas ce qu’elle peut faire – c’est là qu’elle peut le faire.