Meta parie gros sur l'IA avec des puces personnalisées

Blog

MaisonMaison / Blog / Meta parie gros sur l'IA avec des puces personnalisées

May 13, 2023

Meta parie gros sur l'IA avec des puces personnalisées

Lors d'un événement virtuel ce matin, Meta a levé le rideau sur ses efforts pour

Lors d'un événement virtuel ce matin, Meta a levé les rideaux sur ses efforts pour développer une infrastructure interne pour les charges de travail d'IA, y compris l'IA générative comme le type qui sous-tend ses outils de conception et de création d'annonces récemment lancés.

Il s'agissait d'une tentative de projection de force de Meta, qui a toujours mis du temps à adopter des systèmes matériels compatibles avec l'IA, ce qui entrave sa capacité à suivre le rythme de concurrents tels que Google et Microsoft.

"Construire nos propres capacités [matérielles] nous donne le contrôle à chaque couche de la pile, de la conception du centre de données aux cadres de formation », a déclaré Alexis Bjorlin, vice-président de l'infrastructure chez Meta, à TechCrunch. « Ce niveau d'intégration verticale est nécessaire pour repousser les limites de Recherche sur l'IA à grande échelle."

Au cours de la dernière décennie, Meta a dépensé des milliards de dollars pour recruter les meilleurs scientifiques des données et créer de nouveaux types d'IA, y compris l'IA qui alimente désormais les moteurs de découverte, les filtres de modération et les recommandations publicitaires présents dans ses applications et services. Mais l'entreprise a eu du mal à transformer bon nombre de ses innovations de recherche en IA les plus ambitieuses en produits, en particulier sur le front de l'IA générative.

Jusqu'en 2022, Meta exécutait en grande partie ses charges de travail d'IA en utilisant une combinaison de processeurs - qui ont tendance à être moins efficaces pour ce type de tâches que les GPU - et une puce personnalisée conçue pour accélérer les algorithmes d'IA. Meta a mis fin au déploiement à grande échelle de la puce personnalisée, qui était prévue pour 2022, et a plutôt passé des commandes pour des milliards de dollars de GPU Nvidia qui ont nécessité des refontes majeures de plusieurs de ses centres de données.

Dans un effort pour changer les choses, Meta a prévu de commencer à développer une puce interne plus ambitieuse, prévue pour 2025, capable à la fois de former des modèles d'IA et de les exécuter. Et c'était le sujet principal de la présentation d'aujourd'hui.

Meta appelle la nouvelle puce Meta Training and Inference Accelerator, ou MTIA en abrégé, et la décrit comme faisant partie d'une "famille" de puces pour accélérer la formation de l'IA et les charges de travail d'inférence. ("Inférence" fait référence à l'exécution d'un modèle formé.) Le MTIA est un ASIC, une sorte de puce qui combine différents circuits sur une carte, lui permettant d'être programmé pour effectuer une ou plusieurs tâches en parallèle.

Une puce IA Meta conçue sur mesure pour les charges de travail IA.Crédits image :Méta

"Pour obtenir de meilleurs niveaux d'efficacité et de performances sur nos charges de travail importantes, nous avions besoin d'une solution sur mesure co-conçue avec le modèle, la pile logicielle et le matériel du système", a poursuivi Bjorlin. "Cela offre une meilleure expérience à nos utilisateurs sur une variété de services."

Les puces AI personnalisées sont de plus en plus le nom du jeu parmi les joueurs Big Tech. Google a créé un processeur, le TPU (abréviation de "tensor processing unit"), pour former de grands systèmes d'IA génératifs comme PaLM-2 et Imagen. Amazon propose des puces propriétaires aux clients AWS à la fois pour la formation (Trainium) et l'inférence (Inferentia). Et Microsoft, semble-t-il, travaille avec AMD pour développer une puce IA interne appelée Athena.

Meta dit avoir créé la première génération du MTIA - MTIA v1 - en 2020, basée sur un processus de 7 nanomètres. Il peut évoluer au-delà de sa mémoire interne de 128 Mo jusqu'à 128 Go, et dans un test de référence conçu par Meta - qui, bien sûr, doit être pris avec un grain de sel - Meta affirme que le MTIA a géré "la faible complexité " et des modèles d'IA "de complexité moyenne" plus efficaces qu'un GPU.

Il reste du travail à faire dans les zones de mémoire et de mise en réseau de la puce, indique Meta, qui présentent des goulots d'étranglement à mesure que la taille des modèles d'IA augmente, nécessitant que les charges de travail soient réparties sur plusieurs puces. (Ce n'est pas un hasard si Meta a récemment acquis une équipe basée à Oslo qui construit une technologie de mise en réseau d'IA chez British Chip Unicorn Graphcore.) Et pour l'instant, le MTIA se concentre strictement sur l'inférence - et non sur la formation - pour les "charges de travail de recommandation" dans la famille d'applications de Meta.

Mais Meta a souligné que le MTIA, qu'il continue d'affiner, augmente "considérablement" l'efficacité de l'entreprise en termes de performances par watt lors de l'exécution de charges de travail de recommandation - permettant à son tour à Meta de fonctionner "plus amélioré" et "à la pointe de la technologie" (apparemment) Charges de travail de l'IA.

Peut-être qu'un jour, Meta reléguera l'essentiel de ses charges de travail d'IA à des banques de MTIA. Mais pour l'instant, le réseau social s'appuie sur les GPU de son supercalculateur axé sur la recherche, le Research SuperCluster (RSC).

Dévoilé pour la première fois en janvier 2022, le RSC - assemblé en partenariat avec Penguin Computing, Nvidia et Pure Storage - a terminé sa deuxième phase de construction. Meta indique qu'il contient désormais un total de 2 000 systèmes Nvidia DGX A100 équipés de 16 000 GPU Nvidia A100.

Alors pourquoi construire un supercalculateur en interne ? Eh bien, pour commencer, il y a la pression des pairs. Il y a plusieurs années, Microsoft a fait grand cas de son supercalculateur IA construit en partenariat avec OpenAI, et plus récemment a annoncé qu'il s'associerait à Nvidia pour construire un nouveau supercalculateur IA dans le cloud Azure. Ailleurs, Google vante son propre supercalculateur axé sur l'IA, qui dispose de 26 000 GPU Nvidia H100, ce qui le place devant Meta.

Le supercalculateur de Meta pour la recherche en IA.Crédits image :Méta

Mais au-delà de suivre les Jones, Meta dit que le RSC confère l'avantage de permettre à ses chercheurs de former des modèles en utilisant des exemples réels des systèmes de production de Meta. Cela diffère de l'infrastructure d'IA précédente de l'entreprise, qui ne s'appuyait que sur des ensembles de données open source et accessibles au public.

"Le supercalculateur RSC AI est utilisé pour repousser les limites de la recherche sur l'IA dans plusieurs domaines, y compris l'IA générative", a déclaré un porte-parole de Meta. "Il s'agit vraiment de productivité de la recherche en IA. Nous voulions fournir aux chercheurs en IA une infrastructure de pointe pour qu'ils puissent développer des modèles et leur donner une plate-forme de formation pour faire progresser l'IA."

À son apogée, le RSC peut atteindre près de 5 exaflops de puissance de calcul, ce qui, selon la société, en fait l'un des plus rapides au monde. (De peur que cela impressionne, il convient de noter que certains experts considèrent la métrique de performance exaflops avec une pincée de sel et que le RSC est de loin dépassé par bon nombre des supercalculateurs les plus rapides au monde.)

Meta dit qu'il a utilisé le RSC pour former LLaMA, un acronyme torturé pour "Large Language Model Meta AI" - un grand modèle de langage que la société a partagé comme une "version fermée" aux chercheurs plus tôt dans l'année (et qui a ensuite fui dans divers communautés Internet). Le plus grand modèle LLaMA a été formé sur 2 048 GPU A100, indique Meta, ce qui a pris 21 jours.

"La construction de nos propres capacités de supercalcul nous donne le contrôle à chaque couche de la pile, de la conception du centre de données aux cadres de formation", a ajouté le porte-parole. « RSC aidera les chercheurs en IA de Meta à créer de nouveaux et meilleurs modèles d'IA capables d'apprendre à partir de milliers de milliards d'exemples ; de travailler dans des centaines de langues différentes ; d'analyser ensemble de manière transparente du texte, des images et des vidéos ; de développer de nouveaux outils de réalité augmentée ; et bien plus encore. »

En plus de MTIA, Meta développe une autre puce pour gérer des types particuliers de charges de travail informatiques, a révélé la société lors de l'événement d'aujourd'hui. Appelée Meta Scalable Video Processor, ou MSVP, la puce est la première solution ASIC développée en interne par Meta, conçue pour les besoins de traitement de la vidéo à la demande et de la diffusion en direct.

Meta a commencé à imaginer des puces vidéo côté serveur personnalisées il y a des années, les lecteurs se souviendront peut-être, annonçant un ASIC pour le travail de transcodage et d'inférence vidéo en 2019. C'est le fruit de certains de ces efforts, ainsi qu'une poussée renouvelée pour un avantage concurrentiel dans le domaine de la vidéo en direct spécifiquement.

« Rien que sur Facebook, les gens passent 50 % de leur temps sur l'application à regarder des vidéos », ont écrit Harikrishna Reddy et Yunqing Chen, responsables techniques de Meta, dans un article de blog co-écrit publié ce matin. "Pour servir la grande variété d'appareils dans le monde entier (appareils mobiles, ordinateurs portables, téléviseurs, etc.), les vidéos téléchargées sur Facebook ou Instagram, par exemple, sont transcodées en plusieurs flux binaires, avec différents formats d'encodage, résolutions et qualité… MSVP est programmable et évolutif, et peut être configuré pour prendre en charge efficacement à la fois le transcodage de haute qualité nécessaire pour la VOD ainsi que la faible latence et les temps de traitement plus rapides requis par la diffusion en direct. »

La puce personnalisée de Meta conçue pour accélérer les charges de travail vidéo, comme le streaming et le transcodage.Crédits image :Méta

Meta indique que son plan est de décharger à terme la majorité de ses charges de travail de traitement vidéo "stables et matures" sur le MSVP et d'utiliser l'encodage vidéo logiciel uniquement pour les charges de travail qui nécessitent une personnalisation spécifique et une qualité "significativement" supérieure. Les travaux se poursuivent pour améliorer la qualité vidéo avec MSVP en utilisant des méthodes de prétraitement telles que le débruitage intelligent et l'amélioration de l'image, ainsi que des méthodes de post-traitement telles que la suppression des artefacts et la super-résolution.

"À l'avenir, MSVP nous permettra de prendre en charge encore plus de cas d'utilisation et de besoins les plus importants de Meta, y compris des vidéos courtes, permettant une diffusion efficace d'IA générative, AR/VR et d'autres contenus métavers", ont déclaré Reddy et Chen.

S'il y a un fil conducteur dans les annonces matérielles d'aujourd'hui, c'est que Meta tente désespérément d'accélérer le rythme en ce qui concerne l'IA, en particulier l'IA générative.

Autant avait été télégraphié auparavant. En février, le PDG Mark Zuckerberg - qui aurait fait de l'augmentation de la capacité de calcul de Meta pour l'IA une priorité absolue - a annoncé une nouvelle équipe d'IA générative de haut niveau pour, selon ses propres termes, "turbocharger" la R&D de l'entreprise. Le CTO Andrew Bosworth a également déclaré récemment que l'IA générative était le domaine où lui et Zuckerberg passaient le plus de temps. Et le scientifique en chef Yann LeCun a déclaré que Meta prévoyait de déployer des outils d'IA génératifs pour créer des objets en réalité virtuelle.

"Nous explorons des expériences de chat dans WhatsApp et Messenger, des outils de création visuelle pour les publications sur Facebook et Instagram et des publicités, ainsi que des expériences vidéo et multimodales au fil du temps", a déclaré Zuckerberg lors de l'appel sur les résultats du premier trimestre de Meta en avril. "Je m'attends à ce que ces outils soient précieux pour tout le monde, des gens ordinaires aux créateurs en passant par les entreprises. Par exemple, je m'attends à ce que beaucoup d'intérêt pour les agents d'IA pour la messagerie d'entreprise et le support client vienne une fois que nous aurons réussi cette expérience. Au fil du temps, cela s'étendra également à notre travail sur le métaverse, où les gens pourront beaucoup plus facilement créer des avatars, des objets, des mondes et du code pour les lier tous ensemble."

En partie, Meta ressent une pression croissante de la part des investisseurs inquiets du fait que l'entreprise n'évolue pas assez vite pour conquérir le marché (potentiellement important) de l'IA générative. Il n'a pas encore de réponse aux chatbots comme Bard, Bing Chat ou ChatGPT. Il n'a pas non plus fait beaucoup de progrès sur la génération d'images, un autre segment clé qui a connu une croissance explosive.

Si les prédictions sont exactes, le marché adressable total des logiciels d'IA générative pourrait atteindre 150 milliards de dollars. Goldman Sachs prédit que cela augmentera le PIB de 7 %.

Même une petite partie de cela pourrait effacer les milliards perdus par Meta dans les investissements dans les technologies "métavers" comme les casques de réalité augmentée, les logiciels de réunion et les terrains de jeux VR comme Horizon Worlds. Reality Labs, la division de Meta responsable de la technologie de réalité augmentée, a annoncé une perte nette de 4 milliards de dollars au dernier trimestre, et la société a déclaré lors de son appel au premier trimestre qu'elle s'attend à ce que "les pertes d'exploitation augmentent d'une année sur l'autre en 2023".

" Crédits image : Crédits image : Crédits image :