DeepSeek va devenir encore plus performant avec cette mise à jour

DeepSeek booste les performances des GPU NVIDIA Hopper H800, multipliant leur puissance par huit grâce à son projet FlashMLA.

DeepSeek, une entreprise chinoise spécialisée dans l’intelligence artificielle, a récemment dévoilé un projet innovant visant à améliorer les performances des GPU Hopper H800 de NVIDIA. Baptisé FlashMLA, ce projet permet d’augmenter la puissance de calcul de ces GPU de manière significative, sans nécessiter de modifications matérielles.

Une optimisation logicielle pour améliorer les performances

DeepSeek a réussi à optimiser les GPU Hopper H800 en se concentrant sur l’efficacité logicielle. Grâce à FlashMLA, l’entreprise affirme avoir atteint 580 TFLOPS pour les multiplications de matrices en BF16, soit environ huit fois plus que les standards de l’industrie. De plus, la bande passante mémoire a été portée à 3000 GB/s, soit près du double de la capacité théorique maximale du H800. Ces améliorations sont rendues possibles par une meilleure gestion de la mémoire et une allocation plus efficace des ressources lors des requêtes d’inférence.

https://twitter.com/deepseek_ai/status/1893836827574030466

FlashMLA utilise plusieurs techniques pour parvenir à ces résultats. Parmi elles, la compression “low-rank key-value” permet de décomposer les données en portions plus petites, accélérant ainsi le traitement tout en réduisant la consommation de mémoire de 40% à 60%. De plus, un système de pagination basé sur des blocs alloue dynamiquement la mémoire en fonction de l’intensité de la tâche, ce qui améliore le traitement des séquences de longueur variable.

Le projet est Open Source

Ce projet s’inscrit dans le cadre d’une semaine “OpenSource” organisée par DeepSeek, durant laquelle l’entreprise prévoit de rendre disponibles diverses technologies et outils sur des dépôts GitHub. FlashMLA, en tant que noyau de décodage spécifiquement conçu pour les GPU Hopper, est l’une des premières innovations dévoilées.

https://twitter.com/deepseek_ai/status/1893836827574030466

Le développement de FlashMLA par DeepSeek démontre que l’optimisation logicielle peut jouer un rôle crucial dans l’amélioration des performances matérielles en intelligence artificielle. Bien que ce projet soit actuellement spécifique aux GPU Hopper, il ouvre la voie à de nouvelles approches pour maximiser les capacités des équipements existants.