L'IA générative sur les iPhones se rapproche grâce aux chercheurs de Apple

Apple travaille à l'intégration de fonctions d'IA générative sur l'iPhone. (Image : Notebookcheck)

Des rumeurs indiquent que Apple est en train d'introduire une version d'IA générative de Siri qui devrait faire ses débuts avec iOS 18 sur la prochaine génération d'iPhone 16, prévue pour la fin 2024. Les chercheurs de l'entreprise viennent de détailler un moyen par lequel un iPhone pourra surmonter les limites de la mémoire vive pour exécuter avec succès un LLM sophistiqué sur l'appareil.

Sanjiv Sathiah (traduit par Ninh Duy), Publié 12/24/2023 🇺🇸 🇪🇸 ...

AI Apple Smartphone

Apple ont documenté (pdf) une nouvelle méthode permettant aux grands modèles de langage (LLM) de fonctionner sur l'appareil (pdf) une nouvelle méthode permettant aux grands modèles de langage (LLM) de fonctionner sur l'appareil avec une méthode unique pour surmonter les limites de la mémoire vive sur les appareils mobiles. La version complète d'un LLM, comme le ChatGPT 4 d'Open AI, compte environ 1,7 trillion de paramètres et nécessite des serveurs puissants pour pouvoir gérer le traitement. Cependant, la nouvelle solution Gemini AI - de Google, qui prétend pouvoir battre GPT-4, se présente sous une forme "Nano" pour les smartphones et utilise des techniques de quantification pour réduire le modèle à 1,8 milliard de paramètres ou à 3,6 milliards de paramètres. L'une de ces variantes de Gemini Nano fonctionne actuellement sur les smartphones Pixel 8 Pro de Google (actuellement réduit à 799 $ sur Amazon - normalement 999 $).

Qualcomm affirme que son nouveau Snapdragon 8 Gen 3 SoC peut prendre en charge les LLM d'IA générative jusqu'à 10 milliards de paramètres - bien que considérablement plus capable que ce que Google est capable de faire fonctionner sur la série Pixel 8, c'est encore loin des 1,7 trillion de paramètres nécessaires pour que GPT-4 fonctionne de manière aussi impressionnante qu'il le fait. La quantification, qui rend les LLM plus faciles à traiter pour les SoC mobiles, signifie également qu'ils perdent en précision et en efficacité. Par conséquent, tout ce qui peut contribuer à augmenter la taille des modèles pouvant être insérés dans un appareil mobile améliore les performances du LLM.

Pour que les smartphones soient en mesure de gérer les tâches de l'UA sur l'appareil, les besoins en RAM de https://medium.com/@TitanML/deploying-llms-on-small-devices-an-introduction-to-quantization-76502d28d0b2 sont également considérables. Un LLM réduit à 8 bits par modèle de paramètre avec 7 milliards de paramètres (comme le Llama 2 de Meta qui est pris en charge par le Snapdragon 8 Gen 3), nécessiterait un smartphone avec au moins 7 Go de RAM. L'iPhone 15 Pro dispose de 8 Go de RAM, ce qui suggère qu'un LLM développé par Apple comme Llama 2 serait à la limite supérieure de ce que l'iPhone actuel pourrait supporter. Appleles chercheurs de l'Université d'Amsterdam ont trouvé un moyen de contourner cette limite de la mémoire vive embarquée.

Dans un document de recherche intitulé "LLM in a flash : Efficient Large Language Model Inference with Limited Memory", les chercheurs en IA générative de Appleont mis au point une méthode permettant d'utiliser la mémoire flash d'un iPhone pour compléter la mémoire vive du système embarqué de l'appareil. La bande passante du stockage flash n'est pas comparable à celle de la RAM mobile LDDR5/X, mais les chercheurs de Appleont mis au point une méthode qui permet de surmonter cette limitation inhérente. En utilisant une combinaison de "fenêtrage" (où le modèle d'IA réutilise certaines des données stockées sur le stockage flash qu'il a déjà traitées) et de "regroupement ligne-colonne" (qui regroupe les données du LLM d'une manière qui est traitée plus efficacement, accélérant ainsi la vitesse de lecture).

Bien entendu, nous n'avons pas encore vu de LLM sur Apple, bien que des rumeurs suggèrent que nous pourrions voir une version plus intelligente de Siri basée sur un LLM qui devrait faire ses débuts dans le cadre d'iOS 18 iOS 18 et qui pourrait fonctionner sur l'appareil de la prochaine génération d'iPhone 16 Pro iPhone 16 Pro de prochaine génération. Mais lorsque ce sera le cas, il y a de fortes chances que Apple utilise cette méthode d'extension de la RAM pour s'assurer de fournir un modèle LLM avec autant de paramètres que possible, afin qu'il puisse fonctionner efficacement sur l'appareil. Avec Samsung qui augmente son jeu d'IA générative pour le lancement du Galaxy S24 le mois prochain, 2024 s'annonce comme l'année où l'IA générative deviendra monnaie courante sur les smartphones.