Avec la prolifération des centres de données d'IA et des coûts de traitement associés, l'accent est désormais mis sur l'efficacité des algorithmes, et aucun modèle de langage ne semble y parvenir mieux que DeepSeek. Ses modèles sont en code source ouvert, et leur formation est beaucoup moins coûteuse que celle de ChatGPT d'OpenAI ou de Gemini de Google.
Le modèle DeepSeek-OCR récemment annoncé est un excellent exemple de l'efficacité de l'apprentissage. En utilisant la cartographie optique, il peut compresser des documents extrêmement longs en les convertissant en images avec une précision de reconnaissance de 97 % pour un taux de compression inférieur à 10x.
En utilisant un encodeur et un décodeur avancés, plus de neuf jetons de texte peuvent être convertis en un seul jeton visuel, ce qui réduit considérablement les ressources informatiques nécessaires au traitement du contenu. Même avec un taux de compression de 20x, le nouveau système DeepSeek-OCR peut atteindre une précision de reconnaissance optique de 60 %, un exploit sans précédent.
Grâce aux nouveaux algorithmes de compression de l'IA, DeepSeek-OCR peut apprendre à partir de textes scientifiques ou historiques traités par un seul GPU de centre de données Nvidia A100 à la vitesse de 200 000 pages par jour. Un cluster A100 de 20 nœuds peut ainsi traiter 33 millions de pages de documents par jour, ce qui constitue un changement de paradigme dans l'apprentissage LLM à forte intensité de texte. Selon le classement OmniDocBench, DeepSeek-OCR bat de loin d'autres solutions populaires telles que GOT-OCR2.0 ou MinerU2.0 en ce qui concerne le nombre de jetons de vision utilisés par page.
Les nouveaux algorithmes de DeepEncoder peuvent traiter un large éventail de tailles et de résolutions de documents sans sacrifier la vitesse ou la précision, tandis que le décodeur DeepSeek3B-MoE-A570M s'appuie sur l'architecture dite de mélange d'experts qui répartit les connaissances entre les modèles spécialisés nécessaires à chaque tâche d'OCR. Ainsi, DeepSeel-OCR peut traiter des documents complexes contenant des graphiques, des formules scientifiques, des diagrammes ou des images, même s'ils sont rédigés en plusieurs langues.
Pour atteindre une telle échelle et une telle précision, DeepSeek a examiné 30 millions de pages au format PDF (Portable Document Format) écrites dans près de 100 langues, ce qui inclut toutes les catégories existantes, des journaux à l'écriture scientifique, en passant par les manuels scolaires et les thèses de doctorat. Cependant, si la vitesse et l'efficacité de la tokenisation visuelle obtenue avec le nouveau système DeepSeek-OCR sont indéniables, il reste à voir si cela conduira à une amélioration des performances du modèle linguistique en matière de raisonnement réel par rapport au paradigme actuel de la tokenisation basée sur le texte.
Source(s)
Top 10
» Le Top 10 des PC portables multimédia
» Le Top 10 des PC portables de jeu
» Le Top 10 des PC portables de jeu légers
» Le Top 10 des ordinateurs portables bureautiques
» Le Top 10 des PC portables bureautiques premium/professionnels
» Le Top 10 des Stations de travail mobiles
» Le Top 10 des Ultraportables
» Le Top 10 des Ultrabooks
» Le Top 10 des Convertibles
» Le Top 10 des Tablettes
» Le Top 10 des Tablettes Windows
» Le Top 10 des Smartphones
» Le Top 10 des PC Portables á moins de 300 euros
» Le Top 10 des PC Portables á moins de 500 euros
» Le Top 25 des meilleurs écrans d'ordinateurs



