Le modèle d'IA DeepSeek OCR peut traiter 200 000 pages de documents par jour sur un seul GPU Nvidia A100

Un GPU Nvidia A100 (Source : Nvidia)

DeepSeek s'apprête à révolutionner l'apprentissage de l'IA avec un nouveau modèle de compression OCR open-source. Grâce à son codage optique avancé, DeepSeek peut apprendre à partir de plus de 200 000 pages de documents par jour sur un seul GPU Nvidia A100.

Daniel Zlatev (traduit par Ninh Duy), Publié 10/22/2025 🇺🇸 🇪🇸 ...

AI Nvidia

Avec la prolifération des centres de données d'IA et des coûts de traitement associés, l'accent est désormais mis sur l'efficacité des algorithmes, et aucun modèle de langage ne semble y parvenir mieux que DeepSeek. Ses modèles sont en code source ouvert, et leur formation est beaucoup moins coûteuse que celle de ChatGPT d'OpenAI ou de Gemini de Google.

Le modèle DeepSeek-OCR récemment annoncé est un excellent exemple de l'efficacité de l'apprentissage. En utilisant la cartographie optique, il peut compresser des documents extrêmement longs en les convertissant en images avec une précision de reconnaissance de 97 % pour un taux de compression inférieur à 10x.

En utilisant un encodeur et un décodeur avancés, plus de neuf jetons de texte peuvent être convertis en un seul jeton visuel, ce qui réduit considérablement les ressources informatiques nécessaires au traitement du contenu. Même avec un taux de compression de 20x, le nouveau système DeepSeek-OCR peut atteindre une précision de reconnaissance optique de 60 %, un exploit sans précédent.

Grâce aux nouveaux algorithmes de compression de l'IA, DeepSeek-OCR peut apprendre à partir de textes scientifiques ou historiques traités par un seul GPU de centre de données Nvidia A100 à la vitesse de 200 000 pages par jour. Un cluster A100 de 20 nœuds peut ainsi traiter 33 millions de pages de documents par jour, ce qui constitue un changement de paradigme dans l'apprentissage LLM à forte intensité de texte. Selon le classement OmniDocBench, DeepSeek-OCR bat de loin d'autres solutions populaires telles que GOT-OCR2.0 ou MinerU2.0 en ce qui concerne le nombre de jetons de vision utilisés par page.

Les nouveaux algorithmes de DeepEncoder peuvent traiter un large éventail de tailles et de résolutions de documents sans sacrifier la vitesse ou la précision, tandis que le décodeur DeepSeek3B-MoE-A570M s'appuie sur l'architecture dite de mélange d'experts qui répartit les connaissances entre les modèles spécialisés nécessaires à chaque tâche d'OCR. Ainsi, DeepSeel-OCR peut traiter des documents complexes contenant des graphiques, des formules scientifiques, des diagrammes ou des images, même s'ils sont rédigés en plusieurs langues.

Pour atteindre une telle échelle et une telle précision, DeepSeek a examiné 30 millions de pages au format PDF (Portable Document Format) écrites dans près de 100 langues, ce qui inclut toutes les catégories existantes, des journaux à l'écriture scientifique, en passant par les manuels scolaires et les thèses de doctorat. Cependant, si la vitesse et l'efficacité de la tokenisation visuelle obtenue avec le nouveau système DeepSeek-OCR sont indéniables, il reste à voir si cela conduira à une amélioration des performances du modèle linguistique en matière de raisonnement réel par rapport au paradigme actuel de la tokenisation basée sur le texte.