J'ai récemment revisité un scénario Make.com que j'avais créé il y a quelques mois, avant même l'apparition des agents bêta. Inspiré à l'origine par une configuration de Jack Roberts (notre meilleur ami, le café), il s'agissait de ma première tentative de création d'un flux d'analyse d'images de type agent utilisant Make, Telegram et Claude 4 d'Anthropic .

J'avais modifié le système à l'époque juste pour le plaisir, mais j'avais une bonne raison de m'y remettre : quelqu'un m'a demandé s'il était possible de récupérer et d'analyser des images de Telegram avec Make. C'était l'excuse parfaite pour redonner vie à cette vieille version et tester une fois de plus la solidité de Claude en matière de compréhension approfondie des images.

Tester l'intelligence artificielle des images de la bonne manière

Il ne s'agit pas ici d'OCR basique ou de détection d'objets. Il s'agit de compréhension réelle : introduire un diagramme complexe et obtenir une analyse structurée et pertinente de sa signification.

Pour ce test, j'ai téléchargé un schéma de traitement de factures très technique via Telegram. Remarque importante : Telegram compresse les images téléchargées et propose trois versions. D'après ce que j'ai pu constater :

  • Le premier est super compressé.

  • Le deuxième est de milieu de gamme.

  • Le troisième est généralement l'original , et c'est celui que vous souhaitez pour une analyse appropriée.

J'ai donc filtré le système pour récupérer cette troisième image et l'ai envoyée à Claude via Make.

Que s'est-il passé ensuite ?

Claude (Sonnet, dans ce cas) a réussi .

Il ne s'est pas contenté de dire « ceci est un diagramme » ou « il y a des factures ». Il l'a correctement reconnu comme un système de traitement de factures, puis a décomposé les relations , identifié les entités et renvoyé une analyse structurée, presque comme une réponse JSON intelligente.

Il a détecté des choses comme :

  • Factures comportant plusieurs transactions

  • Changements de statut dans le flux de travail

  • La structure générale et l'intention du système

Tout à partir d'une seule image. Pas d'aide manuelle ni de décomposition étape par étape. Juste du pur raisonnement visuel.

Pourquoi Claude gagne toujours

On parle de nouveaux modèles pour le trône – GPT-4o, Gemini, etc. – mais je n'en ai vu aucun égaler Claude en termes de compréhension approfondie des images .

Et pour être clair : je n'ai pas inventé l'idée de décomposer les visuels de cette façon. J'ai vu d'autres partager des méthodes incroyables pour analyser les images et obtenir des résultats structurés. Je me suis contenté de m'appuyer dessus, d'y ajouter un peu de fun et de m'assurer que l'intégration Telegram fonctionne.

Vous voulez l'essayer ?

Voici l'idée que j'ai utilisée pour que vous puissiez expérimenter. Testez. Expérimentez. N'hésitez pas à me dire si vous pensez qu'il existe d'autres solutions plus efficaces.

Mais jusqu'à présent ? Claude est toujours le roi de la vision de l'IA .

- Max

Expert Voices

Frozen Light Team
Frozen Light Team

Anthropic Just Dropped New AI Models: Claude 4

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.