#AI News #Anthropic #Claude #Technology 26 May. 2025 (Click here to view the English version)

Claude sigue siendo el rey del análisis de imágenes con IA: esta es la razón

By Max Gibson

Recientemente revisé un escenario de Make.com que construí hace unos meses, incluso antes de que existieran los agentes beta. Originalmente inspirado en una configuración de Jack Roberts (nuestro colega de primera línea, alimentado por café), este fue mi primer intento de crear un flujo de análisis de imágenes similar a un agente usando Make, Telegram y Claude 4 de Anthropic .

Modifiqué el sistema por diversión, pero tuve una razón para volver a intentarlo: alguien me preguntó si era posible recuperar y analizar imágenes de Telegram con Make. Eso me dio la excusa perfecta para revivir esta vieja compilación y comprobar una vez más la capacidad de Claude para comprender imágenes a fondo.

Probar la inteligencia artificial en imágenes de la manera correcta

No hablamos de reconocimiento óptico de caracteres (OCR) básico ni de detección de objetos. Hablo de comprensión real : introducir un diagrama complejo y obtener un desglose estructurado e inteligente de su significado.

Para esta prueba, subí un diagrama de procesamiento de facturas con un alto componente técnico a través de Telegram. Nota importante: Telegram comprime las imágenes subidas y ofrece tres versiones. Por lo que he visto:

El primero está supercomprimido.
El segundo es de gama media.
El tercero suele ser el original , y es el que desea para un análisis adecuado.

Entonces filtré el sistema para tomar esa tercera imagen y se la envié a Claude a través de Make.

¿Qué pasó después?

Claude (Sonnet, en este caso) lo ha clavado .

No solo decía "esto es un diagrama" ni "hay facturas". Lo reconocía correctamente como un sistema de procesamiento de facturas, desglosaba las relaciones , identificaba las entidades y devolvía un análisis estructurado, casi como una respuesta JSON inteligente.

Captó cosas como:

Facturas con múltiples transacciones
Cambios de estado en el flujo de trabajo
La estructura general y la intención del sistema

Todo a partir de una sola imagen. Sin pistas manuales. Sin desgloses paso a paso. Solo razonamiento visual.

Por qué Claude sigue ganando

Se ha hablado de nuevos modelos que llegarán al trono: GPT-4o, Gemini, etc. Pero no he visto ninguno que iguale consistentemente a Claude en cuanto a comprensión profunda de imágenes .

Y para que quede claro: no inventé la idea de descomponer imágenes de esta manera. He visto a otros compartir maneras increíbles de analizar imágenes y obtener resultados estructurados. Simplemente lo desarrollé a partir de ahí, le añadí un poco de diversión al flujo de trabajo y me aseguré de que la integración con Telegram funcionara.