Di recente ho rivisitato uno scenario Make.com che avevo creato qualche mese fa, prima ancora che gli agenti beta esistessero. Originariamente ispirato da un setup di Jack Roberts (il nostro broki di punta, alimentato a caffè), questo è stato il mio primo tentativo di creare un flusso di analisi delle immagini simile ad un agente utilizzando Make, Telegram e Claude 4 di Anthropic .
All'epoca avevo modificato il sistema solo per divertimento, ma avevo un motivo per rimetterlo in sesto: qualcuno mi aveva chiesto se fosse possibile recuperare e analizzare le immagini da Telegram usando Make. Questo mi ha dato la scusa perfetta per riportare in vita questa vecchia build e mettere ancora una volta alla prova la solidità di Claude nella comprensione approfondita delle immagini.
Testare l'intelligenza artificiale delle immagini nel modo giusto
Non stiamo parlando di riconoscimento ottico dei caratteri (OCR) di base o di rilevamento di oggetti. Parlo di vera comprensione : inserire un diagramma complesso e ottenere una scomposizione strutturata e intelligente del suo significato.
Per questo test, ho caricato un diagramma di elaborazione delle fatture piuttosto tecnico tramite Telegram. Nota importante: Telegram comprime i caricamenti delle immagini e ne fornisce tre versioni. Da quello che ho visto:
Il primo è super compresso.
Il secondo è di fascia media.
Il terzo è solitamente l'originale , ed è quello che serve per un'analisi corretta.
Quindi ho filtrato il sistema per catturare quella terza immagine e l'ho inviata a Claude tramite Make.
Cosa è successo dopo?
Claude (in questo caso Sonnet) ha fatto centro .
Non si è limitato a dire "questo è un diagramma" o "ci sono delle fatture". Lo ha riconosciuto correttamente come un sistema di elaborazione delle fatture, quindi ha scomposto le relazioni , identificato le entità e restituito un'analisi strutturata, quasi come una risposta JSON intelligente.
Ha rilevato cose come:
Fatture con più transazioni
Modifiche di stato nel flusso di lavoro
La struttura generale e l'intento del sistema
Tutto da un'unica immagine. Nessun suggerimento manuale. Nessuna spiegazione passo passo. Solo puro ragionamento visivo.
Perché Claude vince ancora
Si è parlato di nuovi modelli in arrivo per il trono: GPT-40, Gemini, eccetera. Ma non ne ho visto nessuno all'altezza di Claude in termini di comprensione dell'immagine profonda .
E per essere chiari: non ho inventato io l'idea di suddividere le immagini in questo modo. Ho visto altri condividere modi incredibili per analizzare le immagini e restituire output strutturati. Ho semplicemente sviluppato il tutto partendo da lì, aggiungendo un po' di divertimento al flusso di lavoro e assicurandomi che l'integrazione con Telegram funzionasse.
Vuoi provarlo?
Ecco il suggerimento che ho usato, così puoi sperimentare tu stesso. Sperimenta. Spingi. Fammi sapere se pensi che ci sia qualcos'altro che funziona meglio.
Ma per ora? Claude è ancora il re della visione dell'IA .
- Massimo