قمتُ مؤخرًا بإعادة النظر في سيناريو Make.com الذي أنشأته قبل بضعة أشهر - قبل ظهور وكلاء الإصدار التجريبي. استوحيتُه في الأصل من إعداد جاك روبرتس (بروكي عالي الجودة يعمل بالقهوة)، وكانت هذه محاولتي الأولى لبناء تدفق تحليل صور يشبه الوكيل باستخدام Make وTelegram و Anthropic's Claude 4 .
عدّلتُ النظام آنذاك للمتعة فقط، ولكن كان لديّ سببٌ للعودة إليه: سألني أحدهم إن كان من الممكن استرجاع الصور من تيليجرام وتحليلها باستخدام Make. منحني هذا العذر المثالي لإعادة إحياء هذا الإصدار القديم، واختبار مدى براعة كلود في فهم الصور بعمق.
اختبار الذكاء الاصطناعي للصور بالطريقة الصحيحة
نحن لا نتحدث عن التعرف الضوئي على الحروف (OCR) الأساسي أو كشف الأجسام، بل نتحدث عن فهم حقيقي - إدخال مخطط معقد والحصول على تحليل منظم وذكي لما يعنيه.
لهذا الاختبار، حمّلتُ مخططًا لمعالجة الفواتير يعتمد على التكنولوجيا عبر تيليجرام. ملاحظة جانبية مهمة: يضغط تيليجرام الصور المرفوعة ويمنحك ثلاثة إصدارات. مما رأيته:
الأول مضغوط للغاية.
والثاني هو متوسط المدى.
والثالث هو عادةً الأصلي ، وهو الذي تريده للتحليل المناسب.
لذا قمت بتصفية النظام لالتقاط تلك الصورة الثالثة وإرسالها إلى كلود عبر Make.
ماذا حدث بعد ذلك؟
لقد نجح كلود (سونيتة، في هذه الحالة) في تحقيق ذلك .
لم يكتفِ بذكر "هذا رسم تخطيطي" أو "هناك بعض الفواتير". بل تعرّف عليها بشكل صحيح كنظام لمعالجة الفواتير، ثم حلل العلاقات ، وحدد الكيانات، وأعاد تحليلًا منظمًا - أشبه باستجابة JSON ذكية.
لقد التقطت أشياء مثل:
الفواتير التي تحتوي على معاملات متعددة
تغييرات الحالة في سير العمل
الهيكل العام والغرض من النظام
كل شيء من صورة واحدة. لا تلميحات يدوية، ولا شرح تفصيلي خطوة بخطوة. مجرد تفكير بصري.
لماذا لا يزال كلود يفوز؟
دارت أحاديث عن نماذج جديدة قادمة للعرش - مثل GPT-4o، وGemini، وغيرها. لكنني لم أرَ أيًا منها يُضاهي كلود باستمرار في فهم الصور العميقة .
وللتوضيح: لم أبتكر فكرة تحليل الصور بهذه الطريقة. رأيتُ آخرين يشاركون طرقًا رائعة لتحليل الصور وإخراج نتائج منظمة. قمتُ فقط بالبناء عليها، وأضفتُ بعض المرح على سير العمل، وتأكدتُ من نجاح تكامل تيليجرام.
هل تريد تجربته؟
إليكَ التلميح الذي استخدمتُه لتجربته بنفسك. جرّبه، جرّبه. أخبرني إن كنتَ تعتقد أن هناك أي شيء آخر أفضل.
لكن حتى الآن؟ لا يزال كلود ملك رؤية الذكاء الاصطناعي .
- الأعلى