Breaking News

صعود وكلاء استخدام المتصفح: لماذا يقوم وكيل Convergence بتغلب مشغل Openai


انضم إلى النشرات الإخبارية اليومية والأسبوعية للحصول على أحدث التحديثات والمحتوى الحصري على تغطية الذكاء الاصطناعى الرائدة في الصناعة. يتعلم أكثر


تبرز موجة جديدة من عوامل استخدام المتصفح التي تعمل بالنيابة ، ووعد بتحويل كيفية تفاعل المؤسسات مع الويب. يمكن لهذه الوكلاء التنقل بشكل مستقل على مواقع الويب واسترداد المعلومات وحتى المعاملات الكاملة – لكن الاختبارات المبكرة تكشف عن فجوات كبيرة بين الوعد والأداء.

على الرغم من أن أمثلة المستهلك التي يقدمها مشغل وكيل استخدام المتصفح الجديد في Openai ، مثل طلب البيتزا أو شراء تذاكر الألعاب ، احتلت عناوين الصحف ، فإن السؤال يدور حول مكان وجود المطور الرئيسي والمؤسسات. وقال سام ويتفين ، المؤسس المشارك لشركة Purple Dragon ، وهي شركة تقوم بتطوير تطبيقات وكيل AI: “الشيء الذي لا نعرفه هو ما سيكون تطبيق القاتل”. “أظن أنه سيكون أشياء تستغرق وقتًا على الويب لا تستمتع بها بالفعل.” يتضمن ذلك أشياء مثل الذهاب على الويب والبحث عن أرخص سعر للمنتج أو حجز أفضل أماكن الإقامة في الفندق. على الأرجح سيتم استخدامه مع الآخرين أدوات مثل البحث العميق، حيث يمكن للشركات بعد ذلك إجراء أبحاث أكثر تطوراً زائد تنفيذ المهام حول الويب.

تحتاج الشركات إلى تقييم المشهد السريع المتطور بعناية لأن اللاعبين المعروفين والشركات الناشئة تتخذ أساليب مختلفة لحل تحدي التصفح المستقل.

اللاعبون الرئيسيون في مشهد وكيل استخدام المتصفح

سرعان ما أصبح الحقل مزدحمًا بكل من شركات التكنولوجيا الكبرى والشركات الناشئة المبتكرة:

يعد المشغل والوكالة الأكثر تقدماً ، من حيث كونك صديقًا للاستهلاك وجاهزًا. يبدو أن العديد من الآخرين يضعون أنفسهم أكثر لاستخدام المطور أو المؤسسة. على سبيل المثال، استخدام المتصفح، بدء تشغيل Y-Combinator يتيح للمستخدمين تخصيص النماذج المستخدمة مع الوكيل. يمنحك هذا المزيد من التحكم في كيفية عمل الوكيل ، بما في ذلك استخدام نموذج من الجهاز المحلي. لكنها بالتأكيد أكثر مشاركة.

يوفر الآخرون المذكورون أعلاه درجة متفاوتة من الوظائف والتفاعل مع موارد الماكينة المحلية. قررت عدم اختبار واجهة المستخدم الخاصة بـ Bytedance في الوقت الحالي ، لأنها طلبت الوصول إلى مستوى أقل إلى ميزات أمان الجهاز والخصوصية (إذا قمت باختبارها ، سأستخدم بالتأكيد جهاز كمبيوتر ثانوي).

يكشف الاختبار عن تحديات التفكير

لذا فإن أسهل اختبار هو مشغل Openai وكيل التقارب. في اختبارنا ، أبرزت النتائج كيف يمكن أن تهم قدرات التفكير أكثر من ميزات الأتمتة الخام. المشغل ، على وجه الخصوص ، كان أكثر عربات التي تجرها الدواب.

على سبيل المثال ، طلبت من الوكلاء العثور على وتلخيص قصص VentureBeat الخمسة الأكثر شعبية. لقد كانت مهمة غامضة ، لأن VentureBeat ليس لديه قسم “أكثر شعبية” في حد ذاته. كافح المشغل مع هذا. سقطت أولاً في حلقة التمرير اللانهائية أثناء البحث عن قصص “الأكثر شعبية” ، والتي تتطلب تدخلًا يدويًا. في محاولة أخرى ، وجدت مقالًا عمره ثلاث سنوات بعنوان “بعنوان”أفضل خمس قصص من الأسبوع” في المقابل ، أظهرت البروكسي تفكيرًا أفضل من خلال تحديد القصص الخمسة الأكثر وضوحًا على الصفحة الرئيسية كبديل عملي للشعبية ، وقد أعطت ملخصات دقيقة.

أصبح التمييز أكثر وضوحًا في المهام الواقعية. طلبت من الوكلاء حجز حجز في مطعم رومانسي للظهور في نابا ، كاليفورنيا. اقترب المشغل من المهمة خطيًا – العثور على مطعم رومانسي أولاً ، ثم التحقق من التوفر عند الظهر. عندما لا تتوفر طاولات ، وصل إلى طريق مسدود. أظهر Proxy التفكير الأكثر تطوراً من خلال البدء بـ OpenTable للعثور على مطاعم كانت رومانسية ومتاحة في الوقت المطلوب. لقد عاد حتى مع مطعم أفضل قليلاً.

حتى المهام التي تبدو بسيطة كشفت عن اختلافات مهمة. عند البحث عن “Yubikey 5C NFC Value” على Amazon ، وجد Proxy بسرعة العنصر بسهولة أكبر من المشغل.

لم يكشف Openai كثيرًا عن التقنيات التي تستخدمها لتدريب وكيل المشغل ، بخلاف القول بأنها دربت نموذجها على مهام استخدام المتصفح. ومع ذلك ، قدم التقارب مزيدًا من التفاصيل: يستخدم وكيله شيئًا يسمى البحث عن الأشجار التوليدي إلى “الاستفادة من نماذج عالم الويب التي تتوقع حالة الويب بعد اتخاذ إجراء مقترح. يتم إنشاء هذه بشكل متكرر لإنتاج شجرة من العقود المستقبلية المحتملة التي يتم البحث عنها لتحديد الإجراء الأمثل التالي ، كما تصنف نماذج القيمة الخاصة بنا. يمكن أيضًا استخدام نماذج عالم الويب لدينا لتدريب الوكلاء في المواقف الافتراضية دون توليد الكثير من البيانات باهظة الثمن. ” (أكثر هنا).

قد تكون المعايير عديمة الفائدة الآن

على الورق ، تظهر هذه الأدوات متطابقة عن كثب. وكيل التقارب يحقق 88 ٪ على WebVoyager معيار، التي تقوم بتقييم وكلاء الويب عبر 643 مهمة في العالم الحقيقي على 15 موقعًا شهيرًا مثل Amazon و Reserving.com. يسجل مشغل Openai 87 ٪ ، بينما يستخدم المستعرض يقول أنه يصل إلى 89 ٪ ولكن فقط بعد تغيير قاعدة كود WebVoyager قليلاً ، أقر “وفقًا لاحتياجاتنا”.

يجب أن تؤخذ هذه الدرجات المرجعية حقًا مع حبة من الملح ، حيث يمكن التمسك بها. يأتي الاختبار الحقيقي في الاستخدام العملي للحالات الواقعية. إنه مبكر جدًا ، تتغير المساحة بسرعة كبيرة ، وتتغير هذه المنتجات تقريبًا بشكل يومي. تعتمد النتائج أكثر على الوظائف المحددة التي تحاول القيام بها ، وقد ترغب بدلاً من ذلك في الاعتماد على المشاعر التي تحصل عليها أثناء استخدام المنتجات المختلفة.

الآثار المترتبة على المؤسسة

الآثار المترتبة على أتمتة المؤسسة كبيرة. كما يشير Witteveen في لدينا محادثة فيديو بودكاست حول هذا الموضوع ، حيث نقوم بالغوص العميق في اتجاه استخدام المتصفح هذا ، تدفع العديد من الشركات حاليًا مقابل المساعدين الظاهري-يديرها أشخاص حقيقيون-للتعامل مع أبحاث الويب الأساسية وجمع البيانات. يمكن أن تغير عوامل استخدام المتصفح هذه هذه المعادلة بشكل كبير.

“إذا أخذت الذكاء الاصطناعى هذا الأمر ،” يلاحظ ويتيفين ، “سيكون هذا من أول ثمار منخفضة معلقة من الأشخاص الذين فقدوا وظائفهم. سيظهر في بعض هذه الأنواع من الأشياء. “

يمكن أن يتغذى هذا على اتجاه أتمتة العمليات الآلية (RPA) ، حيث يتم سحب استخدام المتصفح كأداة أخرى للشركات لأتمتة المزيد من المهام. وكما ذكرنا سابقًا ، ستكون حالات الاستخدامات الأكثر قوة عند استخدام المتصفح المشترك مع أدوات أخرى ، بما في ذلك أشياء مثل بحث عميق، حيث يستخدم وكيل يحركه LLM أداة بحث زائد استخدام المتصفح للقيام بوظائف أكثر تطوراً.

ديناميات التكلفة التي تدفع الابتكار

عامل رئيسي آخر يقود التطور السريع هو توفر نماذج التفكير القوية مفتوحة المصدر مثل Deepseek-R1. يتيح ذلك للشركات بناء وكلاء استخدام المتصفح هذه بالتنافس بفعالية مع لاعبين أكبر من خلال الاستفادة من هذه النماذج بدلاً من بناءها.

ضغط التسعير واضح بالفعل. على الرغم من أن Openai يتطلب اشتراكًا شهريًا شهريًا في ChatGpt Professional في مشغل Entry ، فإن Convergence يوفر استخدامًا مجانيًا محدودًا (ما يصل إلى خمسة استخدامات يوميًا) وخطة غير محدودة بقيمة 20 دولارًا. يجب أن تؤدي هذه الديناميكية التنافسية إلى تسريع اعتماد المؤسسات ، على الرغم من أن حالات الاستخدام الواضحة لا تزال ناشئة.

تحديات الأمن والتكامل

تبقى عدة عقبات قبل اعتماد المؤسسات على نطاق واسع. تمنع بعض مواقع الويب التصفح الآلي بنشاط ، في حين أن البعض الآخر يتطلب التحقق من Captcha. على الرغم من أن Openai و Convergence لديها أدوات يمكن أن تتخطى Captchas ، إلا أنها تتيح للمستخدمين الاستيلاء على المهمة لملءها – بدلاً من القيام بها مباشرة ، لأن الهدف الكامل من Captchas هو التأكد من أن الإنسان في الطرف الآخر. تطلب أدوات مثل BETEDANCE UI-TARS الوصول إلى النظام العميق ، مما يثير المخاوف الأمنية لنشر المؤسسات.

بالإضافة إلى ذلك ، يختلف نهج تعاون الموقع. Openai لديه عملت مع شركاء محددين مثل Instacart و Priceline و Doordash و Etsy، بينما يحاول الآخرون التنقل في أي موقع ويب. يمكن أن يؤثر هذا التناقض على موثوقية حالات استخدام المؤسسات. وبالطبع ، في أي وقت يضرب فيه الوكيل موقعًا يتطلب تفاصيل تسجيل الدخول ، فإن هذا سيؤدي إلى إبطاء الأمور – حيث أن الوكلاء سيقومون بتسليم الأمور إليك لملء هذه التفاصيل.

نتطلع إلى الأمام

بالنسبة للمؤسسات التي تقوم بتقييم هذه الأدوات ، يجب أن يكون التركيز على حالات الاستخدام المحددة حيث يمكن أن يوفر تفاعل الويب المستقل قيمة واضحة – سواء في البحث أو خدمة العملاء أو أتمتة العملية. تتقدم التكنولوجيا بسرعة ، لكن النجاح سيعتمد على إمكانيات المطابقة لتلقي احتياجات الأعمال الملموسة.

مع تطور هذه المساحة ، توقع رؤية المزيد من الميزات التي تركز على المؤسسات والوكلاء المتخصصة المحتملة لصناعات أو مهام محددة. يجب أن يدفع السباق بين اللاعبين المعروفين والشركات الناشئة المبتكرة التقدم التقني والتسعير التنافسي ، مما يجعل عام 2025 سنة حاسمة لاعتماد وكيل استخدام متصفح المؤسسات.

لمزيد من التفاصيل حول هذه الاتجاهات ونتائج الاختبار ، تحقق من محادثة فيديو كاملة بين سام ويتفين ونفسي.