
هناك فئة من المشكلات التي تظهر باستمرار في تطبيقات الويب المعقدة - لوحات المعلومات، وأنظمة تخطيط موارد المؤسسات (ERP)، وإدارة علاقات العملاء (CRM)، ولوحات الإدارة - حيث تكون الواجهة وظيفية من الناحية الفنية ولكن يصعب استخدامها حقًا. سير عمل متعدد الخطوات مدفون خلف القوائم المتداخلة. نماذج تحتوي على عشرين حقلاً بالترتيب الخاطئ. البيانات التي تستغرق ست نقرات للعثور عليها. المستخدمون الذين يحتاجون إلى التدريب فقط للقيام بالمهام الأساسية.
الحل التقليدي هو إعادة تصميم تجربة المستخدم - فهي مكلفة، وتستغرق وقتًا طويلاً، وغالبًا ما تكون غير مكتملة. يختلف حل 2026 بشكل متزايد: أضف وكيل الذكاء الاصطناعي الذي يتيح للمستخدمين وصف ما يريدون بلغة واضحة وتنفيذه نيابة عنهم.
PageAgent هي مكتبة مفتوحة المصدر مرخصة من معهد ماساتشوستس للتكنولوجيا (MIT) تقوم بتضمين وكيل الذكاء الاصطناعي مباشرة في الواجهة الأمامية الخاصة بك. قام المطور ببنائه لأنه يعتقد أن هناك مساحة تصميم ضخمة لنشر الوكلاء العامين محليًا داخل تطبيقات الويب التي نستخدمها بالفعل، بدلاً من التعامل مع الويب كمجرد هدف غبي للروبوتات المعزولة.
تمت مراجعته واختباره مؤخرًا في 6 مارس 2026، حيث تم إثبات فحص الصفحة تلقائيًا، والعثور على نموذج بحث، وفهم تعليمات التاريخ باللغة الطبيعية مثل "أرني مقالات من أول أمس"، وحساب التاريخ بشكل صحيح، وتنفيذ البحث - كل ذلك دون أي نقر بشري.
يغطي هذا الدليل ماهية PageAgent، وكيف يختلف بشكل أساسي عن أدوات أتمتة المتصفح الأخرى، ونماذج الذكاء الاصطناعي التي يدعمها، وكيفية دمجها في تطبيق الويب الخاص بك خطوة بخطوة.
لقد كان هناك طوفان من أدوات التشغيل الآلي للمتصفح مؤخرًا، ولكن يبدو أن معظمها تم تصميمها للعروض التوضيحية، وليس للعمل الحقيقي. فهي تقوم بتدوير المتصفحات بدون رأس، وتطلب منك تسليم بيانات الاعتماد الخاصة بك، وإيقاف اللحظة التي يتغير فيها تخطيط الصفحة. يتخذ PageAgent نهجًا مختلفًا تمامًا.
الفكرة الأساسية بسيطة: PageAgent هو وكيل JavaScript يعيش داخل صفحة الويب نفسها. لا يوجد جحيم لإضافات المتصفح، ولا توجد نصوص برمجية لـ Python، ولا توجد مثيلات Chrome مقطوعة الرأس. يمكنك إسقاطه في الصفحة - أو استخدام ملحق المتصفح - ويمكنه فهم DOM والتفاعل معه مباشرةً. لأنه يعمل في جلسة المتصفح الفعلية الخاصة بك، فإنه يستخدم أي حالة تسجيل دخول لديك بالفعل. لا توجد مشاركة لكلمات المرور، ولا تلاعب بملفات تعريف الارتباط، ولا رقصة OAuth مع خدمة تابعة لجهة خارجية.
على عكس أدوات مثل Browser-Use التي تتحكم في المتصفح بأكمله من الخارج، تم تصميم PageAgent كمكون مضمن موجود داخل موقع الويب الخاص بك. يمكنك إسقاطه في تطبيقك ويمكن للمستخدمين التحدث إلى الصفحة مباشرة. يتطلب الأمر منهج DOM أولاً بدلاً من الاعتماد على التعرف البصري. يستخدم PageAgent عملية تجفيف DOM عالية الكثافة — مما يؤدي إلى تجريد DOM إلى بنيته الأساسية — ومعالجة النص النقي لفهم تخطيطات الصفحة. وهذا يجعلها أسرع وأكثر دقة من البدائل المستندة إلى لقطة الشاشة.
يعمل PageAgent بشكل مختلف تمامًا عن أطر عمل أتمتة المتصفح التقليدية من خلال التشغيل ضمن سياق تنفيذ JavaScript للمتصفح بدلاً من التحكم في المتصفح من الخارج.
من الناحية العملية: إنها مكتبة JavaScript تقوم باستيرادها إلى مشروعك. يقرأ DOM الخاص بصفحتك، ويفهم البنية والعناصر التفاعلية، ويقبل تعليمات اللغة الطبيعية، وينفذها - بالنقر على الأزرار، وملء النماذج، والتنقل في القوائم، والتمرير، والبحث - تمامًا كما يفعل المستخدم البشري، ولكن يتم تشغيله بواسطة أمر نصي.
حالات الاستخدام التي يناسبها PageAgent بشكل مباشر: SaaS AI Copilot - قم بإرسال مساعد AI في منتجك في سطور من التعليمات البرمجية دون الحاجة إلى إعادة كتابة الواجهة الخلفية. تعبئة النماذج الذكية — تحويل سير العمل بنقرة 20 إلى جملة واحدة، مما يجعله مثاليًا لأنظمة ERP وCRM وأنظمة الإدارة. إمكانية الوصول - إتاحة الوصول إلى أي تطبيق ويب من خلال اللغة الطبيعية والأوامر الصوتية وبرامج قراءة الشاشة، بدون أي عوائق. وكيل متعدد الصفحات - قم بتوسيع نطاق وصول وكيلك عبر علامات تبويب المتصفح باستخدام ملحق Chrome الاختياري.
بالنسبة للشركات في دولة الإمارات العربية المتحدة على وجه التحديد، فإن التطبيقات الأكثر قيمة هي:
تبسيط تخطيط موارد المؤسسات (ERP) ونظام الأعمال. إذا كان فريقك يستخدم نظام تخطيط موارد المؤسسات (ERP) أو نظام المحاسبة أو إدارة علاقات العملاء (CRM) الذي يتطلب التنقل بين القوائم المعقدة لإنجاز المهام الروتينية - "إنشاء أمر شراء للمورد X مقابل 50 وحدة من المنتج Y" - يمكن لـ PageAgent تنفيذ سير العمل هذا من جملة واحدة.
** مساعدة الذكاء الاصطناعي التي تواجه العملاء. ** قم بتضمين PageAgent في بوابة العميل الخاصة بك واسمح للعملاء بوصف ما يحتاجون إلى المساعدة فيه بدلاً من التنقل في الواجهة للعثور عليه. "أظهر لي آخر ثلاث فواتيري" أو "قم بتحديث عنوان التسليم الخاص بي" يصبح أمرًا نصيًا بدلاً من تحدي تجربة المستخدم.
تحديث النظام القديم. بدلاً من إعادة بناء أداة داخلية قديمة من البداية، قم بتضمين PageAgent ومنح المستخدمين طبقة لغة طبيعية أعلى الواجهة الحالية. لا يحتاج النظام الأساسي إلى التغيير، فنموذج التفاعل هو الذي يفعل ذلك.
إمكانية الوصول. يصبح أي تطبيق ويب يتضمن PageAgent مضمنًا قابلاً للاستخدام من خلال اللغة الطبيعية، مما يجعله في متناول المستخدمين الذين يعانون من واجهات مرئية معقدة بغض النظر عن السبب.
هذا هو المكان الذي تصبح فيه صفحة وثائق PageAgent التي قمت بربطها مفيدة بشكل خاص. يعمل PageAgent مع أي نقطة نهاية API متوافقة مع OpenAI، مما يعني أنه يدعم مجموعة واسعة من النماذج في عام 2026.
استخدام Qwen (نموذج علي بابا الخاص — موصى به للطبقة المجانية):
أسرع طريقة لتجربة PageAgent هي من خلال Demo LLM المجاني. يستخدم نظام CDN التجريبي اختبارًا مجانيًا لـ LLM API — فقط Qwen وDeepSeek متاحان في الإصدار التجريبي المجاني.
احصل على مفتاح DashScope API من Alibaba Cloud Model Studio على Dashscope.aliyuncs.com. تم إصدار Qwen3.5-Plus في 16 فبراير 2026 - وهو أحدث طراز من Alibaba وأكثره قدرة مع تحسينات كبيرة في التفكير والأداء الوكيل.
استخدام كلود (أنثروبي — موصى به للإنتاج):
Claude Sonnet 4.6 هو النموذج الموصى به لـ PageAgent في الإنتاج - حيث إن اتباع التعليمات القوية ونافذة السياق الكبيرة واستخدام الأداة الموثوق به ينتج عنه النتائج الأكثر اتساقًا في تفاعلات الصفحات المعقدة متعددة الخطوات.
استخدام GPT-5 (OpenAI):
استخدام DeepSeek (أداء قوي وصديق للميزانية):
يحقق DeepSeek V3.2 ما يقرب من 90% من أداء GPT-5 بـ 1/50 من التكلفة - مما يجعله خيارًا جذابًا لعمليات نشر PageAgent ذات الحجم الكبير حيث تكون تكلفة التفاعل مهمة.
استخدام OpenRouter (الوصول إلى جميع الطرز باستخدام مفتاح API واحد — موصى به لتحقيق المرونة):
يوفر OpenRouter إمكانية الوصول إلى أكثر من 40 طرازًا بما في ذلك Claude Sonnet 4.6 وGPT-5.4 وGemini 3.1 Pro وDeepSeek V3.2 من خلال مفتاح API واحد، مما يجعل من السهل تبديل النماذج أو اختبار أي منها يقدم أفضل أداء لحالة الاستخدام الخاصة بك.
يعد OpenRouter مفيدًا بشكل خاص إذا كنت تريد تشغيل PageAgent في إعداد متعدد النماذج - باستخدام نموذج أرخص للتفاعلات البسيطة والتصعيد إلى نموذج أكثر قدرة للمهام المعقدة متعددة الخطوات.
PageAgent عبارة عن حزمة npm — التثبيت سهل ومباشر في أي مشروع JavaScript.
للاستخدام كتطبيق مرجعي أو برنامج نصي لـ CDN (لا يلزم وجود خطوة إنشاء):
يُعد أسلوب CDN أسرع طريقة لاختبار PageAgent على أي صفحة ويب موجودة دون تعديل إعداد الإصدار الخاص بك.
أبسط تكامل ممكن يتطلب ثلاثة أسطر من التعليمات البرمجية ذات المعنى:
لا تكشف مطلقًا عن مفتاح واجهة برمجة التطبيقات (API) الخاص بك في التعليمات البرمجية من جانب العميل. لاستخدام الإنتاج، قم بتوكيل استدعاءات واجهة برمجة التطبيقات (API) من خلال الواجهة الخلفية لديك:
للحصول على تكامل حقيقي للمنتج، ستحتاج إلى واجهة مستخدم مناسبة تتيح للمستخدمين كتابة التعليمات ورؤية النتائج. إليك مكون React الكامل:
يعرض PageAgent العديد من خيارات التكوين المهمة للاستخدام في الإنتاج:
دعم اللغة العربية لتطبيقات دولة الإمارات العربية المتحدة:
يدعم PageAgent تعليمات اللغة العربية محليًا - وهو أمر مهم لتطبيقات الأعمال في دولة الإمارات العربية المتحدة التي تخدم المستخدمين الناطقين باللغة العربية:
يضيف ملحق Page Agent Chrome أتمتة عبر علامات التبويب - حيث يمكن تشغيله عبر علامات تبويب وصفحات متعددة في المتصفح. يقوم الامتداد بإجراء تحليل DOM محليًا في متصفحك. عند بدء مهمة، يتم إرسال بنية الصفحة المعقمة إلى واجهة برمجة تطبيقات LLM التي قمت بتكوينها. لا يتم جمع بياناتك أو تخزينها أبدًا.
قم بالتثبيت من سوق Chrome الإلكتروني من خلال البحث عن "Page Agent Ext" أو زيارة الرابط من مستودع PageAgent GitHub. تم تقييم الامتداد بـ 4.9 من أصل 5 نجوم ويدعم برنامج Bring Your Own LLM - استخدم OpenAI أو Anthropic أو أي واجهة برمجة تطبيقات متوافقة مع التحكم الكامل في البيانات.
بمجرد التثبيت، قم بتكوين مفتاح API الخاص بك في إعدادات الامتداد. يمكنك بعد ذلك بدء عمليات أتمتة متعددة الصفحات مباشرة من لوحة الامتداد - وهو أمر مفيد لعمليات سير العمل التي تشمل إدارة علاقات العملاء (CRM) والبريد الإلكتروني الخاص بك وأداة إدارة المشروعات الخاصة بك في وقت واحد.
ليست كل المهام تحتاج إلى نفس النموذج. فيما يلي دليل عملي لاختيار نموذج PageAgent في عام 2026:
للتفاعلات البسيطة المكونة من خطوة واحدة (انقر فوق زر، واملأ حقلاً، وانتقل إلى الصفحة): استخدم DeepSeek V3.2 أو Qwen3.5-Plus. ديب سيك V3.2 في $0.27/$يوفر 1.10 لكل مليون رمز أداءً قويًا في المهام المباشرة بجزء صغير من تكلفة النماذج الحدودية.
بالنسبة إلى عمليات سير العمل متوسطة التعقيد (ملء نموذج متعدد الخطوات، والتنقل المشروط، واستخراج البيانات): استخدم Claude Sonnet 4.6 أو GPT-5. إن اتباع التعليمات والمنطق الأقوى لهذه النماذج يتعامل مع الغموض والتخطيط متعدد الخطوات بشكل أكثر موثوقية.
بالنسبة لعمليات التشغيل التلقائي المعقدة وطويلة الأمد (البحث عبر الصفحات، وتجميع المعلومات، والتعامل مع الاستثناءات): استخدم كلود أوبوس 4.6. تتعامل نافذة السياق الأكبر والتفكير الفائق مع المهام من خلال العديد من الخطوات والفروع الشرطية بشكل أكثر موثوقية.
للإنتاج على نطاق واسع مع حساسية التكلفة: استخدم OpenRouter مع النماذج الاحتياطية - تم تعيين النموذج الأساسي على Claude Sonnet 4.6 للجودة، مع DeepSeek V3.2 كنموذج احتياطي للمهام الأبسط ذات الحجم الكبير:
التقييم الصادق يعني الاعتراف بالقيود إلى جانب القدرات.
يعمل PageAgent بشكل أفضل على الصفحات التي تحتوي على HTML دلالي جيد التنظيم. الصفحات التي تعتمد بشكل كبير على عرض اللوحة القماشية، أو واجهات SVG المعقدة، أو هياكل DOM المبهمة بشدة، تمنح الوكيل مساحة أقل للعمل معها وتنتج نتائج أقل موثوقية.
إنها أداة من جانب العميل، ولا يمكنها تنفيذ إجراءات من جانب الخادم، أو الوصول إلى البيانات غير المرئية في المتصفح، أو التفاعل مع الأنظمة خارج جلسة المتصفح الحالية. لأتمتة الواجهة الخلفية، قم بدمج PageAgent مع n8n أو Make للمكونات من جانب الخادم.
يمكن أن تصل عمليات سير العمل الشرطية المعقدة التي تحتوي على العديد من فروع الاستثناء - "إذا أظهر النموذج الخطأ X، فافعل Y، ولكن إذا أظهر الخطأ Z، فافعل شيئًا مختلفًا" - إلى حد maxSteps في الصفحات المعقدة. في هذه الحالات، يؤدي تقسيم المهمة إلى تعليمات متسلسلة أصغر إلى نتائج أكثر موثوقية من تعليمات مركبة كبيرة واحدة.
إن فرضية المطور وراء PageAgent تستحق أن تؤخذ على محمل الجد: هناك مساحة تصميم ضخمة لنشر الوكلاء العامين محليًا داخل تطبيقات الويب التي نستخدمها بالفعل. بدلاً من بناء أدوات أتمتة منفصلة تتفاعل مع واجهات الويب من الخارج، فإن المستقبل هو الوكلاء الذين يعيشون داخل المنتج - فهم سياقه، واستخدام جلسته، والعمل نيابة عن مستخدميه.
بالنسبة للشركات الإماراتية التي تستثمر في تطبيقات الويب في عام 2026، يمثل PageAgent إحدى أكثر الطرق العملية لإضافة قدرة الذكاء الاصطناعي الحقيقية إلى منتج حالي دون إعادة كتابة الواجهة الخلفية. التكامل عبارة عن بضعة أسطر من JavaScript. خيارات النموذج مرنة وقابلة للتطوير من حيث التكلفة. تعتبر حالات الاستخدام - خاصة بالنسبة لتخطيط موارد المؤسسات (ERP) وإدارة علاقات العملاء (CRM) وتبسيط أدوات الأعمال المعقدة - ذات صلة فورية.
إنها لا تحاول استبدال المتصفح الخاص بك - إنها تحاول جعل المتصفح الذي تستخدمه بالفعل أكثر ذكاءً. بالنسبة للمستخدمين الذين يعانون من واجهات معقدة، تعد هذه ترقية ذات معنى. بالنسبة لفرق الإنتاج التي ترغب في شحن مساعد طيار يعمل بالذكاء الاصطناعي دون بناء واحد من الصفر، يعد هذا اختصارًا مهمًا.
At Joyboy, we integrate AI agent capabilities — including PageAgent — into web applications for UAE businesses, turning complex interfaces into natural language experiences. Talk to us about your project.