
قم بالمشي عبر مبنى تم إنشاؤه بواسطة معظم نماذج الفيديو المدعومة بالذكاء الاصطناعي، وسيشعرك بوجود خطأ ما على الفور. تقوم الأبواب بتغيير المواضع بين الإطارات. الغرف التي يجب أن تتصل لا تتصل. تنجرف الكائنات أو تصبح غير واضحة أو تختفي تمامًا عندما تنظر بعيدًا ثم تعود للخلف. لا يمتلك النموذج فهمًا مستمرًا للمساحة، فهو يرتجل كل إطار، وتظهر الطبقات.
قامت NVIDIA Research بنشر Lyra 2.0 في 14 أبريل 2026، وهو هجوم مباشر على هذه المشكلة. تقدم هذه الورقة البحثية - الصادرة عن مختبر الذكاء المكاني، والتي ألفها أربعة عشر باحثًا - إطارًا لإنشاء عوالم ثلاثية الأبعاد مستمرة وقابلة للاستكشاف على نطاق واسع. ليست مقاطع فيديو تبدو وكأنها ثلاثية الأبعاد. الهندسة ثلاثية الأبعاد الفعلية. البيئات التي يمكنك المشي فيها، وتصديرها إلى محرك فيزيائي، وتسليمها إلى الروبوت.
كانت النتائج مذهلة بما يكفي لدرجة أنها تستحق الفهم بالتفصيل - سواء من الناحية الفنية أو من حيث ما تعنيه لأي شخص يقوم ببناء أنظمة الذكاء الاصطناعي المكاني، أو الألعاب، أو المحاكاة، أو تطبيقات الذكاء الاصطناعي المجسدة.
من السهل وصف سير العمل الأساسي بشكل مخادع. أنت تعطي النظام صورة إدخال واحدة. يمكنك تحديد مسار الكاميرا - حيث تريد التحرك عبر الفضاء. يُنشئ Lyra 2.0 مقطع فيديو لما ستبدو عليه هذه الإرشادات التفصيلية، إطارًا تلو الآخر، مع الحفاظ على الاتساق المكاني أثناء تحرك الكاميرا الافتراضية. ثم يقوم بعد ذلك برفع هذا الفيديو إلى هندسة ثلاثية الأبعاد - سحب نقطية، وبقع غاوسية ثلاثية الأبعاد، وشبكات قابلة للتصدير.
والنتيجة هي بيئة ثلاثية الأبعاد قابلة للملاحة تم إنشاؤها بالكامل من صورة فوتوغرافية.
ما يجعل هذا الأمر مختلفًا عن المحاولات السابقة هو المثابرة. قم بالتجول في منزل تم إنشاؤه بواسطة معظم نماذج فيديو الذكاء الاصطناعي وستلاحظ شيئًا مقلقًا. تقوم الأبواب بتغيير المواضع بين الإطارات. الغرف التي يجب أن تتصل لا تتصل. تنجرف الكائنات أو تصبح ضبابية أو تختفي تمامًا عندما تنظر بعيدًا. ليس لدى الذكاء الاصطناعي فهم مستمر للفضاء، فهو يرتجل كل إطار.
تم تصميم Lyra 2.0 خصيصًا لعدم القيام بذلك. يحتفظ النظام بذاكرة مكانية لما قام بإنشائه بالفعل، لذلك عندما تعود الكاميرا إلى منطقة تمت رؤيتها مسبقًا، يعرف النموذج ما كان هناك، ولا يخمن.
يضع فريق NVIDIA التحدي الفني الأساسي حول وضعين محددين للفشل مما أدى إلى محدودية توليد ثلاثي الأبعاد طويل المدى حتى الآن.
الأول هو النسيان المكاني. مع استمرار الاستكشاف، تقع المناطق التي تمت ملاحظتها سابقًا خارج السياق الزمني للنموذج، مما يجبر النموذج على هلوسة الهياكل عند إعادة النظر فيها. من الناحية العملية: تدخل إلى غرفة، ثم تستدير، وتعود عبر الباب الذي أتيت منه للتو، فيتغير الممر. لقد نسي النموذج ما قام بإنشائه قبل ثلاثين ثانية.
والثاني هو ** الانجراف الزمني **. يؤدي إنشاء الانحدار الذاتي إلى تراكم أخطاء تركيبية صغيرة بمرور الوقت، مما يؤدي إلى تشويه مظهر المشهد وهندسته تدريجيًا. يتم إنشاء كل إطار بناءً على الإطارات السابقة - وإذا كان هناك خطأ صغير في الإطار 50، فإنه يتفاقم إلى خطأ أكبر في الإطار 200. وبحلول الوقت الذي تقطع فيه أي مسافة ذات معنى عبر البيئة التي تم إنشاؤها، يكون الأمر برمته قد انجرف بعيدًا عن مظهره الأصلي.
هذه ليست مضايقات بسيطة. إنهم السبب في أن البيئات التي أنشأها الذكاء الاصطناعي كانت غير قابلة للاستخدام لأي تطبيق يتطلب الاتساق المكاني - الألعاب، والتدريب على الروبوتات، والتصور المعماري، والواقع الافتراضي. النسيان المكاني والانحراف الزمني هما الجدار الذي يفصل "العروض التوضيحية الرائعة" عن "الأنظمة المفيدة بالفعل".
تعتبر الحلول أنيقة من الناحية الفنية وتستحق الفهم على المستوى المفاهيمي حتى لو لم تقم بتنفيذ النظام بنفسك.
حل مشكلة النسيان المكاني — استرجاع الإطار القائم على الهندسة:
لمعالجة النسيان المكاني، يحافظ Lyra 2.0 على هندسة ثلاثية الأبعاد لكل إطار ويستخدمها فقط لتوجيه المعلومات - استرجاع الإطارات السابقة ذات الصلة وإنشاء مراسلات كثيفة مع وجهات النظر المستهدفة - مع الاعتماد على التوليد السابق لتركيب المظهر.
الفكرة الرئيسية هنا هي تقسيم العمل. لا تقوم الطبقة الهندسية بإنشاء المظهر، بل تقوم بالتنقل. عندما تشير الكاميرا إلى موقع كان مرئيًا سابقًا، يستخدم النظام الهندسة ثلاثية الأبعاد المخزنة لتحديد الإطارات السابقة الأكثر صلة وكيفية توافقها مع وجهة النظر الحالية. ثم يملأ النموذج التوليدي المظهر الفعلي، مستنيرًا بتلك الإطارات المستردة. الهندسة عبارة عن خريطة. النموذج التوليدي هو الرسام.
يعد هذا فصلًا أنظف من محاولة حشو كل شيء في نافذة سياق نموذج واحد، ونتيجة لذلك فإنه يتحول إلى مسارات أطول بكثير.
حل الانجراف الزمني — التدريب المعزز ذاتيًا:
وبدلاً من الاعتماد فقط على البيانات التي يحملها الإنسان، يتعلم Lyra 2.0 كيفية تحديد الانجراف الزمني الخاص به وتصحيحه. يصبح النظام في الأساس معلمه الخاص، حيث يكتشف التناقضات ويعدل توقعاته وفقًا لذلك.
ولمعالجة الانجراف الزمني، يتدرب الفريق باستخدام تواريخ معززة ذاتيًا تعرض النموذج لمخرجاته المتدهورة، وتعلمه كيفية تصحيح الانجراف بدلاً من نشره. فبدلاً من تدريب النموذج على تسلسلات مثالية والأمل في تعميمه على التسلسلات غير الكاملة في النشر، يقومون عن عمد بتغذيته بمخرجاته المتدهورة أثناء التدريب وتعليمه كيفية التعرف على أنماط الانحراف التي سيواجهها في الممارسة العملية وتصحيحها.
وهذا النهج يتفوق على الإشراف التقليدي. يعد وضع علامات على التناقضات المكانية عبر آلاف إطارات الفيديو عملاً شاقًا. يمكن للنموذج الذي يمكنه التعرف على أخطائه والتعلم منها أن يتحسن بشكل مستمر دون زيادات متناسبة في جهد التعليق التوضيحي.
أحد المكونات الأكثر عملية في Lyra 2.0 هو واجهة المستخدم الرسومية التفاعلية التي تأتي مع إطار العمل.
يقوم الفريق ببناء واجهة مستخدم رسومية تفاعلية لتصور السحب النقطية المتراكمة، وتمكين المستخدمين من تخطيط مسارات الكاميرا لإعادة زيارة المناطق التي تم استكشافها مسبقًا أو المغامرة في مناطق غير ملحوظة. يقوم Lyra 2.0 بإنشاء المشهد تدريجيًا أثناء تحرك المستخدم في المشهد.
هذا ليس خط أنابيب التقديم والانتظار. يتوسع المشهد أثناء تحركك من خلاله - مثل محرك اللعبة الذي يولد تضاريس جديدة أمام اللاعب، باستثناء أن التضاريس يتم تركيبها بواسطة نموذج الذكاء الاصطناعي بدلاً من تجميعها من أصول مصنوعة يدويًا. أنت ترسم طريقًا عبر البيئة، ويقوم النموذج بتوليد ما يقع على طوله.
تسمح واجهة المستخدم الرسومية أيضًا بالتبديل بين إخراج الفيديو الذي تم إنشاؤه بشكل مباشر والعرض المقدم من Gaussian Splats الذي تم إنشاؤه - بحيث يمكنك مقارنة جودة إنشاء الفيديو الخام بجودة إعادة البناء ثلاثي الأبعاد في أي نقطة في الاستكشاف.
تتضمن صفحة مشروع NVIDIA العديد من مقاطع الفيديو الإرشادية الرسمية التي تجعل سير عمل Lyra 2.0 أسهل بكثير في الفهم عمليًا. المقاطع أدناه هي الإعلان التشويقي للمشروع، والعرض التوضيحي لاستكشاف المشهد، والعرض التوضيحي للملاحة الروبوتية Isaac Sim المشار إليه في صفحة المشروع.
دعابة - افتح ملف MP4 الرسمي
استكشاف المشهد - افتح ملف MP4 الرسمي
عرض روبوت إسحاق سيم - افتح ملف MP4 الرسمي
الميزة الأكثر أهمية في Lyra 2.0 لعمل الذكاء الاصطناعي التطبيقي هي ما يحدث بعد إنشاء العالم.
يمكن رفع الفيديو الذي تم إنشاؤه إلى 3DGS والشبكات، والتي يمكن تصديرها مباشرة إلى محركات الفيزياء للتطبيقات النهائية. تقدم الورقة أمثلة على تصدير المشهد إلى NVIDIA Isaac Sim من أجل التنقل والتفاعل مع الروبوت المؤرض ماديًا، مما يسلط الضوء على إمكانية محاكاة الذكاء الاصطناعي المجسدة القابلة للتطوير.
العرض التوضيحي مذهل: روبوت توصيل يتنقل عبر منشأة تم إنشاؤها بالكامل من صورة واحدة لمساحة مماثلة، باستخدام 3D Gaussian Splat والشبكة التي تم تصديرها كبيئة محاكاة. لم يكن الروبوت في هذا الفضاء المحدد من قبل. لم يتم مسح المساحة فعليًا أو تصميمها يدويًا. تم إنشاؤه بواسطة الذكاء الاصطناعي في دقائق ثم تم تسليمه إلى محرك فيزيائي لتدريب الروبوت.
ويمكن تدريب روبوت التسليم الذي يتنقل في منشأة جديدة في نسخة محاكاة لتلك المنشأة، والتي يتم بناؤها في دقائق من صورة واحدة. يحافظ تصدير Gaussian Splat ثلاثي الأبعاد على الهندسة المكانية الكاملة وتفاصيل النسيج لاستخدام محرك الفيزياء.
إن الآثار المترتبة على الروبوتات والذكاء الاصطناعي المتجسد كبيرة. إحدى العوائق الرئيسية في تدريب الروبوتات لبيئات العالم الحقيقي هي صعوبة إنشاء محاكاة للتدريب - إما أن تتدرب في العالم الحقيقي، وهو مكلف وبطيء، أو تقوم ببناء بيئات محاكاة يدويًا، وهي أيضًا مكلفة وبطيئة. يشير Lyra 2.0 إلى خيار ثالث: إنشاء بيئة محاكاة من صورة للمساحة المستهدفة والتدريب هناك.
في معايير DL3DV وTanks and Temples، سجل Lyra 2.0 LPIPS 0.552، وFID 51.33، واتساق النمط 85.07%. تقيس هذه الأرقام جودة الإدراك الحسي، ودقة التوزيع، والتماسك البصري عبر الإطارات التي تم إنشاؤها.
يعتبر رقم تناسق النمط ذا أهمية خاصة للاستخدام العملي - 85.07% من التماسك عبر الإطارات التي تم إنشاؤها يعني أن البيئة تبدو وكأنها نفس البيئة طوال عملية الاستكشاف، وليست سلسلة من الهلوسة ذات الصلة غير الدقيقة المجمعة معًا.
سيتم تنشيط مساحة تحويل الصورة إلى ثلاثية الأبعاد في عام 2026. وتغطي HunyuanWorld Mirror من Tencent منطقة مماثلة باستخدام الرش الغاوسي لتمثيل المشهد. يتميز Lyra 2.0 بآليات مكافحة النسيان والانجراف التي تحافظ على الاتساق عبر المسارات الأطول ومع خط أنابيب Isaac Sim لاستخدام المحاكاة.
تم نشر Lyra 1.0، النظام السابق، في ICLR 2026 وقدم خط الأنابيب الأساسي لإنشاء مشهد ثلاثي الأبعاد ورباعي الأبعاد من صور فردية. يعمل Lyra 2.0 على توسيع هذا الأساس خصيصًا لاستكشاف الأفق الطويل، أي القدرة على التنقل عبر مناطق مكانية كبيرة بينما يحافظ النموذج على الاتساق الهندسي عبر التسلسل بأكمله.
حقيقة أن كلاً من Lyra 1.0 وLyra 2.0 تم إصدارهما بموجب تراخيص مفتوحة — Apache 2.0 للكود المصدري وترخيص NVIDIA Open Model لأوزان النماذج — ومتوفران على Hugging Face يعني أن هذا ليس نظام بحث مغلق. إنه إطار عمل يمكنك تشغيله وضبطه والبناء عليه اليوم.
تتكشف الآثار المترتبة على البيئات ثلاثية الأبعاد المولدة المستمرة والقابلة للتصدير بشكل مختلف عبر المجالات المختلفة.
**من أجل تطوير الألعاب، ** قام مطورو الألعاب بصناعة عوالم ثابتة يدويًا بتكلفة هائلة. إن الإطار الذي يمكنه إنشاء بيئات متسقة وقابلة للاستكشاف تلقائيًا يمكن أن يغير اقتصاديات إنشاء العالم الافتراضي. ينخفض حد التكلفة لبيئة ثلاثية الأبعاد قابلة للملاحة من أسابيع من وقت الفنان إلى دقائق من وقت الإنشاء.
** بالنسبة للروبوتات والذكاء الاصطناعي المتجسد، ** يعد تكامل Isaac Sim هو العنوان الرئيسي. لقد تطلبت بيانات التدريب الخاصة بالتنقل الآلي في البيئات الجديدة تاريخياً إما النشر في العالم الحقيقي أو إنشاء مشهد يدوي باهظ الثمن. يوفر Lyra 2.0 طريقًا لإنشاء بيئات تدريب معقولة من الصور المرجعية على نطاق واسع - والتي يمكن أن تسرع بشكل كبير تطوير الذكاء الاصطناعي المتجسد عبر الخدمات اللوجستية، وتجارة التجزئة، والضيافة، وأي قطاع آخر ينشر الروبوتات المادية.
بالنسبة للتصورات المعمارية والعقارات، فإن القدرة على إنشاء عرض تفصيلي لمساحة ما من صورة خارجية أو داخلية واحدة - وتصديرها كهندسة ثلاثية الأبعاد حقيقية - لها تطبيقات واضحة. ليس مقطع فيديو معروضًا، ولكنه نموذج ثلاثي الأبعاد قابل للملاحة ويمكن إسقاطه على العارض أو سماعة الرأس VR أو المحاكاة.
بالنسبة للأفلام والإنتاج الافتراضي، يمكن أن يؤدي المسار من صورة مرجعية لموقع واحد إلى بيئة ثلاثية الأبعاد قابلة للاستكشاف بالكامل إلى تغيير كيفية التعامل مع العمل المسبق والخلفي الرقمي والموقع الافتراضي.
يمثل هذا الإطار خطوة مهمة نحو الذكاء الاصطناعي التوليدي الذي يفهم الفضاء بالطريقة التي يفهمها البشر: كشيء ثابت وقابل للملاحة ومتماسك بشكل أساسي.
هذا الإطار يستحق الجلوس معه للحظة. تعمل معظم أنظمة الذكاء الاصطناعي التوليدية في مجال الرموز المميزة والبكسلات – التسلسلات والصور. يتم تجربة المخرجات بشكل سلبي. يعمل Lyra 2.0 في مجال مختلف: الفضاء الذي يستمر، والذي يمكن التنقل فيه، والذي يتماسك عندما تتحرك داخله. يتم تجربة المخرجات بنشاط.
هذا ليس الشكل النهائي لخلق عالم ثلاثي الأبعاد. يقوم النظام الحالي بإنشاء بيئات تبدو مقنعة بصريًا ولكن بها قيود في الدقة الهندسية مقارنة بالبيئات الممسوحة ضوئيًا فعليًا، وعملية الإنشاء ليست بعد في الوقت الفعلي بالطريقة التي يكون بها محرك اللعبة في الوقت الفعلي. هذه مشكلات بحثية نشطة ذات مسارات واضحة نحو التحسين.
لكن الاتجاه واضح. المشكلتان الأساسيتان اللتان منعتا البيئات التي أنشأها الذكاء الاصطناعي من أن تكون مفيدة عمليا - النسيان المكاني والانحراف الزمني - لهما حلول تقنية موثوقة في Lyra 2.0. تم توضيح وتوافر خط الأنابيب من الصورة الفوتوغرافية إلى العالم ثلاثي الأبعاد القابل للملاحة إلى محاكاة الفيزياء.
ما يتم بناؤه على هذا الأساس هو السؤال المثير للاهتمام الآن.
الورقة متاحة على arxiv.org/abs/2604.13036. أوزان النموذج والكود موجودان على Hugging Face وGitHub بموجب تراخيص مفتوحة.


At Joyboy, we help UAE businesses integrate emerging AI technologies into real products — from custom software to AI-powered automation pipelines. Talk to us about what you're building.