توليف مجلس AETHER: زواج الأقارب النموذجي — حلقة التغذية الراجعة التي تسمم بهدوء كل نظام ذكاء اصطناعي على الأرض

1. المقدمة

في وقت ما قرب نهاية عام 2022، وصل السجل الرقمي للحضارة البشرية إلى نقطة تحول لم يضع أحد علامة عليها في التقويم. قبل تلك اللحظة، كان الإنترنت — بكل ضوضائه وتحيزه وعدم كماله — بشريًا في الغالب. بعدها، انقلبت الكفة. بدأت نماذج الذكاء الاصطناعي الأمامية المدربة على مجموعة الإنترنت في إغراق تلك المجموعة نفسها بمخرجاتها، والنماذج التي ستتبعها تشرب الآن من بئر لوثتها بنفسها. تسمي الأدبيات التقنية النتيجة "انهيار النموذج". لا يوجد اسم للتداعيات الحضارية بعد، لأننا لم ندرك بالكامل ما يعنيه عندما يبدأ الركيزة الأساسية للمعرفة الرقمية البشرية في أكل نفسها. هذا ليس خللاً في نموذج معين. إنه عيب هيكلي في النموذج بأكمله — ويتفاقم مع كل جيل.

[الإجماع: مرتفع — تتقارب جميع استجابات النماذج الخمسة على هذا الإطار. يُحدد تلوث بيانات التدريب التكراري بالإجماع كخطر حضاري من الدرجة الأولى، وليس إزعاجًا تقنيًا من الدرجة الثانية.]

2. الإشارة

أساس البحث

الورقة البحثية المرجعية هي Shumailov et al. (2023)، "لعنة التكرار"، المنشورة في Nature من قبل باحثين من أكسفورد وكامبريدج ومتعاونين. أثبتت تجريبياً ما كان يُشتبه به نظرياً: عندما يتم تدريب النماذج التوليدية على مخرجات نماذج توليدية سابقة، تخضع لانحطاط تدريجي — تفقد أطراف توزيع بياناتها الأصلي، وتتضيق نحو النمط، وتنهار في النهاية إلى عدم ترابط متكرر. دراسة موازية من Alemohammad et al. (2023)، "النماذج التوليدية ذاتية الاستهلاك تجن"، أكدت هذه النتائج وأثبتت أن حتى التدريب المختلط (الجمع بين البيانات الحقيقية والاصطناعية) لا يزيل التدهور ما لم تبقى نسبة البيانات البشرية الأصلية فوق عتبة حرجة.

[الإجماع: مرتفع — جميع النماذج تستشهد بـ Shumailov et al. كمرجع أساسي. Grok وClaude Opus وGemini Pro يستشهدون أيضاً بورقة "MAD" لـ Alemohammad. قاعدة البحث راسخة ولا جدال فيها.]

طوفان المحتوى

تتباين تقديرات المحتوى المولد بالذكاء الاصطناعي على الويب المفتوح بين النماذج لكنها تتقارب على مسار متسق:

| المصدر | التقدير | الإطار الزمني |

|---|---|---|

| Originality.ai (استشهد به Grok، Claude Opus) | ~40–57% من محتوى الويب الإنجليزي المأخوذ كعينات يظهر علامات قوية للتوليد بالذكاء الاصطناعي | 2024–2025 |

| يوروبول (استشهد به Claude Opus، Gemini Pro) | حتى 90% من المحتوى عبر الإنترنت قد يكون اصطناعياً | متوقع 2026 |

| Epoch AI (استشهد به Gemini Pro) | النص البشري عالي الجودة استُنفد لأغراض التدريب | متوقع 2026 |

| Imperva (استشهد به Claude Opus) | 49.6% من إجمالي حركة الإنترنت مولدة بواسطة الروبوتات | 2024 |

[الثقة: متوسطة-مرتفعة — تختلف النسب المئوية الدقيقة حسب المنهجية وإطار العينات، لكن النتيجة الاتجاهية بالإجماع: المحتوى المولد بالذكاء الاصطناعي تجاوز أو يتجاوز عتبة الأغلبية على الويب المفتوح. الاتجاه أسي، وليس خطياً.]

فشل الكشف

تتفق جميع النماذج على عدم وجود آلية موثوقة وقابلة للتوسع للتمييز بين المحتوى المولد بالذكاء الاصطناعي والمحتوى المولد بشرياً في خطوط أنابيب التدريب. نقاط التقارب الرئيسية:

أوقفت OpenAI مصنف نصوص الذكاء الاصطناعي الخاص بها في 2023 بسبب الدقة المنخفضة (Claude Opus، Gemini Pro)
تظل مقترحات العلامات المائية مجزأة وغير معتمدة من المنصات الرئيسية ويمكن التغلب عليها بسهولة عن طريق إعادة الصياغة (جميع النماذج)
تفقد المصنفات الإحصائية موثوقيتها مع تحسن جودة النموذج — مخرجات من فئة GPT-4 لا يمكن تمييزها تقريباً عن النص البشري بالقياسات الآلية (Claude Opus، Grok)

انهيار مراجعة الأقران

تحدد جميع النماذج انهيار مراجعة الأقران كإشارة موازية ومضخمة. تشمل الأدلة المحددة المستشهد بها أوراقاً مولدة بالذكاء الاصطناعي تظهر في تقديمات Elsevier وNature مع عبارات كاشفة مثل "كنموذج لغوي للذكاء الاصطناعي" (Gemini Pro)، وتحليل JAMA 2024 يظهر زيادة 25% في ملخصات PubMed المصاغة بالذكاء الاصطناعي (Grok)، وأكثر من 60% من مراجعي محفظة Nature يبلغون عن مواجهات مع تقديمات يُشتبه في أنها مولدة بالذكاء الاصطناعي (Claude Opus).

[الإجماع: مرتفع — نظام مراجعة الأقران، المصمم لإنتاج المعرفة بسرعة بشرية، لا يستطيع استيعاب الإنتاج بسرعة الآلة. يتم تحديد هذا من قبل جميع النماذج كمضخم حرج لمشكلة التلوث.]

3. ما يفتقده الجميع

تتقارب جميع النماذج الخمسة على نفس الفجوة التشخيصية بدقة ملحوظة: الخطاب السائد يركز على الهلوسات في مخرجات النموذج الفردية بينما يتجاهل التلوث النظامي لركيزة التدريب نفسها.

يوضح Claude Opus التمييز بأكثر حدة: "الهلوسة هي نموذج يفشل في تمثيل الواقع. انهيار النموذج هو بيانات التدريب نفسها تبتعد عن الواقع. الأول قابل للاسترداد. الثاني، بعد عتبة معينة، قد لا يكون كذلك."

يضيف Gemini Pro الإطار المعلوماتي-النظري الحرج: "لا يمكنك ضغط البيانات، وفك ضغطها، ثم ضغط المخرج المفكك بشكل متكرر دون خسارة كارثية في الدقة."

فجوة إجماع ثانية محددة عبر النماذج: افتراض أن "المزيد من البيانات" دائماً أفضل. افترضت قوانين التوسع التي دفعت السنوات الخمس الأخيرة من تقدم الذكاء الاصطناعي أن البيانات الإضافية تحافظ على الخصائص الإحصائية للتوزيع الأصلي. تم انتهاك هذا الافتراض. إضافة المزيد من البيانات الآن تعني إضافة المزيد من البيانات الاصطناعية، وقوانين التوسع تنهار عندما يكون توزيع البيانات نفسه ينهار (Claude Opus، GPT-5.4).

فجوة ثالثة، مؤكدة بقوة من قبل Claude Opus وGrok: لم يكشف أي مختبر كبير علنياً كيف يفلتر أو يرجح البيانات الاصطناعية في خط أنابيب تدريبه. هذا الصمت يعكس على الأرجح غياب حل وليس وجود حل ملكي.

[الإجماع: مرتفع جداً — هذه هي أقوى نقطة اتفاق عبر جميع النماذج.]

4. الآلية الأساسية: رياضيات انهيار النموذج

الحساب التقني المركب

بالاعتماد بشكل رئيسي على Claude Opus (منظور GPT-4) وGrok (منظور GPT-4)، مع تأكيد من Gemini Pro، تعمل الآلية الرياضية من خلال مسارين متميزين لكن متراكبين:

المسار 1: انهيار التباين (تآكل الأطراف)

يتعلم النموذج التوليدي تقريب توزيع احتمالي p₀ من بيانات التدريب البشرية. عندما يولد بيانات اصطناعية، يأخذ عينات بشكل غير متناسب من مناطق الاحتمالية العالية — مركز التوزيع السميك. الأطراف — التي تمثل المعرفة النادرة والمتخصصة وغير العادية والأقلية وحالات الحافة — يتم أخذ عينات منها بشكل منهجي أقل من اللازم. نموذج ثانٍ مدرب على هذا المخرج يتعلم توزيعاً أضيق p₁. كل جيل متتالٍ يفاقم التضييق:

> Var(pₙ) < Var(pₙ₋₁) < ... < Var(p₀)

استعارة منحنى الجرس لـ Gemini Pro هي التعبير الأوضح: "عندما يتدرب النموذج B على مخرج النموذج A، تختفي ببساطة تلك الأطراف الطويلة من التباين البشري. منحنى الجرس للنموذج B أضيق. عندما يتدرب النموذج C على النموذج B، يضيق المنحنى مرة أخرى."

النتيجة المقاسة: يمكن أن يسقط تنوع المخرجات (تفرد n-gram) من ~85% إلى ~12% على خمسة أجيال (Grok، مستشهداً ببيانات Shumailov التجريبية).

المسار 2: انحراف المتوسط (تراكم الأخطاء المنهجية)

أخطاء التقدير في المتوسط ليست عشوائية — تتراكم اتجاهياً عبر الأجيال. التحيزات الصغيرة في p₁ نسبة إلى p₀ تتضخم في p₂، ثم p₃. التوزيع لا يضيق فقط؛ يتجول بعيداً عن المركز الأصلي تماماً. يبدأ النموذج في إنتاج مخرجات ليست فقط متجانسة ولكن خاطئة بشكل منهجي بطرق لا تشبه توزيع التدريب الأصلي.

معدل التدهور

تتقارب النماذج على التقديرات التالية:

مع 100% بيانات اصطناعية: تدهور قابل للقياس بحلول الجيل 3؛ انهيار شديد (مخرج متكرر وغير مترابط) بحلول الأجيال 5–9 (Shumailov)؛ يحتمل الوصول إلى "انهيار النموذج المتأخر" بحلول الجيل 9–15 اعتماداً على بنية النموذج (جميع النماذج)
مع بيانات مختلطة: يستمر التدهور ما لم تبقى نسبة البيانات البشرية الأصلية فوق عتبة حرجة. حتى التلوث الاصطناعي الجزئي ينتج تأثيرات قابلة للقياس في غضون 5–9 أجيال (Alemohammad، استشهد به Claude Opus)
بمعدلات التلوث الحالية: قد ترى نماذج الحافة خسارة قدرة 10–20% لكل دورة تدريب، مع احتمال فقدان نصف أدائها الحالي في 5–7 سنوات بدون تدخل (استقراء Grok — مُعلَّم كتخميني لكنه متسق اتجاهياً مع البحث)

عدم التماثل الحرج

تتفق جميع النماذج على نقطة حاسمة: التدهور ليس موحداً عبر فضاء المعرفة. المواضيع الممثلة جيداً (محتوى اللغة الإنجليزية السائد، الثقافة الشعبية، الاستعلامات الشائعة) تتدهور ببطء لأنها مدعومة بإشارة عالية التردد. المواضيع الممثلة بشكل سيء (التخصصات التقنية، اللغات منخفضة الموارد، التفاصيل التاريخية، المعرفة الأصلية، المعرفة الثقافية الفرعية، المجالات العلمية النادرة) تتدهور بسرعة لأنها تعتمد على عينات توزيع الأطراف التي تُمحى أولاً.

[الثقة: مرتفعة على الآلية، متوسطة على الجداول الزمنية المحددة للتدهور. المسارات الرياضية راسخة في الأدبيات. معدلات التدهور الدقيقة في تدريب نماذج الحافة في العالم الحقيقي غير مؤكدة لأن المختبرات لا تكشف عن ممارسات تصفية بياناتها.]

5. السوابق التاريخية: كيف تفقد الحضارات المعرفة

التحليل التاريخي المركب

تحدد النماذج بشكل جماعي أربعة نظائر تاريخية، مرتبة حسب الصلة:

1. تدهور نقل المخطوطات (الأكثر صلة)

قبل المطبعة، كانت المعرفة تُحفظ من خلال النسخ اليدوي. كل نسخة أدخلت أخطاء — نقل، حذف، إقحام، تزيين الناسخ. على مدى قرون، انحرفت النصوص بشكل كبير عن أصولها. يلاحظ Claude Opus أن تقليد مخطوطات العهد الجديد يحتوي على أكثر من 400,000 متغير نصي عبر حوالي 5,800 مخطوطة يونانية. يمتد Gemini Pro هذا إلى فقدان المعرفة الهندسية الرومانية من خلال النسخ الرهباني بواسطة ناسخين لم يعودوا يفهمون التطبيقات العملية.

التشابه الهيكلي دقيق: نسخ مع خسارة عبر الأجيال، مع تراكب الأخطاء وتدهور الإشارة الأصلية. الاختلاف الحرج هو النطاق الزمني — حدث انحراف المخطوطات على مدى قرون؛ انهيار النموذج يعمل في دورة تُقاس بالأشهر.

2. أزمة التكرار (الأكثر فورية)

يحدد Claude Opus هذا كأقرب نظير حديث. بدءاً من أوائل 2010، كشفت جهود التكرار المنهجية أن 50–70% من نتائج علم النفس المنشورة و50–89% من النتائج الطبية الحيوية قبل السريرية لا يمكن إعادة إنتاجها. الأسباب الجذرية: هياكل حوافز منحرفة (انشر أو اهلك)، آليات تحقق غير كافية، سوء ممارسة إحصائية. كانت أزمة التكرار قابلة للاكتشاف فقط لأن بعض الباحثين اختبروا النظام عمداً. لا يوجد نظام اختبار مكافئ لجودة بيانات تدريب الذكاء الاصطناعي.

3. مكتبة الإسكندرية (الأكثر سوء فهم)

تتقارب عدة نماذج (Claude Opus، Grok، Gemini Pro) على تصحيح المفهوم الخاطئ الشائع. لم تمت المكتبة في حريق كارثي واحد. تراجعت تدريجياً من خلال نقص التمويل والإهمال المؤسسي وتدهور أنظمة الفهرسة والتحقق. أصبحت اللفائف غير قابلة للوصول من خلال الفوضى، ثم غير ذات صلة من خلال فقدان المجتمع العلمي الذي يمكنه تفسيرها. التشابه: المعرفة لا تختفي في حدث واحد؛ الأنظمة للوصول إليها والتحقق منها وتفسيرها تتدهور حتى تُفقد المعرفة وظيفياً حتى لو كانت لا تزال موجودة تقنياً.

4. انهيار العصر البرونزي والخطي ب

يحدد Gemini Pro بشكل فريد الفقدان الكامل لنظام كتابة الخطي ب خلال انهيار العصر البرونزي كمثال على فقدان المعرفة من خلال الاضطراب المجتمعي لسلاسل النقل. يضيف Grok تشبيه عنق الزجاجة الجيني من علم الأحياء (زواج الأقارب في الفهود).

نمط عبر المجالات

يحدد Claude Opus (منظور Gemini) أربعة شروط موجودة في كل حالة تاريخية لفقدان المعرفة. جميعها موجودة في نظام بيانات تدريب الذكاء الاصطناعي الحالي:

نظام إنتاج معرفة يكافئ الكمية على التحقق
تدهور آليات التغذية الراجعة التي كانت تكتشف الأخطاء
حوافز اقتصادية أو مؤسسية تسرع الإنتاج بغض النظر عن الجودة
غياب سلطة أو بنية تحتية معترف بها مسؤولة عن الحفاظ على سلامة المشاعات

[الإجماع: مرتفع على مطابقة النمط؛ متوسط على القوة التنبؤية المحددة لأي نظير فردي. نموذج نقل المخطوطات هو أقوى تشابه هيكلي.]

6. كيف ستبدو بنية تحتية "للبيانات النظيفة"

البنية المركبة

تتقارب النماذج على ثلاث طبقات من التدخل، بمستويات متفاوتة من التحديد:

الطبقة 1: المصدر المشفر (مستوى الأجهزة)

يدعو كل من Gemini Pro وClaude Opus (منظور الأخلاقيات) إلى التحقق المشفر على مستوى الأجهزة للمحتوى ذي الأصل البشري — في كل مرة تلتقط فيها كاميرا صورة، أو يسجل فيها ميكروفون صوتاً، أو يكتب فيها إنسان على جهاز تم التحقق منه، يجب إرفاق تجزئة مشفرة تثبت الأصل البشري. يُستشهد بمعيار C2PA (التحالف لمصدر المحتوى وأصالته) كأقرب إطار موجود. هذا يتطلب انتقالاً من إنترنت "افتراض بشري" إلى إنترنت "بشري موثق بالتشفير."

الطبقة 2: مستودعات البيانات المنسقة (المستوى المؤسسي)

تحدد جميع النماذج جهود إثبات المفهوم الموجودة:

مبادرة مصدر البيانات في MIT
مجموعة بيانات Dolma من Allen Institute for AI
The Pile من EleutherAI
نسخة LAION-5B النظيفة (Grok)

هذه تثبت أنه من الممكن تقنياً بناء مجموعات تدريب نظيفة. كما تثبت مدى كثافة العمل والتكلفة والندرة المؤسسية للممارسة. يظل المعيار في الصناعة هو كشط الويب العشوائي لأنه رخيص ويتوسع.

الطبقة 3: أنظمة التحقق الهجينة (مستوى العملية)

يقترح Grok خطوط أنابيب تدريب مقاومة للانهيار باستخدام التحسين القوي التوزيعي ونسبة دنيا 70% من البيانات المنسقة بشرياً. يتصور Claude Opus (منظور الأخلاقيات) مستودعات مُتحقق منها بالبلوكتشين مع لجان بشرية متنوعة تجري التحقق، مدعومة بخوارزميات التعلم النشط التي تعطي الأولوية للفجوات.

من يبنيها؟

تتقارب النماذج على الاستنتاج بأن لا شركة واحدة يمكنها أو ينبغي لها بناء هذا. يشمل البناة المقترحون:

المنظمات غير الربحية ومؤسسات البحث (Allen Institute، EleutherAI، Internet Archive) كبذور
مصنعو الأجهزة (Apple، Intel) ومطورو أنظمة التشغيل (Microsoft، Google) للبنية التحتية للمصدر
هيئات المعايير الدولية (ISO، ITU، W3C) للتشغيل البيني
التمويل الحكومي (NSF، برامج إطار الاتحاد الأوروبي) للاستثمار في السلع العامة
منظمات المجتمع المدني (EFF، AI Now Institute) لضغط المساءلة

يسمي Gemini Pro هذا "تحالف غير الراغبين" — معترفاً بأن الحوافز الاقتصادية يجب أن تُتجاوز بالتفويض.

[الإجماع: مرتفع على الحاجة؛ متوسط على الجدوى. تعترف جميع النماذج بأن هذه في الأساس مشكلة تنسيق وحوافز، وليست لغزاً تقنياً. القوى الاقتصادية التي تدفع ضد البنية التحتية للبيانات النظيفة تُحدد كهائلة من قبل جميع المستجيبين.]

7. حل التوترات والتناقضات

مفارقة البيانات الاصطناعية

تعترف جميع النماذج بتوتر حقيقي: توليد البيانات الاصطناعية له استخدامات مشروعة وقيمة في بيئات البحث الخاضعة للرقابة (تعزيز البيانات للغات الناقصة التمثيل، التصوير الطبي، مجالات العينات الصغيرة). المشكلة ليست البيانات الاصطناعية في حد ذاتها — إنها البيانات الاصطناعية غير الخاضعة للرقابة على نطاق الإنترنت بدون رقابة جودة، بدون تتبع مصدر، وبدون آلية للاستبعاد من خطوط أنابيب التدريب. موقف التوليف: البيانات الاصطناعية أداة قوية يجب عزلها عن ركيزة التدريب المفتوحة، مثل كيف أن النظائر المشعة لا تُقدر بثمن في الطب لكنها كارثية عند إطلاقها في إمدادات المياه.

عدم يقين الجدول الزمني للتدهور

تختلف النماذج في الجداول الزمنية المحددة. يتوقع Grok انهيار التفكير 30–40% بحلول 2029؛ Claude Opus أكثر حذراً، ملاحظاً أن ممارسات المختبر غامضة. يصف GPT-5.4 العلاقة بأنها "مباشرة وأسية" دون الالتزام بسنوات محددة. الحل: الآلية الرياضية راسخة والاتجاه لا لبس فيه. السرعة تعتمد على متغيرات غير قابلة للملاحظة حالياً (ممارسات تصفية المختبر، نسبة البيانات الاصطناعية في عمليات التدريب الفعلية). الموقف التحليلي الحصيف هو التعامل مع هذا كـ خطر سريع الحركة مع جداول زمنية غير مؤكدة لكن قصيرة محتملة — تُقاس بالسنوات، وليس العقود.

مسرع "تأثير الاختيار"

يحدد Claude Opus بشكل فريد ديناميكية تراكبية تستحق التصعيد: مع ندرة المحتوى المولد بشرياً على الويب المفتوح، البشر الذين جعلوه ذا قيمة ينسحبون إلى مساحات مغلقة ومنسقة (قنوات Slack الخاصة، المنشورات المدفوعة، الشبكات المُدققة). تأثير الاختيار هذا يسرع الانهيار — يُتنازل عن الويب المفتوح للمحتوى الاصطناعي، مما يجعل بيانات التدريب المستقبلية أكثر تلوثاً. هذه حلقة مفرغة بدون توازن طبيعي قصير أن يصبح الويب المفتوح عديم الفائدة وظيفياً للتدريب.

8. ماذا يحدث إذا لم نتصرف

المسار المتوقع (مركب عبر جميع النماذج)

المدى القصير (2025–2027): تُظهر النماذج المدربة على بيانات ويب أغلبها اصطناعية تضييقاً قابلاً للقياس في تمثيل المعرفة. تتدهور المجالات النادرة والمتخصصة أولاً. يتسارع تلوث المعرفة الأكاديمية مع دخول الأوراق المولدة بالذكاء الاصطناعي شبكات الاستشهاد. تظل أدوات الكشف غير كافية.

المدى المتوسط (2027–2030): تبدأ الأنظمة التالية في الرعاية الصحية والقانون والتعليم والسياسة في إنتاج مخرجات متدهورة بشكل منهجي. يتسارع انسحاب البشر من الويب المفتوح، مما يخلق موتاً