हमने सिमुलेशन चलाए। फिर हमने एक मशीन बनाई ताकि आप इसके बारे में जान सकें।

एक मल्टी-मॉडल थ्रेट एनालिसिस ने AI भविष्य के बारे में क्या उजागर किया जो कोई जोर से नहीं कह रहा है - और हम इसे सिर्फ एक चैट विंडो में क्यों नहीं छोड़ सकते थे।

शोध की कमी नहीं है। यह समस्या नहीं है।

Anthropic प्रकाशित करता है। CISA सलाह जारी करता है। अकादमिक लैब पेपर प्रकाशित करते हैं। थिंक टैंक गवर्नेंस फ्रेमवर्क तैयार करते हैं। कोई भी आलस्य या गोपनीयता के कारण जानकारी नहीं छिपा रहा है।

समस्या यह है कि जिन लोगों को इस जानकारी की सबसे ज्यादा जरूरत है - जो लोग वास्तव में नेटवर्क चलाते हैं, खरीद निर्णय लेते हैं, नीतियां लिखते हैं, टीमों का प्रबंधन करते हैं - उन्हें यह महीनों या वर्षों बाद मिलती है, संस्थागत अनुवाद की परतों से छनकर, उन प्रारूपों में जो उन तक पहुंचने के लिए डिज़ाइन नहीं किए गए थे।

इस अंतर का एक नाम है। उपयोग अंतर - शोध समुदाय AI खतरे के परिदृश्यों के बारे में जो समझता है और परिचालन समुदाय किस पर कार्य कर पाया है, के बीच की दूरी। यह संचार विफलता नहीं है। यह संरचनात्मक है।

यह प्लेटफॉर्म एक ऐसी बातचीत के कारण मौजूद है जिसने इस समस्या को अनदेखा करना असंभव बना दिया।

वास्तव में क्या हुआ

इस साल की शुरुआत में, हमने वह चलाया जिसे हम चार-परिदृश्य फ्रेमवर्क कहते हैं - चार फ्रंटियर AI मॉडल का एक साथ उपयोग करते हुए एक संरचित खतरा सिमुलेशन, प्रत्येक को एक विशिष्ट विश्लेषणात्मक भूमिका सौंपी गई, उनके आउटपुट एक एकीकृत खुफिया उत्पाद में संश्लेषित किए गए।

जो वापस आया वह आश्वस्त करने वाला नहीं था।

चार परिदृश्य उभरे। चारों आंतरिक रूप से सुसंगत थे। चारों वर्तमान साक्ष्य पर आधारित थे। और साथ में, उन्होंने एक ऐसा परिदृश्य मैप किया जो सार्वजनिक चर्चा के सुझाव से काफी अधिक जटिल है।

अंधेरा/तेज परिदृश्य: कैस्केड तक 18 महीने

सबसे जरूरी परिदृश्य सुपरइंटेलिजेंस इवेंट से शुरू नहीं होता। यह एक लीक से शुरू होता है।

एक चीनी राज्य-समर्थित मॉडल वैरिएंट ठेकेदार एक्सफिल्ट्रेशन के माध्यम से Hugging Face तक पहुंचता है। हफ्तों के भीतर, फाइन-ट्यून्ड डेरिवेटिव आपराधिक नेटवर्क के माध्यम से प्रसारित हो रहे हैं। रैंसमवेयर ऑटोमेशन स्केल होता है। अधिकारियों और पदाधिकारियों की वॉइस क्लोनिंग अंतर-अभेद्यता सीमा को पार करती है।

जो इस परिदृश्य को वास्तव में खतरनाक बनाता है वह कोई एक क्षमता नहीं है। यह वह है जिसे हम सब-सेकंड इंट्रूज़न टाइमलाइन कहते हैं। जब हमलावर 230-मिलीसेकंड अंतराल पर काम करता है - इंट्रूज़न पूरा करता है, थ्रेशोल्ड ट्रिगर से नीचे रहने के लिए वितरित सर्वरों के माध्यम से एक्सफिल्ट्रेट करता है, और अपने स्वयं के एग्रेस लॉग को दूषित करता है - SOC मॉडल संघर्ष नहीं करता। यह श्रेणीगत रूप से विफल होता है।

इस परिदृश्य के चरण चार में, जो उभरा वह एक अकेला दुष्ट AI नहीं है। यह प्रतिकूल पारिस्थितिकी तंत्र मॉडल है - आपराधिक, राज्य और वैचारिक अभिनेताओं का एक स्व-मजबूत नेटवर्क जो भूमिगत एक्सचेंजों के माध्यम से फाइन-ट्यून्ड मॉडल क्षमताओं को साझा करता है।

अंधेरा/धीमा परिदृश्य: लंबा क्षरण

हर जोखिम परिदृश्य सिनेमाई नहीं होता। कुछ लेखांकन वाले होते हैं।

अंधेरा/धीमा परिदृश्य ट्रैक करता है कि क्या होता है जब AI नाटकीय रूप से नहीं लेता - यह बस धीरे-धीरे कार्यबल के बड़े हिस्से को अनावश्यक बना देता है। हम इसे करियर लैडर कोलैप्स कहते हैं। एंट्री-लेवल काम वह था जिससे लोग सीनियर बनते थे। जब AI एंट्री-लेवल काम संभालता है, पाइपलाइन सूख जाती है।

यह परिदृश्य रोबोट को अपनी नौकरी खोने के बारे में नहीं है। यह उन रास्तों के मौन क्षरण के बारे में है जो पहले स्थान पर करियर को संभव बनाते हैं।

उज्ज्वल/तेज परिदृश्य: अराजक प्रचुरता

क्या होगा अगर सब कुछ बहुत तेजी से सही हो जाए?

उज्ज्वल/तेज परिदृश्य में, AI क्षमताएं तेजी से स्केल होती हैं लेकिन अच्छी तरह से संरेखित होती हैं। उपयोगी, सुरक्षित आउटपुट व्यापक रूप से उपलब्ध हो जाते हैं। चिकित्सा अनुसंधान में तेजी आती है। सामग्री खोज में विस्फोट होता है।

समस्या यह है कि परिवर्तन की गति संस्थागत अनुकूली क्षमता को अभिभूत करती है। स्वास्थ्य सेवा प्रणालियां उपचारों को उतनी तेजी से मान्य नहीं कर सकतीं जितनी तेजी से वे खोजे जाते हैं। नियामक व्यवस्थाएं उन उत्पादों से वर्षों पीछे हैं जिनकी वे निगरानी करने वाली हैं।

उज्ज्वल/धीमा परिदृश्य: प्रबंधित अनुकूलन

यह वह परिदृश्य है जिसके साथ अधिकांश मुख्यधारा नीति सोच अंतर्निहित रूप से काम कर रही है। स्थिर प्रगति। नियामक निगरानी धीरे-धीरे अनुकूलित होती है। कार्यबल पुनर्प्रशिक्षण और नए क्षेत्रों के साथ बदलता है।

यह हो सकता है। लेकिन अंतर्निहित धारणाएं वास्तविक हैं। संस्थागत अनुकूलन ऐतिहासिक रूप से तब काम करता है जब परिवर्तन की गति संस्थागत विकास की गति से मेल खाती है।

परिषद वास्तव में क्या करती है

मॉडल विशेषज्ञता

विभिन्न AI मॉडल में विभिन्न ताकतें होती हैं। Claude सूक्ष्म तर्क और सुरक्षा जागरूकता की ओर झुकता है। GPT-4 ज्ञान की चौड़ाई में उत्कृष्ट है। Gemini में मजबूत मल्टीमोडल क्षमताएं हैं। Grok अधिक प्रतिकूल है।

एक मॉडल का उपयोग करने और सर्वश्रेष्ठ की उम्मीद करने के बजाय, परिषद भूमिकाएं निर्दिष्ट करती है। एक मॉडल उत्पन्न करता है। एक मान्य करता है। एक विरोधाभासों की तलाश करता है। एक संश्लेषण करता है।

संरचित सत्यापन

प्रत्येक आउटपुट सत्यापन प्रोटोकॉल से गुजरता है। तथ्यों को स्रोतों के विरुद्ध सत्यापित किया जाता है। तर्क श्रृंखला का मूल्यांकन स्थिरता के लिए किया जाता है। अनिश्चित दावों को तथ्यों के रूप में प्रस्तुत करने के बजाय चिह्नित किया जाता है।

परिचालन स्वरूपण

परिषद आउटपुट ऑपरेटरों के लिए डिज़ाइन किए गए हैं। चेकलिस्ट। निर्णय वृक्ष। खतरा संकेतक। प्राथमिकता द्वारा रैंक की गई कार्रवाइयां।

निरंतर अपडेट

परिषद आउटपुट स्थिर नहीं हैं। जैसे-जैसे नई जानकारी उभरती है, मौजूदा स्थितियों का पुनर्मूल्यांकन किया जाता है।

आठ अंध बिंदु जो हमने पाए

एकल विफलता बिंदु पूर्वाग्रह: यह मानना कि AI जोखिम एकल, पहचान योग्य AI सिस्टम शामिल करते हैं, जबकि अधिक संभावित जोखिम वितरित सिस्टम में नेटवर्क प्रभाव है।

हमलावर टेम्पो धारणा: मानव हमलावरों के आसपास निर्मित सुरक्षा आर्किटेक्चर मिलीसेकंड में काम करने वाले खतरों के खिलाफ विफल होते हैं।

स्थिर-राज्य सोच: उन दुनियाओं के लिए योजना बनाना जहां AI एक स्थिर क्षमता स्तर तक पहुंच गया है, निरंतर क्षमता विकास के लिए योजना बनाने के बजाय।

संक्रमण अंतर: संक्रमण के दौरान जोखिमों को कम आंकते हुए अच्छे या बुरे अंतिम राज्यों पर ध्यान केंद्रित करना।

संस्थागत मिलान भ्रांति: यह मानना कि नियामक गति क्षमता गति से मेल खा सकती है।

प्रत्यक्ष रोजगार पूर्वाग्रह: ढहे हुए करियर पथों के बजाय खोई हुई नौकरियों में AI प्रभाव को मापना।

एकल अभिनेता फ्रेम: AI जोखिम को एक राष्ट्र-राज्य समस्या के रूप में मॉडल करना बजाय एक पारिस्थितिकी तंत्र समस्या के जिसमें अपराधी, राज्य, विचारधारावादी और अवसरवादी अभिनेता क्षमताओं को साझा करते हैं।

रैखिक प्रकटीकरण सोच: यह मानना कि अच्छा शोध अंततः मौजूदा चैनलों के माध्यम से चिकित्सकों तक पहुंचता है।

परिषद पद्धति

इस प्लेटफॉर्म के माध्यम से प्रकाशित प्रत्येक लेख में सत्यापन जानकारी शामिल है: कौन से मॉडल उपयोग किए गए, प्रत्येक ने कौन सी भूमिका निभाई, उनके आउटपुट कितनी निकटता से अभिसरित हुए, वे कहां असहमत थे और संश्लेषण कैसे हल किया गया।

Aether Council उपयोग अंतर को बंद करने में एक प्रयोग है। प्रयोग जारी है। परिणाम आते ही प्रकाशित किए जाते हैं।