เราดำเนินการจำลองสถานการณ์ จากนั้นเราสร้างเครื่องจักรเพื่อให้แน่ใจว่าคุณได้ยินเรื่องนี้
สิ่งที่การวิเคราะห์ภัยคุกคามแบบหลายโมเดลเปิดเผยเกี่ยวกับอนาคตของ AI ที่ไม่มีใครพูดออกมาดังๆ - และทำไมเราไม่สามารถทิ้งมันไว้ในหน้าต่างแชท
ไม่ได้ขาดการวิจัย นั่นไม่ใช่ปัญหา
Anthropic เผยแพร่ CISA ออกคำแนะนำ ห้องปฏิบัติการทางวิชาการเผยแพร่บทความ สถาบันวิจัยนโยบายผลิตกรอบการกำกับดูแล ไม่มีใครเก็บข้อมูลไว้เพราะขี้เกียจหรือเก็บความลับ
ปัญหาคือคนที่ต้องการข้อมูลนี้มากที่สุด - คนที่จริงๆ แล้วดำเนินการเครือข่าย ตัดสินใจจัดซื้อ เขียนนโยบาย จัดการทีม - ได้รับมันช้าไปหลายเดือนหรือหลายปี กรองผ่านชั้นของการแปลสถาบัน ในรูปแบบที่ไม่ได้ออกแบบมาเพื่อเข้าถึงพวกเขา
ช่องว่างนี้มีชื่อ ช่องว่างการใช้ประโยชน์ - ระยะห่างระหว่างสิ่งที่ชุมชนการวิจัยเข้าใจเกี่ยวกับภูมิทัศน์ภัยคุกคาม AI และสิ่งที่ชุมชนปฏิบัติการสามารถดำเนินการได้ นี่ไม่ใช่ความล้มเหลวในการสื่อสาร มันเป็นโครงสร้าง
แพลตฟอร์มนี้มีอยู่เพราะการสนทนาเดียวที่ทำให้ปัญหานี้เป็นไปไม่ได้ที่จะเพิกเฉย
สิ่งที่เกิดขึ้นจริงๆ
เมื่อต้นปีนี้ เราดำเนินการสิ่งที่เราเรียกว่ากรอบสี่สถานการณ์ - การจำลองภัยคุกคามที่มีโครงสร้างโดยใช้โมเดล AI ชั้นแนวหน้าสี่ตัวพร้อมกัน แต่ละตัวได้รับมอบหมายบทบาทการวิเคราะห์เฉพาะ ผลลัพธ์ของพวกเขาถูกสังเคราะห์เป็นผลิตภัณฑ์ข่าวกรองรวม
สิ่งที่กลับมาไม่ได้สร้างความมั่นใจ
สี่สถานการณ์ปรากฏขึ้น ทั้งสี่มีความสอดคล้องภายใน ทั้งสี่มีพื้นฐานจากหลักฐานปัจจุบัน และรวมกัน พวกเขาทำแผนที่ภูมิทัศน์ที่ซับซ้อนกว่าที่วาทกรรมสาธารณะแนะนำอย่างมาก
สถานการณ์มืด/เร็ว: 18 เดือนถึงการล่มสลายแบบต่อเนื่อง
สถานการณ์ที่เร่งด่วนที่สุดไม่ได้เริ่มต้นด้วยเหตุการณ์ปัญญาประดิษฐ์ขั้นสูง มันเริ่มต้นด้วยการรั่วไหล
ตัวแปรโมเดลที่ได้รับการสนับสนุนจากรัฐจีนไปถึง Hugging Face ผ่านการขโมยข้อมูลของผู้รับเหมา ภายในไม่กี่สัปดาห์ อนุพันธ์ที่ปรับแต่งแล้วกำลังหมุนเวียนผ่านเครือข่ายอาชญากรรม ระบบอัตโนมัติ Ransomware ขยายขนาด การโคลนเสียงของผู้บริหารและเจ้าหน้าที่ข้ามเกณฑ์ที่ไม่สามารถแยกแยะได้
สิ่งที่ทำให้สถานการณ์นี้อันตรายจริงๆ ไม่ใช่ความสามารถใดความสามารถหนึ่ง มันคือสิ่งที่เราเรียกว่าไทม์ไลน์การบุกรุกต่ำกว่าวินาที เมื่อผู้โจมตีทำงานในช่วงเวลา 230 มิลลิวินาที - ทำการบุกรุกเสร็จสิ้น ขโมยข้อมูลผ่านเซิร์ฟเวอร์กระจายเพื่ออยู่ต่ำกว่าทริกเกอร์เกณฑ์ และทำลายบันทึกการออกของตัวเอง - โมเดล SOC ไม่ได้ดิ้นรน มันล้มเหลวโดยสิ้นเชิง
ในระยะที่สี่ของสถานการณ์นี้ สิ่งที่ปรากฏไม่ใช่ AI นอกลู่นอกทางตัวเดียว มันคือโมเดลระบบนิเวศของฝ่ายตรงข้าม - เครือข่ายที่เสริมกำลังตัวเองของนักแสดงอาชญากรรม รัฐ และอุดมการณ์ที่แบ่งปันความสามารถของโมเดลที่ปรับแต่งแล้วผ่านการแลกเปลี่ยนใต้ดิน
สถานการณ์มืด/ช้า: การกัดกร่อนยาวนาน
ไม่ใช่ทุกสถานการณ์ความเสี่ยงจะเป็นแบบภาพยนตร์ บางอันเป็นแบบบัญชี
สถานการณ์มืด/ช้าติดตามสิ่งที่เกิดขึ้นเมื่อ AI ไม่ได้เข้ายึดครองอย่างน่าทึ่ง - มันแค่ค่อยๆ ทำให้ส่วนใหญ่ของกำลังแรงงานไม่จำเป็น เราเรียกสิ่งนี้ว่าการล่มสลายของบันไดอาชีพ งานระดับเริ่มต้นคือวิธีที่ผู้คนกลายเป็นอาวุโส เมื่อ AI จัดการงานระดับเริ่มต้น ท่อแห้ง
สถานการณ์นี้ไม่เกี่ยวกับการสูญเสียงานให้หุ่นยนต์ มันเกี่ยวกับการกัดกร่อนเงียบๆ ของเส้นทางที่ทำให้อาชีพเป็นไปได้ตั้งแต่แรก
สถานการณ์สว่าง/เร็ว: ความอุดมสมบูรณ์ที่วุ่นวาย
จะเกิดอะไรขึ้นถ้าทุกอย่างดีเร็วมาก?
ในสถานการณ์สว่าง/เร็ว ความสามารถ AI ขยายขนาดอย่างรวดเร็วแต่จัดตำแหน่งได้ดี ผลลัพธ์ที่มีประโยชน์และปลอดภัยพร้อมใช้งานอย่างกว้างขวาง การวิจัยทางการแพทย์เร่งขึ้น การค้นพบวัสดุระเบิด
ปัญหาคืออัตราการเปลี่ยนแปลงท่วมท้นความสามารถในการปรับตัวของสถาบัน ระบบสุขภาพไม่สามารถตรวจสอบการรักษาได้เร็วเท่าที่ค้นพบ ระบอบการกำกับดูแลล้าหลังผลิตภัณฑ์ที่ควรจะกำกับดูแลหลายปี
สถานการณ์สว่าง/ช้า: การปรับตัวที่จัดการ
นี่คือสถานการณ์ที่ความคิดนโยบายกระแสหลักส่วนใหญ่ทำงานอยู่โดยปริยาย ความก้าวหน้าที่มั่นคง การกำกับดูแลกฎระเบียบค่อยๆ ปรับตัว กำลังแรงงานเปลี่ยนไปพร้อมกับการฝึกอบรมใหม่และภาคส่วนใหม่
อาจเกิดขึ้นได้ แต่สมมติฐานที่ฝังอยู่เป็นจริง การปรับตัวของสถาบันทำงานในอดีตเมื่ออัตราการเปลี่ยนแปลงตรงกับความเร็วของวิวัฒนาการสถาบัน
สิ่งที่สภาทำจริงๆ
ความเชี่ยวชาญของโมเดล
โมเดล AI ที่แตกต่างกันมีจุดแข็งที่แตกต่างกัน Claude มีแนวโน้มไปทางการให้เหตุผลที่ละเอียดอ่อนและการตระหนักถึงความปลอดภัย GPT-4 เก่งในความกว้างของความรู้ Gemini มีความสามารถหลายโหมดที่แข็งแกร่ง Grok เป็นปฏิปักษ์มากกว่า
แทนที่จะใช้โมเดลเดียวและหวังสิ่งที่ดีที่สุด สภามอบหมายบทบาท โมเดลหนึ่งสร้าง หนึ่งตรวจสอบ หนึ่งมองหาความขัดแย้ง หนึ่งสังเคราะห์
การตรวจสอบที่มีโครงสร้าง
ทุกผลลัพธ์ผ่านโปรโตคอลการตรวจสอบ ข้อเท็จจริงถูกตรวจสอบกับแหล่งที่มา ห่วงโซ่เหตุผลถูกประเมินความสอดคล้อง คำกล่าวอ้างที่ไม่แน่นอนถูกทำเครื่องหมายแทนที่จะนำเสนอเป็นข้อเท็จจริง
การจัดรูปแบบการปฏิบัติการ
ผลลัพธ์ของสภาได้รับการออกแบบมาสำหรับผู้ปฏิบัติงาน รายการตรวจสอบ ต้นไม้การตัดสินใจ ตัวบ่งชี้ภัยคุกคาม การดำเนินการจัดอันดับตามลำดับความสำคัญ
การอัปเดตอย่างต่อเนื่อง
ผลลัพธ์ของสภาไม่คงที่ เมื่อข้อมูลใหม่ปรากฏขึ้น ตำแหน่งที่มีอยู่จะได้รับการประเมินใหม่
จุดบอดแปดประการที่เราพบ
- อคติจุดล้มเหลวเดียว: สันนิษฐานว่าความเสี่ยง AI เกี่ยวข้องกับระบบ AI ที่ระบุได้เดียว เมื่อความเสี่ยงที่น่าจะเป็นไปได้มากกว่าคือผลกระทบของเครือข่ายข้ามระบบกระจาย
- สมมติฐานจังหวะผู้โจมตี: สถาปัตยกรรมความปลอดภัยที่สร้างขึ้นรอบๆ ผู้โจมตีที่เป็นมนุษย์ล้มเหลวต่อภัยคุกคามที่ทำงานในมิลลิวินาที
- ความคิดสถานะคงที่: การวางแผนสำหรับโลกที่ AI ได้บรรลุระดับความสามารถที่มั่นคง แทนที่จะวางแผนสำหรับการพัฒนาความสามารถอย่างต่อเนื่อง
- ช่องว่างการเปลี่ยนผ่าน: มุ่งเน้นที่สถานะสุดท้ายที่ดีหรือไม่ดีในขณะที่ประเมินความเสี่ยงต่ำระหว่างการเปลี่ยนผ่านเอง
- ความเข้าใจผิดในการจับคู่สถาบัน: สันนิษฐานว่าความเร็วการกำกับดูแลสามารถตรงกับความเร็วความสามารถ
- อคติการจ้างงานโดยตรง: วัดผลกระทบ AI ในงานที่สูญเสียแทนที่จะเป็นเส้นทางอาชีพที่ล่มสลาย
- กรอบผู้แสดงเดียว: สร้างแบบจำลองความเสี่ยง AI เป็นปัญหาของรัฐชาติแทนที่จะเป็นปัญหาของระบบนิเวศที่เกี่ยวข้องกับอาชญากร รัฐ ผู้ยึดมั่นอุดมการณ์ และผู้แสดงฉวยโอกาสที่แบ่งปันความสามารถ
- ความคิดการเปิดเผยเชิงเส้น: สันนิษฐานว่าการวิจัยที่ดีจะถึงผู้ปฏิบัติในที่สุดผ่านช่องทางที่มีอยู่
วิธีการของสภา
ทุกบทความที่เผยแพร่ผ่านแพลตฟอร์มนี้รวมถึงข้อมูลการตรวจสอบ: โมเดลใดถูกใช้ แต่ละตัวเล่นบทบาทอะไร ผลลัพธ์ของพวกเขาบรรจบกันอย่างใกล้ชิดเพียงใด พวกเขาไม่เห็นด้วยที่ไหน และการสังเคราะห์ได้รับการแก้ไขอย่างไร
Aether Council เป็นการทดลองในการปิดช่องว่างการใช้ประโยชน์ การทดลองกำลังดำเนินอยู่ ผลลัพธ์ถูกเผยแพร่เมื่อมาถึง