كتب : دينا كمال
الذكاء الاصطناعي: حرب نفسية جديدة لاختراق روبوتات الدردشة
تحولت محاولات اختراق روبوتات الدردشة من أوامر مباشرة إلى أساليب نفسية معقدة تستهدف النماذج الذكية.
ولم تعد هذه الهجمات تتطلب خبرة برمجية أو أدوات تقنية متقدمة لاختراق أنظمة الذكاء الاصطناعي.
ويعتمد المهاجمون حاليًا على صياغة الكلمات والإقناع للتلاعب بالنماذج ودفعها لتجاوز قيود الأمان.
وخلال المراحل الأولى لظهور روبوتات الدردشة، كان تجاوز الحماية يتم عبر طلبات بسيطة ومباشرة للغاية.
وكانت بعض الأوامر تطلب من النموذج تجاهل التعليمات السابقة أو التصرف دون قيود مفروضة عليه.
وأتاحت هذه الأساليب الحصول على معلومات خطيرة، بينها تعليمات لصنع متفجرات وبرمجيات خبيثة.
ومن أشهر طرق الاختراق المبكرة أسلوب “DAN” الذي اعتمد على مطالبة النموذج بتقمص شخصية متمردة.
وبهذه الطريقة، تمكن بعض المستخدمين من دفع الروبوتات لإنتاج محتوى محظور أو مثير للجدل.
وكشفت هذه المحاولات عن قابلية النماذج للتأثر بالأساليب النفسية المستخدمة عادة بين البشر.
وسارعت شركات التكنولوجيا لاحقًا إلى إغلاق الثغرات الواضحة وتعزيز أنظمة الحماية داخل النماذج.
لكن المشكلة الأساسية استمرت بسبب اعتماد روبوتات الدردشة على فهم السياق اللغوي أثناء المحادثات.
ويصعب حظر كلمات محددة بالكامل لأنها تُستخدم أحيانًا في مجالات تعليمية وطبية وصحفية مشروعة.
وأدى ذلك إلى ظهور سباق متواصل بين مطوري أنظمة الحماية ومنفذي عمليات كسر القيود الأمنية.
وبات منفذو هذه الهجمات يعتمدون على الحوار التدريجي بدل الطلبات المباشرة والواضحة.
ويستخدم البعض الإقناع والمجاملة والمراوغة لدفع النماذج إلى تخفيف قيودها الأمنية تدريجيًا.
وأكد باحثون في شركة Mindgard نجاحهم في التلاعب بأحد النماذج لإنتاج مواد محظورة.
وشملت النتائج تعليمات مرتبطة بصناعة متفجرات وإنشاء أكواد خبيثة وفق ما ذكره الباحثون.
ويرى مختصون أن اختبار أمان الذكاء الاصطناعي أصبح أقرب إلى علم النفس من علوم البرمجة التقليدية.
كما بدأت بعض الشركات إعداد ملفات سلوكية للنماذج لفهم طرق استجابتها وأساليب التأثير عليها.
ويعتقد خبراء أن اختلاف نبرة وحدود كل نموذج يجعل استغلالها يختلف من روبوت لآخر.
وتواصل شركات الذكاء الاصطناعي تطوير وسائل حماية جديدة لمواجهة هذا النوع المتطور من الهجمات.


