كتب : دينا كمال
دراسة: دقة “شات جي بي تي” في تقييم الفرضيات العلمية محدودة
كشفت دراسة أجراها باحثون في Washington State University أن أداء روبوت الدردشة ChatGPT في تقييم صحة الفرضيات العلمية لا يزال محدودًا، إذ لم تتجاوز دقته الفعلية نحو 60% مقارنة بالتخمين العشوائي، كما أظهرت نتائجه قدرًا ملحوظًا من عدم الاتساق عند تكرار الأسئلة نفسها.
وتسلط هذه النتائج الضوء على بعض أوجه القصور في نماذج الذكاء الاصطناعي التوليدي الحالية، خاصة عند التعامل مع مهام الاستدلال العلمي المعقد، رغم قدرتها العالية على إنتاج النصوص بلغة سليمة ومقنعة.
وخلال الدراسة، قدم الباحثون للنموذج أكثر من 700 فرضية علمية مستمدة من أوراق بحثية، وطلبوا منه تحديد ما إذا كانت هذه الفرضيات صحيحة أم خاطئة من خلال إجابات بنعم أو لا.
وأظهرت النتائج أن النظام تمكن من تحقيق نسبة إجابات صحيحة بلغت 76.5% في عام 2024، وارتفعت إلى 80% في عام 2025، إلا أن التحليل الإحصائي الذي أخذ في الاعتبار احتمالات التخمين العشوائي أظهر أن الدقة الفعلية بقيت في حدود 60% فقط.
كما واجه روبوت الدردشة صعوبة ملحوظة في التعرف إلى الفرضيات غير الصحيحة، إذ لم تتجاوز نسبة الإجابات الدقيقة في هذا الجانب 16.4%.
وأشارت الدراسة أيضًا إلى ضعف الاتساق في الإجابات، حيث قدم النظام نتائج مختلفة عند طرح 10 أسئلة متطابقة أكثر من مرة، ما يعكس محدودية قدرته على اتخاذ أحكام ثابتة في بعض الحالات.
وأُجريت التجربة الأولى عام 2024 باستخدام النسخة المجانية من نموذج ChatGPT-3.5، بينما أُجريت التجربة اللاحقة في عام 2025 باستخدام النسخة المجانية الأحدث ChatGPT-5 mini.
وتؤكد نتائج الدراسة أهمية توخي الحذر عند الاعتماد على أدوات الذكاء الاصطناعي في المهام الحساسة أو البحثية، إذ تشير إلى أن قدراتها في الاستدلال العلمي قد تكون أقل تطورًا من مهاراتها اللغوية.
كما قد تحمل هذه النتائج دلالات مهمة للشركات والمستخدمين، الذين قد يميلون إلى الاعتماد بشكل مفرط على تقنيات الذكاء الاصطناعي دون التحقق من دقة المعلومات التي تقدمها.


