المال

نماذج OpenAI الجديدة تصدم الخبراء بمعدلات هلوسة غير مسبوقة

2025-04-19

مُؤَلِّف: مريم

أطلقت شركة OpenAI مؤخرًا نماذجها الجديدة المسماة o3 وo4-mini، التي تمثل قفزة كبيرة في قدراتها الحسابية، خاصة في مجالات البرمجة والرياضيات.

لكن المشكلة الكبرى تكمن في أن هذه النماذج لا تزال تعاني من ظاهرة "الهلوسة" الشهيرة. الهلوسة تشير إلى إنتاج النماذج لمعلومات خاطئة تبدو مقنعة، وقد كانت مشكلة مستمرة في جميع النماذج السابقة، لكن الجديد أن النماذج الحديثة تظهر مستوى أقل من الهلوسة مقارنة بالنماذج القديمة مثل o1 وGPT-4o.

وفي اختبارات داخلية، أظهر نموذج o3 معدل هلوسة يصل إلى 33% في إجابات اختبار PersonQA، وهو معيار داخلي يقيس دقة النموذج في المعلومات المتعلقة بالأشخاص. ورغم أن نسبة الهلوسة لا تزال مرتفعة، إلا أنها ضئيلة مقارنة بالنماذج السابقة.

ومثير للاهتمام أن OpenAI نفسها لا تعرف السبب الدقيق وراء هذه الظاهرة، مما يستدعي مزيدًا من البحث لفهم العلاقة بين توسيع نطاق النماذج وزيادة معدلات الهلوسة.

وبالإضافة إلى ذلك، يحتوي نموذج o3 على مشكلات أخرى، تتعلق بإنتاج سيناريوهات غير صحيحة، مثل كتابة كود برمجي على أجهزة غير قادرة على ذلك، مما يثير تساؤلات حول مصداقية النموذج.

بناءً على ذلك، تزداد أهمية دقة النماذج، خاصة في المجالات الحساسة مثل القانون والطب. وبالتالي، يتعين اتخاذ خطوات جادة مثل دمج النماذج مع إمكانيات البحث الحي عبر الإنترنت، كما هو الحال مع نموذج GPT-4o الذي أظهر دقة تصل إلى 90% في اختبار SimpleQA.

في النهاية، تبقى أدوات الاستدلال مفيدة، لكنها تواجه تحديات حقيقية، وأمام OpenAI والمجتمع البحثي مسارات متنوعة، إما للسيطرة على هذه العيوب أو لمواجهة تباطؤ في اعتماد هذه النماذج في التطبيقات العملية.