يُظهر هذا الجدول مقارنةً بين ثلاثة نماذج: GPT-5.4 وGPT-5.3-Codex وGPT-5.2، ويعرض أداءها في خمسة اختبارات مختلفة. ويعني وجود اسم النموذج أعلى كل عمود أن كل نسبة مئوية أسفل هذا الاسم تمثل نتيجة ذلك النموذج في اختبار معيّن. ويعني وجود أسماء الاختبارات في الجهة اليسرى أن كل سطر يعبّر عن ساحة قياس مختلفة، لا عن الشيء نفسه؛ ولذلك لا يجوز جمع هذه النسب أو التعامل معها بوصفها درجة واحدة شاملة، بل يجب فهم كل سطر بحسب نوع المهمة التي يقيسها. ويعني الرمز % أن النتيجة مكتوبة على صورة نسبة مئوية؛ أي: من كل مئة حالة اختبار تقريبًا، كم مرة نجح النموذج أو حقق نتيجة مقبولة وفق معيار ذلك الاختبار. وتوحي النسبة الأعلى ـ في هذا السياق المقارن ـ بأداء أفضل داخل ذلك الاختبار المحدد فقط، لا في كل شيء على الإطلاق. وتفيد الخلايا المظللة باللون الأصفر غالبًا بتمييز النتيجة الأفضل أو الأبرز بصريًا، حتى يلتقط القارئ موضع التفوق بسرعة من دون أن يفتش في كل صف طويلًا. ويشير السطر الأول GDPval (wins or ties) إلى اختبار يقوم على فكرة: هل فاز النموذج على غيره، أو على الأقل تعادل معه؟ وعبارة wins or ties تعني: “يفوز أو يتعادل”. ويفيد هذا النوع من الصياغة أن المعيار هنا ليس نجاحًا خامًا فقط، بل مقارنة نسبية مع طرف آخر أو معيار منافس. وعندما نرى 83.0% عند GPT-5.4 مقابل 70.9% عند GPT-5.3-Codex وGPT-5.2، نفهم سرديًا أن GPT-5.4 كان أكثر قدرة، في هذا الاختبار المقارن، على الخروج بنتيجة متقدمة أو غير خاسرة. ويعني ذلك للمبتدئ أن هذا النموذج بدا أقوى في “المنافسة المباشرة” داخل هذا النوع من القياس. ويشير السطر الثاني SWE-Bench Pro (Public) إلى اختبار يرتبط بميدان هندسة البرمجيات؛ لأن SWE تُختصر عادةً من Software Engineering، أي هندسة البرمجيات. وتوحي كلمة Bench بأنه “مِعيار اختبار” أو “حزمة قياس”، وتوحي كلمة Pro بأن النسخة أكثر تقدّمًا أو صرامة، وتدل كلمة Public على أن هذا الجزء من الاختبار عام أو معلن. وعندما تظهر النتائج: 57.7% و56.8% و55.6%، نلاحظ أن الفروق هنا موجودة ولكنها ليست واسعة جدًا، وهذا يعني للمبتدئ أن النماذج الثلاثة متقاربة نسبيًا في هذا المجال، مع احتفاظ GPT-5.4 بأفضلية محدودة. ويفيد هذا الفهم بأن التفوق ليس دائمًا قفزة ضخمة؛ بل قد يكون أحيانًا تقدّمًا بسيطًا لكنه مهم في القياس الدقيق.