دروس رمضانية 06
يُظهر هذا الجدول مقارنةً بين ثلاثة نماذج: GPT-5.4 وGPT-5.3-Codex وGPT-5.2، ويعرض أداءها في خمسة اختبارات مختلفة. ويعني وجود اسم النموذج أعلى كل عمود أن كل نسبة مئوية أسفل هذا الاسم تمثل نتيجة ذلك النموذج في اختبار معيّن. ويعني وجود أسماء الاختبارات في الجهة اليسرى أن كل سطر يعبّر عن ساحة قياس مختلفة، لا عن الشيء نفسه؛ ولذلك لا يجوز جمع هذه النسب أو التعامل معها بوصفها درجة واحدة شاملة، بل يجب فهم كل سطر بحسب نوع المهمة التي يقيسها.
ويعني الرمز % أن النتيجة مكتوبة على صورة نسبة مئوية؛ أي: من كل مئة حالة اختبار تقريبًا، كم مرة نجح النموذج أو حقق نتيجة مقبولة وفق معيار ذلك الاختبار. وتوحي النسبة الأعلى ـ في هذا السياق المقارن ـ بأداء أفضل داخل ذلك الاختبار المحدد فقط، لا في كل شيء على الإطلاق. وتفيد الخلايا المظللة باللون الأصفر غالبًا بتمييز النتيجة الأفضل أو الأبرز بصريًا، حتى يلتقط القارئ موضع التفوق بسرعة من دون أن يفتش في كل صف طويلًا.
ويشير السطر الأول GDPval (wins or ties) إلى اختبار يقوم على فكرة: هل فاز النموذج على غيره، أو على الأقل تعادل معه؟ وعبارة wins or ties تعني: “يفوز أو يتعادل”. ويفيد هذا النوع من الصياغة أن المعيار هنا ليس نجاحًا خامًا فقط، بل مقارنة نسبية مع طرف آخر أو معيار منافس. وعندما نرى 83.0% عند GPT-5.4 مقابل 70.9% عند GPT-5.3-Codex وGPT-5.2، نفهم سرديًا أن GPT-5.4 كان أكثر قدرة، في هذا الاختبار المقارن، على الخروج بنتيجة متقدمة أو غير خاسرة. ويعني ذلك للمبتدئ أن هذا النموذج بدا أقوى في “المنافسة المباشرة” داخل هذا النوع من القياس.
ويشير السطر الثاني SWE-Bench Pro (Public) إلى اختبار يرتبط بميدان هندسة البرمجيات؛ لأن SWE تُختصر عادةً من Software Engineering، أي هندسة البرمجيات. وتوحي كلمة Bench بأنه “مِعيار اختبار” أو “حزمة قياس”، وتوحي كلمة Pro بأن النسخة أكثر تقدّمًا أو صرامة، وتدل كلمة Public على أن هذا الجزء من الاختبار عام أو معلن. وعندما تظهر النتائج: 57.7% و56.8% و55.6%، نلاحظ أن الفروق هنا موجودة ولكنها ليست واسعة جدًا، وهذا يعني للمبتدئ أن النماذج الثلاثة متقاربة نسبيًا في هذا المجال، مع احتفاظ GPT-5.4 بأفضلية محدودة. ويفيد هذا الفهم بأن التفوق ليس دائمًا قفزة ضخمة؛ بل قد يكون أحيانًا تقدّمًا بسيطًا لكنه مهم في القياس الدقيق.
ويشير السطر الثالث OSWorld-Verified إلى اختبار يبدو أنه يحاول قياس أداء النموذج في بيئة عمليات أو مهام واقعية مرتبطة بالنظام أو بالحاسوب، بينما تدل كلمة Verified على أن النتائج “متحقق منها” أو “موثقة” بطريقة معينة. وعندما نرى 75.0% لـ GPT-5.4 و74.0%* لـ GPT-5.3-Codex و47.3% لـ GPT-5.2، نفهم أن النموذجين الأولين متقاربان جدًا، بينما يتراجع الثالث بوضوح. ويعني وجود النجمة * بجانب 74.0% أن هناك ملاحظة إضافية مرتبطة بهذه النتيجة، كأن يكون هناك شرط خاص أو تفسير منهجي أو تنبيه في المصدر الأصلي. ويدل هذا على أن النجمة ليست رقمًا جديدًا، بل إحالة إلى هامش أو تعليق ينبغي الرجوع إليه قبل إصدار حكم نهائي دقيق.
ويشير السطر الرابع Toolathlon إلى اختبار يبدو من اسمه مركبًا من Tool أي “أداة”، ومن لاحقة توحي بالمنافسة أو التعدد، كأن المعنى العام: اختبار لقياس مهارة النموذج في استخدام الأدوات أو التنقل بين أدوات متعددة. وعندما تأتي النتائج 54.6% و51.9% و46.3%، نفهم أن GPT-5.4 يتقدم مرة أخرى، لكن الفارق هنا متوسط، لا ساحق. ويفيد هذا للمبتدئ بأن بعض الاختبارات لا تقيس “المعرفة” فقط، بل تقيس القدرة على توظيف الوسائل الخارجية أو تنفيذ خطوات عملية في سياق منظم.
ويشير السطر الخامس BrowseComp إلى اختبار له علاقة بالتصفح أو البحث أو المقارنة أثناء الاستعراض؛ لأن Browse تدل على التصفح، وComp قد تدل على المقارنة أو المنافسة أو الإكمال بحسب اسم المعيار الأصلي. وعندما تظهر النتائج 82.7% و77.3% و65.8%، نلاحظ فجوة أوضح نسبيًا، خاصة بين GPT-5.4 وGPT-5.2. ويعني ذلك سرديًا أن قدرة GPT-5.4 في هذا النوع من المهام أقوى بصورة ظاهرة، وأن GPT-5.3-Codex يأتي بعده، ثم GPT-5.2 بفارق أكبر.
ويُظهر العمود الأوسط اسم GPT-5.3-Codex، وهنا ينبغي التفريق بينه وبين GPT-5.4 وGPT-5.2. وتوحي كلمة Codex بأن هذا الإصدار أو هذا الضبط مرتبط أكثر بمهام البرمجة أو الشيفرة أو السياقات التقنية، لا بمعنى أنه محصور فيها بالضرورة، ولكن بمعنى أن هويته المعلنة تميل إلى ذلك. ولذلك قد يتوقع القارئ المبتدئ أن يتألق في بعض الاختبارات البرمجية تحديدًا، بينما قد لا يكون متفوقًا دائمًا في كل اختبار آخر. ومن هنا نفهم لماذا لا يكفي أن نقول: “هذا النموذج أفضل مطلقًا” أو “هذا أسوأ مطلقًا”، بل يجب أن نقول: “هذا أفضل في هذا المعيار، وذاك أقوى في ذلك السياق”.
ويُحقّق الفرق الجوهري بين هذه الرموز والاختصارات حين نفهم أن بعضها يدل على النموذج نفسه، مثل: GPT-5.4 وGPT-5.3-Codex وGPT-5.2، وبعضها يدل على اسم الاختبار، مثل: GDPval وSWE-Bench Pro وOSWorld-Verified وToolathlon وBrowseComp، وبعضها يدل على نوع النتيجة، مثل: %، وبعضها يدل على ملاحظة تفسيرية، مثل: النجمة *، وبعضها يدل على إبراز بصري، مثل: التظليل الأصفر. وبهذا التفكيك يتوقف الجدول عن كونه كتلًا غامضة من الحروف، ويصبح خريطة بسيطة: أسماء في الأعلى، اختبارات في الجانب، نسب في الوسط، وألوان أو رموز صغيرة لتوجيه الانتباه.
ويُستفاد من الفروق العامة في هذا الجدول بأن GPT-5.4 يتصدر جميع الصفوف الظاهرة في الصورة، وهذا يعني أنه ـ داخل هذه المعايير الخمسة المعروضة هنا ـ حقق أفضل النتائج في كل مرة. ويأتي GPT-5.3-Codex غالبًا في المرتبة الثانية، بينما يظهر GPT-5.2 في المرتبة الثالثة في جميع الصفوف الظاهرة. لكن ينبغي أن نفهم ذلك بحذر تعليمي مهم: لا يعني هذا أن GPT-5.4 “أفضل في كل شيء في العالم”، بل يعني فقط أنه الأفضل في هذه الصورة ووفق هذه الاختبارات وبحسب هذه الأرقام المعروضة.
ويخدم هذا التفسير المتعلم الصفري حين ننقله من النظر إلى الحروف بوصفها رموزًا مبهمة، إلى النظر إليها بوصفها طبقات معنى: اسم نموذج، ثم اسم معيار، ثم نسبة أداء، ثم فرق بين النماذج، ثم ملاحظة خاصة إن ظهرت نجمة أو لون. وبهذا يصبح فهم الجدول شبيهًا بقراءة لوحة نتائج: لا نسأل أولًا “ما معنى كل حرف؟” فقط، بل نسأل أيضًا: “من الذي يُقاس؟ وفي ماذا يُقاس؟ وبأي صورة ظهرت النتيجة؟ وما مقدار الفارق؟ وهل الفارق كبير أم صغير؟”.
الخلاصة: يَعرض الجدول مقارنة أداء بين ثلاثة نماذج في خمسة اختبارات مختلفة، وتدل النسب المئوية على مقدار النجاح أو التفوق داخل كل اختبار، وتدل النجمة على وجود ملاحظة تفسيرية إضافية، ويدل التظليل الأصفر على إبراز النتيجة الأبرز بصريًا، ويظهر من الصورة أن GPT-5.4 هو المتصدر في جميع الصفوف المعروضة، مع فروق متفاوتة بين اختبار وآخر، ولذلك يجب فهم كل سطر بحسب نوع المعيار الذي يقيسه لا بوصفه حكمًا مطلقًا على النموذج كله.
5
2 comments
Abdulrahman Alzarraei
7
دروس رمضانية 06
powered by
تطوير تعليمات النماذج الذكية
نماذج مخصّصة صُمّمت لتمكين أصحاب المشاريع من توظيف الذكاء الاصطناعي بطريقة عملية، تخلق قيمة حقيقية، لتحقيق الدخل وتطوير الأعمال دون تعقيد تقني.
Build your own community
Bring people together around your passion and get paid.
Powered by