الدرس العاشر: هل يمكن أن تكذب البيانات؟ بين التحيّز والخداع والسياق الغائب
يبدو أن البيانات تُقدّم نفسها لنا كحقائق لا تقبل الجدل، لكن الواقع أكثر تعقيدًا. فالبيانات ليست كائنًا ناطقًا بالحقيقة، بل انعكاسٌ لما نختار أن نرصده وكيف نرصده. هي لا تكذب بذاتها، لكنها قد تُضلّل حين تُجمَع على نحو ناقص أو تُعرض بلا سياق أو تُفسَّر بعيون منحازة. الخطأ لا يكمن في الأرقام، بل في الطريقة التي تُنتَج وتُقدَّم بها، لأن وراء كل رقم عقلٌ بشري يختار، ويُقرّر، ويستبعد.
حين نُشاهد إحصائية تُعلن أن “ثمانين في المئة من السكان سعداء”، نميل إلى تصديقها فورًا، متناسين أن هذه النسبة قد جاءت من عيّنة صغيرة، أو من فئة عمرية محددة، أو من مدينة واحدة. هنا لا تكذب البيانات، بل تُستَخدم خارج سياقها. حتى التفاصيل الصغيرة مثل حجم العينة، أو طريقة طرح السؤال، يمكن أن تُغيّر المعنى كله. في مثل هذه الحالات، لا تكون الأرقام بريئة، لأن من يصوغها يمتلك القدرة على توجيه الفهم دون أن يصرّح بشيء. فالبيانات لا تتحدث، بل تُترجم دائمًا عبر شخصٍ يختار لغتها.
هذا الخلل في جمع البيانات ينعكس مباشرة على النماذج الذكية التي تتعلّم منها. فالنموذج لا يستطيع أن يشكّ أو يعترض، بل يتبنّى كل ما يُغذّى به. فإذا كانت بياناته منحازة لثقافة واحدة أو فئة اجتماعية محددة، سيُعيد إنتاج الانحياز نفسه في مخرجاته. إذا درّبناه على نصوص تُمجّد رأيًا واحدًا، فسيظن أن ذلك هو الرأي الصحيح الوحيد. وإذا أهملنا وجهات النظر الأخرى، سيبني ذكاءه على نصف حقيقة. هكذا ينتقل التحيّز من الإنسان إلى الآلة في صمتٍ تام، حتى يُصبح جزءًا من منطقها الداخلي دون أن تدرك.
المشكلة لا تقتصر على البيانات المنحازة، بل تمتد إلى البيانات الناقصة. فحين تُجمع المعلومات في بيئة محدودة وتُستخدم لتفسير العالم كله، فإنها تخلق وهمًا بالإحاطة وهي في الحقيقة رؤية جزئية. النموذج الذي يتعلّم من هذه البيانات سيبني قواعده على صورة مبتورة للواقع، ثم يعمّمها على المجهول. لذلك يُقال في الأوساط العلمية إن “الذكاء الاصطناعي لا يتجاوز جودة بياناته”، لأن ما يُغذّى به في البداية يحدد نوع وعْيِهِ اللاحق.
أما غياب السياق فهو الوجه الأكثر خفاءً من الخداع. فالمعلومة لا تعني شيئًا خارج بيئتها التي وُلدت فيها. النص الذي يُفهم في ثقافة معينة قد يُساء تفسيره في ثقافة أخرى، والإحصائية التي تصف ظاهرة في زمن محدد قد تفقد معناها حين تُقتطع من خلفيتها التاريخية. إذا نقلنا اقتباسًا دينيًا أو فلسفيًا دون فهم زمنه أو غايته، قد نحوله إلى حجة لما لم يُقصد به. وكذلك إذا عرضنا بيانات عن الجريمة في بلد دون مراعاة ظروفه الاقتصادية والسياسية، فسنبدو كأننا نحلّل الحقيقة بينما نحن نختزلها.
لهذا أصبح علم البيانات الحديث لا يكتفي بالتحليل الإحصائي، بل يضيف إليه الوعي بالسياق والثقافة واللغة. البيانات لا تُقرأ بمعزل عن أصحابها، لأنها وليدة بيئة ومجتمع وتاريخ. والذكاء الاصطناعي إن أراد أن يكون منصفًا، يجب أن يتعلم كيف يرى خلف الأرقام، وليس فيها فقط. وهذا ما يعمل عليه الباحثون اليوم عبر تطوير تقنيات لاختبار العدالة والشفافية في النماذج، بحيث تُقاس المخرجات من زوايا عدّة تُقلّل الانحياز وتُعيد التوازن إلى الصورة.
البيانات، إذًا لا تكذب من ذاتها، لكنها قد تُضلّل حين نغفل عن شروطها. حين نعامل الأرقام كحقائق نهائية، نمنحها سلطة لا تستحقها، وحين نُخضعها للسياق والفهم النقدي، نستعيد منها معناها الحقيقي.
في النهاية، ليست المشكلة في البيانات، بل في الإنسان الذي يجمعها ويفسِّرها ويقرّر كيف سيستخدمها، لأن الصدق في العِلْم لا يسكن في الأرقام، بل في نوايا من يقف خلفها.
من إعداد: مركز علوم الدولي للذكاء الاصطناعي (د. عبدالرحمن الزراعي)