الدرس 06 - مرتكزات الذكاء الاصطناعي - التمثيل
الدرس السادس: 🧩 التضمينات - كيف تتحول المعاني إلى أرقام يمكن مقارنتها وفهمها
تخيل أن لديك قاموسًا لا يقدّم تعريفات لغوية للكلمات، بل يعطي لكل كلمة موقعًا رقميًا داخل فضاء واسع من الأعداد. في هذا القاموس الغريب، لا نبحث عن "معنى" الكلمة في النصوص، بل نقيس قربها أو بعدها عن كلمات أخرى بالأرقام. إن كانت "تفاحة" قريبة من "فاكهة" و"عصير"، فهذا يعني أن معناها قريب منها في ذلك الفضاء الرياضي. هذا هو جوهر فكرة التضمين: تحويل الكلمات والمعاني إلى تمثيلات رقمية يمكن للآلة أن تقيسها، وتقارن بينها، وتبني عليها فهمها للعالم.
في بدايات الذكاء الاصطناعي، كانت الآلة تتعامل مع اللغة بطريقة سطحية: ترى النصوص كسلاسل من الرموز. لكن مع ظهور التضمينات، تغيّر المشهد. أصبحت الكلمات تُترجم إلى متجهات، أي سلاسل طويلة من الأرقام التي لا تمثل شكل الكلمة أو حروفها، بل معناها وعلاقاتها بالكلمات الأخرى. هنا، يصبح المعنى نفسه شيئًا يمكن "قياسه".
عندما نقول إن كلمة "قطة" قريبة من "كلب"، فليس لأن بينهما حروفًا متشابهة، بل لأنهما يتشاركان في الصفات: كائنات حية، أليفة، متحركة. والآلة لا تعرف ذلك من منطق اللغة فحسب، بل من مراقبتها المتكررة لظهورهما في سياقات متقاربة داخل النصوص. وهكذا، تتعلّم أن الكلمات التي تظهر معًا غالبًا تحمل علاقة معنوية تربطها ببعضها.
عملية إنشاء التضمينات تبدأ من التدريب على كميات ضخمة من النصوص. يمر النموذج بملايين الجمل، ويتعلم أن يقرّب الكلمات التي تشترك في السياق، ويباعد بين الكلمات التي نادرًا ما تلتقي. هذه الفكرة تُعرف باسم الدلالات التوزيعية – أي أن معنى الكلمة يتحدد من توزيعها في الجمل التي تظهر فيها.
كانت النماذج الأولى، مثل Word2Vec وGloVe، تنتج تضمينًا ثابتًا لكل كلمة. أي أن كلمة مثل "عين" سيكون لها متجه واحد فقط، مهما اختلف سياقها. أما النماذج الحديثة، مثل BERT وGPT، فقد تجاوزت هذا القيد. فهي تنتج تضمينات سياقية تتبدل حسب موقع الكلمة في الجملة. فكلمة "عين" في عبارة عين الماء تختلف عن عين الجاسوس أو عين الإنسان. هنا، تتغير الأرقام نفسها لتعكس اختلاف المعنى.
ولا يقتصر التضمين على النصوص. المبدأ نفسه يُستخدم مع الصور والأصوات. فكما يمكن تحويل كلمة إلى متجه رقمي يمثل معناها اللغوي، يمكن تحويل صورة إلى متجه يمثل محتواها البصري. الألوان، الأشكال، الزوايا، والأنسجة كلها تتحول إلى أرقام تصف الصورة بطريقة يمكن مقارنتها رياضيًا.
حين نستخدم تضمينات النصوص والصور معًا في فضاء واحد، نحصل على ما يُعرف بالتضمين متعدد الوسائط. هذا هو الأساس الذي قامت عليه نماذج مثل CLIP التي طورتها شركة OpenAI. فبفضل هذه التقنية، يمكن للنموذج أن يرى صورة فيسأل: "ما الذي تصوره هذه الصورة؟" أو يقرأ وصفًا نصيًا فينتج صورة تطابقه تقريبًا. بذلك يصبح النص والصورة لغتين رقميتين متكاملتين، تتحدثان عبر الفضاء ذاته.
تمنحنا التضمينات إذن وسيلة لتقريب المسافات بين المعاني المختلفة. فهي الجسر الذي يجعل اللغة والصور والأصوات قابلة للقياس بنفس الأدوات الرياضية. ومن خلالها صار بالإمكان البحث، والترجمة، والتوليد الفني، وحتى الحوار بين الإنسان والآلة، بطريقة أقرب إلى الفهم الحقيقي لا إلى المطابقة الحرفية.
إن التضمين هو الخطوة التي منحت الآلة القدرة على "الشعور بالمعنى" رياضيًا. فمن خلاله لم تعد الكلمة مجرد رمز، بل موقعًا في خريطة ضخمة من المعاني الرقمية، تتغير ملامحها كلما توسّع وعي النموذج بالعالم من حوله. التضمينات هي البنية التحتية الخفية التي تدعم معظم قدرات الذكاء الاصطناعي في الفهم والتوليد. كل نقطة في الفضاء الرقمي تحمل قصة كاملة من العلاقات والمعاني، وما إن تتقن الآلة بناء هذه النقاط، حتى تتمكن من الربط بين عوالم مختلفة بسلاسة.
مركز علوم الدولي (د. عبد الرحمن الزراعي)
____________
هل استوعبت الدرس
كثيراً
بعض الشيء
5 votes
5:37
5:49
9
9 comments
Abdulrahman Alzarraei
6
الدرس 06 - مرتكزات الذكاء الاصطناعي - التمثيل
powered by
تطوير النماذج العربية الذكية
انضمّ إلى أكاديمية علوم الدولية للذكاء الاصطناعي لإنشاء مشاريع ربحية قابلة للتنفيذ خلال أيام، ودون الحاجة إلى أية خبرة تقنية أو تكلفة تشغيلية
Build your own community
Bring people together around your passion and get paid.
Powered by