كما ذكرت في المنشور السابق، ثبت أن تطوير الذكاء الاصطناعي لفابريس أكثر تعقيدًا مما كان متوقعًا، مما أجبرني على استكشاف العديد من الأساليب المختلفة.
النهج الأولي مؤشر لاما – البحث في المتجهات
تضمّنت تجربتي الأولى في تعزيز قدرات الاسترجاع لدى فابريس للذكاء الاصطناعي استخدام فهرس Llama للبحث المتجه. كان المفهوم بسيطًا: أخذ المحتوى من مدونتي، وتحويله إلى مستندات لانغشين، ثم تحويلها إلى مستندات Llama. ثم يتم تخزين مستندات Llama هذه في فهرس متجه، مما يتيح لي الاستعلام عن هذا الفهرس للحصول على المعلومات ذات الصلة.
ومع ذلك، عندما بدأتُ في اختبار النظام، اتضح لي أن هذا النهج لم يحقق النتائج التي كنت آملها. على وجه التحديد، عندما استفسرت من النظام بأسئلة ذات سياق ثقيل مثل “ما هي أكبر الأخطاء التي يرتكبها مؤسسو السوق؟ وبدلاً من استرداد المحتوى الدقيق الذي كنت أعرف أنه مضمن في البيانات، فقد أرجع إجابات غير ذات صلة أو غير مكتملة.
قادني هذا الفشل الأولي إلى إعادة النظر في منهجي. فقد أدركت أن مجرد تخزين المحتوى في فهرس متجه لم يكن كافياً؛ فقد كانت آلية الاسترجاع بحاجة إلى فهم السياق والفروق الدقيقة في الأسئلة المطروحة. كان هذا الإدراك هو الدرس الأول من بين العديد من الدروس التي ستشكل تطور فابريس للذكاء الاصطناعي.
تخزين المعرفة: تخزين وثائق MongoDB واسترجاعها
مع وضع قيود نهج فهرس Llama في الاعتبار، قمتُ بعد ذلك باستكشاف تخزين مستندات Llama في MongoDB. بدا لي أن مخطط MongoDB المرن وبنيته الموجهة نحو المستندات حلًا واعدًا لإدارة الأنواع المتنوعة من المحتوى الذي جمعته على مر السنين.
كانت الخطة هي إنشاء تجربة بحث أكثر ديناميكية واستجابة. ومع ذلك، سرعان ما واجه هذا النهج مشاكل. فقد فشلت وظيفة البحث، التي كنت أتوقع أن تكون أكثر قوة، في الأداء كما هو متوقع. الاستعلامات التي كان من المفترض أن ترجع المستندات ذات الصلة لم تسفر عن أي نتائج أو محتوى غير ذي صلة.
كانت هذه الانتكاسة محبطة، لكنها أكدت أيضًا درسًا مهمًا: طريقة التخزين لا تقل أهمية عن استراتيجية الاسترجاع. بدأتُ في التفكير في خيارات أخرى، مثل استخدام أطلس MongoDB لعمليات البحث المتجهة، والتي يمكن أن توفر الدقة وقابلية التوسع التي أحتاجها. ومع ذلك، قبل الالتزام بهذا البديل، أردت استكشاف طرق أخرى لتحديد ما إذا كان هناك حل أكثر فعالية.
مسترجع البيانات الوصفية ومخزن المتجهات: البحث عن الخصوصية
كان أحد السبل التالية التي استكشفتها هو استخدام مسترجع البيانات الوصفية مع مخزن متجه. كانت الفكرة وراء هذا النهج هي تصنيف مجموعة كبيرة من المعلومات داخل فابريس للذكاء الاصطناعي ثم استرجاع الإجابات بناءً على هذه الفئات. من خلال هيكلة البيانات باستخدام البيانات الوصفية، كنت آمل في تحسين قدرة الذكاء الاصطناعي على تقديم إجابات محددة وموجهة.
ومع ذلك، كان لهذه الطريقة أيضًا حدودها. فعلى الرغم من أنها بدت واعدة ظاهرياً، إلا أن الذكاء الاصطناعي كافح لتقديم إجابات دقيقة لجميع أنواع الاستفسارات. على سبيل المثال، عندما سألت، “هل المؤلف متفائل؟ فشل النظام في تفسير السؤال في سياق المحتوى ذي الصلة. وبدلاً من تقديم تحليل ثاقب استناداً إلى البيانات الوصفية، فإنه إما أن يقدم إجابات غامضة أو لا يقدم أي إجابات.
علمني هذا النهج درساً قيماً حول أهمية السياق في الذكاء الاصطناعي. لا يكفي مجرد تصنيف المعلومات؛ يجب أن يفهم الذكاء الاصطناعي أيضًا كيفية تفاعل هذه الفئات وتداخلها لتشكيل فهم متماسك للمحتوى. فبدون هذا الفهم العميق، يمكن أن تقصر حتى أكثر أساليب الاسترجاع تطوراً.
هيكلة المعرفة: الفهرس الموجز
مع استمراري في تحسين الذكاء الاصطناعي لفابريس، جرّبتُ إنشاء فهرس SummaryTreeIndex. يهدف هذا النهج إلى تلخيص جميع المستندات في شكل شجرة، مما يسمح للذكاء الاصطناعي بالتنقل عبر هذه الملخصات واسترجاع المعلومات ذات الصلة بناءً على بنية المحتوى.
كانت الفكرة هي أنه من خلال تلخيص المستندات، يمكن للذكاء الاصطناعي تحديد النقاط الرئيسية بسرعة والرد على الاستفسارات بمعلومات موجزة ودقيقة. ومع ذلك، واجهت هذه الطريقة أيضًا تحديات كبيرة. فقد واجه الذكاء الاصطناعي صعوبة في تقديم إجابات ذات مغزى للاستفسارات المعقدة، مثل “كيف تتخذ قرارات مهمة في الحياة؟ فبدلاً من الاستفادة من المحتوى الغني والدقيق المخزن في الملخصات، كانت إجابات الذكاء الاصطناعي في كثير من الأحيان سطحية أو غير مكتملة.
أكدت هذه التجربة صعوبة الموازنة بين الاتساع والعمق في الذكاء الاصطناعي. فبينما يمكن أن توفر الملخصات نظرة عامة رفيعة المستوى، إلا أنها غالبًا ما تفتقر إلى السياق التفصيلي اللازم للإجابة عن الأسئلة الأكثر تعقيدًا. أدركت أن أي حل فعال سيحتاج إلى دمج كل من المحتوى التفصيلي والملخصات عالية المستوى، مما يسمح للذكاء الاصطناعي بالاعتماد على كليهما حسب الحاجة.
هذا هو السبب في أنه في إصدار الذكاء الاصطناعي من Fabrice AI الموجود حاليًا، أجعل الذكاء الاصطناعي يقدم أولاً ملخصًا للإجابة، قبل الخوض في مزيد من التفاصيل.
توسيع الآفاق: فهرس الرسم البياني المعرفي
وإدراكًا مني لمحدودية الطرق السابقة، اتجهت إلى نهج أكثر تعقيدًا: فهرس الرسم البياني المعرفي. تضمّن هذا النهج إنشاء رسم بياني معرفي من نص غير منظم، مما مكّن الذكاء الاصطناعي من المشاركة في الاستعلام القائم على الكيان. كان الهدف هو إنشاء فهم أكثر ديناميكية وترابطًا للمحتوى، مما يسمح للذكاء الاصطناعي لفابريس بالإجابة على الأسئلة المعقدة ذات السياق الثقيل بشكل أكثر فعالية.
على الرغم من وعوده، واجه فهرس الرسم البياني المعرفي عقبات كبيرة. فقد واجه الذكاء الاصطناعي صعوبة في الحصول على نتائج دقيقة، خاصةً بالنسبة للاستفسارات التي تتطلب فهماً عميقاً للسياق. على سبيل المثال، عندما طُرح سؤال “ما هي التقييمات العادلة للبذور والسلاسل أ؟” فشل الذكاء الاصطناعي مرة أخرى في تقديم إجابة ذات صلة، مما يسلط الضوء على صعوبة دمج النص غير المنظم في رسم بياني معرفي متماسك.
وعلى الرغم من فشل هذا النهج في نهاية المطاف، إلا أنه قدم رؤى مهمة حول تحديات استخدام الرسوم البيانية المعرفية في الذكاء الاصطناعي. إن تعقيد البيانات والحاجة إلى سياق دقيق يعني أنه حتى الرسم البياني المعرفي الذي تم بناؤه بشكل جيد قد يواجه صعوبة في تحقيق النتائج المرجوة. كان أحد العوائق الأخرى في فهرس الرسم البياني المعرفي هو سرعته البطيئة. كان وقت الاستجابة للحصول على المستندات ذات الصلة مرتفعًا جدًا بالنسبة لفهرس مخزن المتجهات.
إعادة تقييم البيانات: الجوزاء
بعد عدة انتكاسات، قررت اتباع نهج مختلف من خلال الاستفادة من الذكاء الاصطناعي من Google، Gemini. كانت الفكرة هي إنشاء مجموعات بيانات من ملفات JSON-CSV ثم تدريب نموذج مخصص LLM باستخدام هذه البيانات. كنت آمل أنه باستخدام بيانات منظمة ونموذج تدريب قوي، يمكنني التغلب على بعض التحديات التي واجهت المحاولات السابقة.
ومع ذلك، واجه هذا النهج أيضًا صعوبات. فقد توقفت عملية التدريب بسبب التنسيق غير الصحيح للبيانات، مما حال دون تدريب النموذج بشكل فعال. أكدت هذه الانتكاسة أهمية تكامل البيانات في تدريب الذكاء الاصطناعي. فبدون البيانات المنسقة والمنظمة بشكل صحيح، يمكن أن تفشل حتى النماذج الأكثر تقدمًا في الأداء كما هو متوقع.
قادتني هذه التجربة إلى التفكير في إمكانية استخدام BigQuery لتخزين بيانات JSON، مما يوفر منصة أكثر قابلية للتطوير والموثوقية لإدارة مجموعات البيانات الكبيرة اللازمة لتدريب الذكاء الاصطناعي فابريس بفعالية.
الجمع بين نقاط القوة: وثائق Langchain مع Pinecone
على الرغم من التحديات التي واجهتها حتى الآن، كنت مصممًا على إيجاد حل يسمح للذكاء الاصطناعي فابريس بتخزين واسترجاع المعرفة بشكل فعال. قادني هذا التصميم إلى تجربة مستندات Langchain و Pinecone. تضمّن النهج إنشاء مخزن متجه Pinecone باستخدام مستندات Langchain وOpenAI المضمنة، ثم استرجاع أفضل المستندات المتشابهة بناءً على الاستعلام.
أظهرت هذه الطريقة نتائج واعدة، خاصةً عندما تضمن الاستعلام عنوان المستند. على سبيل المثال، عندما طُرح السؤال “ما هو مفتاح السعادة؟” تمكن الذكاء الاصطناعي من استرجاع وتلخيص المحتوى ذي الصلة بدقة. ومع ذلك، لا تزال هناك قيود، لا سيما عندما يفتقر الاستعلام إلى كلمات رئيسية أو عناوين محددة.
أظهر هذا النهج إمكانية الجمع بين التقنيات المختلفة لتحسين أداء الذكاء الاصطناعي. من خلال دمج مستندات لانغشين مع مخزن بينيكون المتجه، تمكنت من تحسين ملاءمة ودقة استجابات الذكاء الاصطناعي، وإن كان ذلك مع بعض القيود.
تحقيق الاتساق: منشئ GPT OpenAI
بعد استكشاف طرق وتقنيات مختلفة، لجأتُ إلى منشئ GPT الخاص بالذكاء الاصطناعي المفتوح لتوحيد وتنقيح المعرفة المخزنة في فابريس للذكاء الاصطناعي. من خلال تحميل جميع المحتويات في قاعدة معارف GPT، هدفتُ إلى إنشاء منصة أكثر اتساقاً وموثوقية لاسترجاع معرفتي والتفاعل معها.
وقد أثبت هذا النهج أنه من أنجح الأساليب، حيث تمكن الذكاء الاصطناعي من تقديم نتائج أفضل عبر مجموعة من الاستفسارات. كان مفتاح هذا النجاح هو دمج جميع المعارف في نظام واحد ومتماسك، مما سمح للذكاء الاصطناعي بالاعتماد على مجموعة كاملة من المحتوى عند الإجابة عن الأسئلة.
كما ذكرت في منشوري السابق، لم أتمكن من تشغيله على موقعي الإلكتروني، وكان متاحًا فقط للمشتركين المدفوعين في Chat GPT الذي شعرت أنه مقيد للغاية. أيضًا، على الرغم من أنه كان أفضل، إلا أنني لم أحب جودة الإجابات ولم أكن مرتاحًا لإتاحته للعامة.
التنقيح النهائي: مساعدو GPT باستخدام النموذج 4o
جاءت القطعة الأخيرة من الأحجية في تطوير الذكاء الاصطناعي لفابريس مع إدخال مساعدي GPT باستخدام النموذج 4o. مثّل هذا النهج تتويجًا لكل ما تعلمته خلال المشروع. من خلال استخدام قاعدة بيانات متجهة وتنقيح المطالبات، كنت أهدف إلى تحقيق أعلى مستوى ممكن من الدقة والفهم السياقي في استجابات الذكاء الاصطناعي.
تضمنت هذه الطريقة تحميل جميع المعارف التي جمعتها في قاعدة بيانات متجهة، والتي تم استخدامها بعد ذلك كأساس لتفاعلات الذكاء الاصطناعي. أتاحت قاعدة البيانات المتجهة للذكاء الاصطناعي إجراء عمليات بحث أكثر تطوراً، واسترجاع المعلومات بناءً على المعنى الدلالي للاستعلامات بدلاً من الاعتماد فقط على مطابقة الكلمات الرئيسية. وشكّل ذلك تقدماً كبيراً مقارنةً بالمناهج السابقة، مما مكّن الذكاء الاصطناعي من فهم الأسئلة المعقدة والدقيقة والاستجابة لها بشكل أفضل.
كان أحد الابتكارات الرئيسية لهذا النهج هو التحسين الدقيق للمطالبات.
فمن خلال صياغة مطالبات مختلفة واختبارها بدقة، تمكنت من توجيه الذكاء الاصطناعي نحو تقديم إجابات أكثر دقة وملاءمة.
لم يقتصر ذلك على تعديل صياغة المطالبات فحسب، بل شمل أيضًا تجربة طرق مختلفة لهيكلة الاستفسارات للحصول على أفضل الإجابات الممكنة.
كانت النتائج مبهرة.
كان الذكاء الاصطناعي الآن قادراً على التعامل مع مجموعة واسعة من الاستفسارات بدقة عالية، حتى عندما كانت الأسئلة مفتوحة أو تتطلب فهماً عميقاً للسياق.
على سبيل المثال، عندما سُئلت: “كيف تتخذ أهم القرارات في حياتك؟
قدم الذكاء الاصطناعي إجابة شاملة وثاقبة، معتمداً على مجموعة متنوعة من المصادر ووجهات النظر لتقديم إجابة شاملة.
كان هذا النجاح تتويجاً لمئات الساعات من العمل وتجارب لا حصر لها. وقد أثبت أنه من خلال المزيج الصحيح من التكنولوجيا والتحسينات الصحيحة، كان من الممكن إنشاء ذكاء اصطناعي لا يمكنه تخزين المعلومات واسترجاعها بفعالية فحسب، بل يمكنه أيضًا التفاعل معها بطريقة مفيدة. كان تطوير مساعدي GPT باستخدام الموديل 4o بمثابة النقطة التي وصل فيها الذكاء الاصطناعي من فابريس إلى مستوى التطور والدقة الذي تصوّرته منذ البداية. تم بعد ذلك دمج واجهة برمجة التطبيقات لمساعدات GPT في مدونتي للسماح للمستخدمين النهائيين بالتفاعل مع الذكاء الاصطناعي من فابريس بالطريقة التي تراها على المدونة الآن.
التأمل في الرحلة
سلّطت عملية تطوير فابريس للذكاء الاصطناعي الضوء على تعقيدات العمل مع الذكاء الاصطناعي، خاصةً عندما يتعلق الأمر بفهم المعلومات ووضعها في سياقها. لقد علمتني هذه العملية أنه لا توجد طرق مختصرة في تطوير الذكاء الاصطناعي – فكل خطوة وكل تكرار وكل تجربة هي جزء ضروري من الرحلة نحو إنشاء شيء فعال حقًا.
واستشرافًا للمستقبل، أنا متحمس لمواصلة تحسين وتوسيع نطاق الذكاء الاصطناعي لفابريس. كما ذكرت في المنشور الأخير، سأقوم بمراجعة الأسئلة المطروحة لاستكمال قاعدة المعرفة حيث توجد ثغرات. آمل أيضًا أن أصدر في نهاية المطاف نسخة تفاعلية تشبهني وتبدو مثلي ويمكنك التحدث إليها.