هوش مصنوعی فابریس: پیاده سازی فنی فعلی

در آخرین پست، Fabrice AI: The Technical Journey سفری را که برای ساختن Fabrice AI طی یک دایره کامل طی کردیم، توضیح دادم. من با استفاده از Chat GPT 3 و 3.5 شروع کردم. من که از نتایج ناامید شده بودم، سعی کردم از چارچوب Langchain استفاده کنم تا مدل هوش مصنوعی خود را در بالای آن بسازم، قبل از بازگشت به Chat GPT هنگامی که آنها شروع به استفاده از پایگاه داده های برداری کردند و نتایج را به طور گسترده با 4o بهبود بخشیدند.

در اینجا روند فعلی آموزش Fabrice AI آمده است:

  • داده‌های آموزشی (پست‌های وبلاگ، آدرس‌های یوتیوب، آدرس‌های اینترنتی پادکست، آدرس‌های اینترنتی پی‌دی‌اف و نشانی‌های اینترنتی تصویر) در پایگاه داده وردپرس ما ذخیره می‌شوند.
  • داده ها را استخراج می کنیم و ساختار می دهیم.
  • ما داده های ساختار یافته را برای آموزش با استفاده از Assistant API در اختیار Open AI قرار می دهیم.
  • Open AI سپس یک پایگاه داده فروشگاه برداری ایجاد کرده و آن را ذخیره می کند.

در اینجا نمونه ای از داده های ساخت یافته آورده شده است. هر قسمت از محتوا فایل JSON خود را دارد. ما مطمئن می شویم که از محدودیت 32000 توکن تجاوز نکنیم.

{

“id”: “1”،

“تاریخ”: “”،

“لینک”: “https://fabricegrinda.com/”،

“عنوان”: {

“rendered”: “هوش مصنوعی فابریس چیست؟”

  },

“دسته”: “درباره فابریس”،

“featured_media”: “https://fabricegrinda.com/wp-content/uploads/2023/12/About-me.png”،

“other_media”: “”,

“knowledge_type”: “وبلاگ”،

“contentUpdated”: “هوش مصنوعی Fabrice یک نمایش دیجیتالی از افکار فابریس بر اساس پست های وبلاگ او و انتخاب پادکست ها و مصاحبه های رونویسی شده با استفاده از ChatGPT است. با توجه به اینکه بسیاری از رونویسی ها به طور ناقص رونویسی شده اند و وبلاگ فقط یک نمایش محدود از فرد فابریس است. ، ما از نادرستی و اطلاعات از دست رفته عذرخواهی می کنیم، با این وجود، این شروع خوبی است برای دریافت نظرات فابریس در مورد بسیاری از موضوعات، اشاره کنید.”

}

پیاده سازی فنی فعلی است:

  • وب سایت رو به رو مصرف کننده در AWS Amplify میزبانی می شود.
  • ادغام بین سایت عمومی و Open AI از طریق یک لایه API انجام می شود که روی AWS به عنوان یک سرور API Python میزبانی می شود.
  • ما از MongoDB به عنوان یک گزارش برای ذخیره تمام سوالات پرسیده شده توسط عموم، پاسخ های داده شده توسط Chat GPT و URL های منابع استفاده می کنیم.
  • ما از اسکریپت های مختلفی برای ساختار دادن به داده های وبلاگ، یوتیوب و غیره استفاده می کنیم تا برای آموزش به Open AI ارسال کنیم.
  • ما از React-Speech Recognition برای تبدیل درخواست های صوتی به متن استفاده می کنیم.
  • ما همچنین از Google Analytics برای ردیابی ترافیک وب سایت استفاده می کنیم.

توجه به این نکته ضروری است که ما از دو دستیار استفاده می کنیم:

  • یکی برای پاسخ به سوالات
  • یکی برای دریافت URL های ابرداده، URL های وبلاگ که دارای محتوای اصلی برای نمایش منابع در پایین پاسخ ها هستند.

بعدش چی؟

  1. بهبودهای گفتار به متن

مدل Open AI’s Whisper برای گفتار به متن دقیق‌تر از React است. همچنین از چندین زبان خارج از جعبه پشتیبانی می‌کند و در مدیریت گفتار، لهجه‌ها و گویش‌های ترکیبی زبان خوب است. در نتیجه به احتمال زیاد در ماه های آینده به سمت آن حرکت خواهم کرد. این گفت که راه اندازی آن پیچیده تر است بنابراین ممکن است مدتی طول بکشد. شما باید مدل را مدیریت کنید، وابستگی ها را مدیریت کنید (مثلاً پایتون، کتابخانه ها)، و اطمینان حاصل کنید که سخت افزار کافی برای عملکرد کارآمد دارید. همچنین Whisper برای استفاده مستقیم در مرورگرها طراحی نشده است. هنگام ساخت یک برنامه وب، باید یک سرویس پشتیبان ایجاد کنید تا رونویسی را مدیریت کند که پیچیدگی را اضافه می کند.

  • Fabrice AI Avatar

من می خواهم یک آواتار Fabrice AI ایجاد کنم که شبیه من باشد و بتوانید با آن مکالمه داشته باشید. من D-iD را ارزیابی کردم اما متوجه شدم که برای اهدافم بسیار گران است. Eleven Labs فقط صدادار است. Synthesia عالی است اما در حال حاضر ویدیوها را در زمان واقعی ایجاد نمی کند. در پایان تصمیم گرفتم از HeyGen با توجه به قیمت و عملکرد مناسب تر استفاده کنم.

من گمان می‌کنم که در مقطعی Open AI راه‌حل خود را منتشر کند، بنابراین این کار بیهوده خواهد بود. من با آن راحت هستم و در صورت آمدن و آمدن به راه حل Open AI تغییر می کنم. در این مرحله هدف کل این تمرین این است که یاد بگیریم با هوش مصنوعی چه چیزی ممکن است و چقدر کار برای کمک به درک بهتر فضا لازم است.

  • داشبورد سفارشی

در حال حاضر، من باید یک پرس و جو MongoDB را اجرا کنم تا عصاره سوالات و پاسخ های روز را دریافت کنم. من در حال ساخت یک داشبورد ساده هستم که در آن می توانم استخراج و آمار ساده در مورد تعداد پرس و جوها در هر زبان، تعداد درخواست های گفتار به متن و غیره را دریافت کنم.

  • منابع داده های اضافی

ما فقط نمونه کارها FJ Labs را در Fabrice AI آپلود کردیم. اکنون می توانید بپرسید که آیا یک شرکت بخشی از پورتفولیو است یا خیر. Fabrice AI با توضیح کوتاهی از شرکت و پیوند به وب سایت آن پاسخ می دهد.

با توجه به تعداد سؤالات شخصی Fabrice AI که پاسخی برای آنها نداشت، من وقت گذاشتم تا هر بلندگو را در ویدیوی تولد 50 سالگی خود به صورت دستی برچسب گذاری کنم تا محتوای مورد نیاز را ارائه دهم.

نتیجه

با تمام کارهایی که در دوازده ماه گذشته بر روی همه چیزهای مرتبط با هوش مصنوعی انجام داده ام، به نظر می رسد یک نتیجه جهانی روشن وجود دارد: هرچه بیشتر منتظر بمانید، ارزان تر، آسان تر و بهتر می شود، و احتمال اینکه هوش مصنوعی Open AI ارائه کند بیشتر می شود. آن را در ضمن اگر سوالی داشتید با من در میان بگذارید.