BigScience، یک پروژه اجتماعی با حمایت استارتاپ Hugging Face با هدف در دسترس قرار دادن هوش مصنوعی تولید متن به طور گسترده، در حال توسعه سیستمی به نام گلبرگ که می تواند هوش مصنوعی مانند ChatGPT را با پیوستن به منابع افراد در سراسر اینترنت اجرا کند. با استفاده از Petals، کدی که ماه گذشته برای آن به صورت عمومی منتشر شد، داوطلبان میتوانند نیروی سختافزاری خود را برای مقابله با بخشی از حجم کاری تولید متن اختصاص دهند و دیگران را برای انجام کارهای بزرگتر، شبیه به Folding@home و سایر تنظیمات محاسباتی توزیعشده، تیم کنند.
الکساندر برزونوف، توسعهدهنده اصلی گلبرگها و مهندس محقق در Yandex، در مصاحبهای با TechCrunch گفت: «Petals یک پروژه مشترک در حال انجام از محققان Hugging Face، Yandex Research و دانشگاه واشنگتن است. «برخلاف … APIهایی که معمولاً انعطافپذیری کمتری دارند، Petals کاملاً منبع باز است، بنابراین محققان ممکن است جدیدترین روشهای تولید متن و انطباق سیستم را که هنوز در APIها در دسترس نیستند یکپارچه کنند یا به حالتهای داخلی سیستم برای مطالعه ویژگیهای آن دسترسی داشته باشند».
منبع باز، اما رایگان نیست
با همه ایراداتش، هوش مصنوعی تولید متن مانند ChatGPT میتواند بسیار مفید باشد – حداقل اگر نسخههای نمایشی ویروسی در رسانههای اجتماعی قابل انجام باشد. ChatGPT و نزدیکانش قول میدهند که برخی از کارهای پیش پاافتاده را که معمولاً برنامهنویسان، نویسندگان و حتی دانشمندان داده را با تولید کد، متن و فرمولهای انسانمانند در مقیاس درگیر میکند، خودکار کنند.
اما اجرای آنها گران است. طبق یکی تخمین زدنChatGPT برای توسعه دهنده خود OpenAI روزانه 100000 دلار هزینه در بر دارد که به 3 میلیون دلار در ماه می رسد.
هزینه های مربوط به اجرای هوش مصنوعی پیشرفته تولید متن باعث شده است که آن را به استارتاپ ها و آزمایشگاه های هوش مصنوعی با پشتوانه مالی قابل توجه واگذار کند. تصادفی نیست که شرکتهایی که برخی از فنآوریهای سیستمهای تولید متن را ارائه میدهند، از جمله AI21 Labs، Cohere و OpenAI فوقالذکر، صدها میلیون دلار سرمایه از VCها جمعآوری کردهاند.
اما گلبرگ چیزها را دموکراتیک می کند – در تئوری. با الهام از کار قبلی برزونوف که بر آموزش سیستمهای هوش مصنوعی از طریق اینترنت متمرکز شده بود، Petals قصد دارد تا هزینههای اجرای هوش مصنوعی تولید متن را به شدت کاهش دهد.
«گلبرگ کالین رافل، محقق دانشکده Hugging Face، از طریق ایمیل به TechCrunch گفت. “این … نشان دهنده تغییر مداوم از مدل های بزرگ که عمدتاً به ابررایانه ها محدود می شوند به چیزی که به طور گسترده در دسترس است.”
رافل به هجوم طلایی اشاره کرد که در سال گذشته در جامعه تولید متن متن باز رخ داده است. به لطف تلاشهای داوطلبانه و سخاوت آزمایشگاههای تحقیقاتی غولهای فناوری، نوعی از هوش مصنوعی تولیدکننده متن پیشرفته که زمانی دور از دسترس توسعهدهندگان کوچک بود، ناگهان در دسترس، آموزش دیده و آماده استقرار شد.
BigScience Bloom را معرفی کرد، یک مدل زبانی که از بسیاری جهات همتراز با GPT-3 OpenAI (پدر ChatGPT) است، در حالی که Meta یک سیستم هوش مصنوعی قدرتمند به نام OPT را ارائه کرد. در همین حال، مایکروسافت و انویدیا برای در دسترس قرار دادن یکی از بزرگترین سیستم های زبانی توسعه یافته، MT-NLG، شریک شدند.
اما همه این سیستم ها برای استفاده به سخت افزار قدرتمند نیاز دارند. به عنوان مثال، اجرای بلوم بر روی یک ماشین محلی نیاز به یک GPU خرده فروشی صدها تا هزاران دلاری دارد. وارد شبکه Petals شوید، شبکهای که Borzunov ادعا میکند به اندازه کافی قدرتمند است تا سیستمهای هوش مصنوعی را برای چتباتها و دیگر برنامههای «تعاملی» پس از رسیدن به ظرفیت کافی اجرا و تنظیم کند. برای استفاده از گلبرگ، کاربران یک کتابخانه منبع باز نصب می کنند و از وب سایتی بازدید می کنند که دستورالعمل های اتصال به شبکه گلبرگ را ارائه می دهد. پس از اتصال آنها، آنها می توانند متنی را از بلوم که روی گلبرگ اجرا می شود تولید کنند، یا یک سرور گلبرگ ایجاد کنند تا محاسبات را به شبکه بازگرداند.
هر چه تعداد سرورها بیشتر باشد، شبکه قوی تر است. اگر یک سرور از کار بیفتد، گلبرگ تلاش می کند جایگزینی را به طور خودکار پیدا کنید. در حالی که سرورها پس از حدود 1.5 ثانیه عدم فعالیت برای صرفه جویی در منابع، اتصال خود را قطع می کنند، Borzunov می گوید که Petals به اندازه کافی هوشمند است تا جلسات را به سرعت از سر بگیرد، که منجر به تاخیر جزئی برای کاربران نهایی می شود.
در آزمایشهای من، تولید متن با استفاده از گلبرگها بین چند ثانیه برای اعلانهای اولیه (مثلاً «کلمه «گربه» را به اسپانیایی ترجمه کنید») تا بیش از 20 ثانیه برای درخواستهای پیچیدهتر (مثلاً «نوشتن یک مقاله به سبک دیدرو درباره ماهیت جهان»). یک درخواست («معنای زندگی را توضیح دهید») نزدیک به سه دقیقه طول کشید، اما اگر منصفانه باشیم، به سیستم دستور دادم که با پاسخی کلمهتر (حدود 75 کلمه) نسبت به چند مورد قبلی پاسخ دهد.
این به طور قابل توجهی کندتر از ChatGPT است – اما همچنین رایگان است. در حالی که ChatGPT امروز هیچ هزینه ای ندارد، هیچ تضمینی وجود ندارد که در آینده درست باشد.
برزونوف نمیگوید که شبکه Petals در حال حاضر چقدر بزرگ است، مگر اینکه از زمان راهاندازی آن در اوایل دسامبر، چندین کاربر با «GPU با ظرفیتهای مختلف» به آن ملحق شدهاند. هدف این است که در نهایت یک سیستم پاداش برای تشویق مردم به اهدای محاسبات خود معرفی کنیم. برزونوف گفت که اهداکنندگان “امتیازهای شکوفایی” را دریافت خواهند کرد که می توانند آن را برای “تضمین های امنیتی با اولویت بالاتر یا افزایش یافته” یا به طور بالقوه با سایر جوایز مبادله کنند.
محدودیت های محاسبات توزیع شده
Petals وعده می دهد که جایگزینی ارزان قیمت، اگر نه کاملا رایگان، برای خدمات تولید متن پولی ارائه شده توسط فروشندگانی مانند OpenAI ارائه کند. اما پیچیدگی های فنی عمده هنوز برطرف نشده است.
نگران کننده ترین نقص های امنیتی است. این صفحه GitHub for the Petals پروژه اشاره میکند که به دلیل نحوه عملکرد گلبرگ، سرورها میتوانند متن ورودی را بازیابی کنند – از جمله متنی که خصوصی است – و آن را به روشی مخرب ضبط و اصلاح کنند. این ممکن است مستلزم اشتراکگذاری دادههای حساس با سایر کاربران در شبکه باشد، مانند نامها و شمارههای تلفن، یا دستکاری کد تولید شده به طوری که عمداً خراب شود.
گلبرگ همچنین هیچ یک از ایرادات ذاتی در سیستمهای تولید متن پیشرو امروزی، مانند تمایل آنها به تولید متن سمی و مغرضانه را برطرف نمیکند (به بخش «محدودیتها» در بخش مراجعه کنید. ورود شکوفه در مخزن Hugging Face). در یک مصاحبه ایمیلی، مکس ریابینین، دانشمند تحقیقاتی ارشد در Yandex Research، به صراحت گفت که گلبرگ برای استفاده تحقیقاتی و آکادمیک – حداقل در حال حاضر – در نظر گرفته شده است.
ریابینین گفت: «Petals دادههای میانی … را از طریق شبکه عمومی ارسال میکند، بنابراین ما میخواهیم از آن برای دادههای حساس استفاده نکنیم زیرا همتایان دیگر ممکن است (در تئوری) آنها را از نمایشهای میانی بازیابی کنند. ما به افرادی که میخواهند از Petals برای دادههای حساس استفاده کنند، پیشنهاد میکنیم تا گروه خصوصی خود را با میزبانی سازمانها و افرادی که به آنها اعتماد دارند و مجاز به پردازش این دادهها هستند، راهاندازی کنند. برای مثال، چندین استارتآپ و آزمایشگاه کوچک ممکن است با یکدیگر همکاری کنند و یک گروه خصوصی برای محافظت از دادههای خود در برابر دیگران راهاندازی کنند و در عین حال از مزایای استفاده از گلبرگها بهره ببرند.»
مانند هر سیستم توزیعشده، گلبرگها نیز میتواند توسط کاربران نهایی مورد سوء استفاده قرار گیرد، چه توسط بازیگران بدی که به دنبال تولید متن سمی هستند (مثلاً سخنان نفرتانگیز) یا توسعهدهندگانی با برنامههای مخصوصاً منابع فشرده. رافل اذعان میکند که گلبرگها به ناچار در ابتدا با «مشکلاتی» روبرو خواهند شد. اما او بر این باور است که این ماموریت – کاهش مانع برای اجرای سیستمهای تولید متن – ارزش دستاندازهای اولیه را دارد.
با توجه به موفقیت اخیر بسیاری از تلاشهای سازماندهی شده توسط جامعه در یادگیری ماشین، ما معتقدیم که ادامه توسعه این ابزارها مهم است و امیدواریم که گلبرگ رافل گفت الهام بخش دیگر پروژه های یادگیری عمیق غیرمتمرکز خواهد بود.
Petals در حال ایجاد یک شبکه رایگان و توزیع شده برای اجرای هوش مصنوعی تولید متن توسط Kyle Wiggers است که در ابتدا در TechCrunch منتشر شده بود.