آیا یک انسان آن را نوشته است یا ChatGPT؟ گفتن آن ممکن است سخت باشد – شاید خیلی سخت باشد، خالق آن OpenAI فکر میکند، به همین دلیل است که روی راهی کار میکند تا محتوای تولید شده توسط هوش مصنوعی را «واتر نشانگذاری» کند.
در یک سخنرانی در دانشگاه آستین، استاد علوم کامپیوتر اسکات آرونسون، که در حال حاضر یک محقق مهمان در OpenAI است، فاش کرد که OpenAI در حال توسعه ابزاری برای “تعریف آماری خروجی های یک متن” است. [AI system]” هر زمان که یک سیستم – مثلا ChatGPT – متنی را تولید می کند، ابزار یک “سیگنال مخفی غیرقابل توجه” را تعبیه می کند که نشان می دهد متن از کجا آمده است.
آرونسون میگوید، مهندس OpenAI، هندریک کرشنر، یک نمونه اولیه کار ساخت، و امید است که آن را در سیستمهای توسعهیافته OpenAI آینده بسازد.
“ما می خواهیم تحمل آن بسیار سخت تر باشد [an AI system’s] آرونسون در اظهارات خود گفت. بدیهی است که این می تواند برای جلوگیری از سرقت علمی آکادمیک مفید باشد، اما برای مثال، به عنوان مثال، تولید انبوه تبلیغات – می دانید، هر وبلاگ را با نظرات ظاهراً مرتبط با موضوع حمایت می کند که حتی بدون ساختمانی پر از ترول ها در مسکو، از حمله روسیه به اوکراین حمایت می کند. یا جعل کردن سبک نوشتن یک نفر برای متهم کردن او.»
بهره برداری از تصادفی بودن
چرا به واترمارک نیاز است؟ ChatGPT یک مثال قوی است. چت بات توسعه یافته توسط OpenAI، اینترنت را تحت تاثیر خود قرار داده است، و نشان می دهد که نه تنها برای پاسخ دادن به سؤالات چالش برانگیز، بلکه در نوشتن شعر، حل معماهای برنامه نویسی و شعر در مورد هر تعداد از موضوعات فلسفی استعداد دارد.
در حالی که ChatGPT بسیار سرگرم کننده – و واقعاً مفید است – این سیستم نگرانی های اخلاقی آشکاری را ایجاد می کند. مانند بسیاری از سیستم های تولید متن قبل از آن، ChatGPT می تواند برای نوشتن ایمیل های فیشینگ با کیفیت بالا و بدافزارهای مضر یا تقلب در تکالیف مدرسه استفاده شود. و بهعنوان ابزار پاسخگویی به سؤال، در واقع ناسازگار است – نقصی که باعث شد تا سایت برنامهنویسی پرسش و پاسخ Stack Overflow پاسخهای منشأ ChatGPT را تا اطلاع ثانوی ممنوع کند.
برای درک زیربنای فنی ابزار واترمارک OpenAI، دانستن اینکه چرا سیستمهایی مانند ChatGPT به خوبی آنها کار میکنند، مفید است. این سیستمها متن ورودی و خروجی را بهعنوان رشتههایی از «نشانهها» درک میکنند، که میتوانند کلمات و همچنین علائم نگارشی و بخشهایی از کلمات باشند. در هستههای خود، سیستمها دائماً یک تابع ریاضی به نام توزیع احتمال تولید میکنند تا با در نظر گرفتن تمام نشانههای خروجی قبلی، نشانه بعدی (مثلاً کلمه) را برای خروجی تعیین کنند.
در مورد سیستم های میزبان OpenAI مانند ChatGPT، پس از تولید توزیع، سرور OpenAI کار نمونه برداری از نشانه ها را بر اساس توزیع انجام می دهد. تصادفی در این انتخاب وجود دارد. به همین دلیل است که همان اعلان متن می تواند پاسخ متفاوتی بدهد.
آرونسون در طول این سخنرانی گفت که ابزار واترمارک OpenAI مانند یک “پوشش” بر روی سیستم های تولید متن موجود عمل می کند و از یک تابع رمزنگاری که در سطح سرور اجرا می شود برای انتخاب “شبه تصادفی” توکن بعدی استفاده می کند. در تئوری، متن تولید شده توسط سیستم همچنان برای شما یا من تصادفی به نظر می رسد، اما هر کسی که “کلید” عملکرد رمزنگاری را داشته باشد می تواند یک واترمارک را کشف کند.
از نظر تجربی، چند صد نشانه برای دریافت یک سیگنال معقول کافی به نظر می رسد که بله، این متن از [an AI system]. در اصل، شما حتی می توانید یک متن طولانی بگیرید و جدا کنید که احتمالاً از کدام قسمت آمده است [the system] و کدام بخشها احتمالاً اینطور نبودند.» آرونسون گفت. “[The tool] می تواند واترمارک را با استفاده از یک کلید مخفی انجام دهد و با استفاده از همان کلید می تواند واترمارک را بررسی کند.
محدودیت های کلیدی
واترمارک کردن متن تولید شده با هوش مصنوعی ایده جدیدی نیست. تلاشهای قبلی، بیشتر مبتنی بر قواعد، بر تکنیکهایی مانند جایگزینی مترادف و تغییر کلمات خاص نحوی تکیه کردهاند. اما خارج از جنبه نظری پژوهش به نظر می رسد OpenAI یکی از اولین رویکردهای مبتنی بر رمزنگاری برای حل این مشکل باشد.
هنگامی که برای اظهار نظر با او تماس گرفته شد، آرونسون از افشای اطلاعات بیشتر در مورد نمونه اولیه واترمارکینگ خودداری کرد، به جز اینکه او انتظار دارد در ماه های آینده یک مقاله تحقیقاتی را با هم بنویسد. OpenAI نیز رد کرد و تنها گفت که واترمارکینگ یکی از چندین “تکنیک منشأ” است که برای شناسایی خروجی های تولید شده توسط هوش مصنوعی در حال بررسی است.
با این حال، دانشگاهیان و کارشناسان صنعت غیروابسته نظرات متفاوتی را به اشتراک گذاشتند. آنها خاطرنشان می کنند که این ابزار سمت سرور است، به این معنی که لزوماً با همه سیستم های تولید متن کار نمی کند. و آنها استدلال میکنند که کار کردن برای دشمنان بیاهمیت است.
Srini Devadas، استاد علوم کامپیوتر در MIT، از طریق ایمیل به TechCrunch گفت: «من فکر میکنم که دور زدن آن با بازنویسی، استفاده از مترادفها و غیره نسبتاً آسان باشد. “این کمی کشمکش است.”
جک هسل، دانشمند پژوهشی در موسسه آلن برای هوش مصنوعی، خاطرنشان کرد که اثرانگشت نامحسوس متن تولید شده توسط هوش مصنوعی دشوار است زیرا هر نشانه یک انتخاب گسسته است. یک اثر انگشت خیلی واضح ممکن است منجر به انتخاب کلمات عجیب و غریب شود که تسلط را کاهش می دهد، در حالی که بسیار ظریف باعث می شود در هنگام جستجوی اثر انگشت جای تردید باقی بماند.
Yoav Shoham، یکی از بنیانگذاران و یکی از مدیران عامل AI21 Labs، رقیب OpenAI، فکر نمی کند که واترمارک آماری برای کمک به شناسایی منبع متن تولید شده توسط هوش مصنوعی کافی باشد. او خواستار یک رویکرد «جامعتر» است که شامل واترمارکهای متفاوت است، که در آن قسمتهای مختلف متن بهطور متفاوتی واترمارک میشوند، و سیستمهای هوش مصنوعی که منابع متن واقعی را با دقت بیشتری ذکر میکنند.
کارشناسان خاطرنشان کردند که این تکنیک خاص واترمارک کردن همچنین مستلزم اعتماد و قدرت زیادی به OpenAI است.
هسل از طریق ایمیل گفت: «اثر انگشت ایدهآل توسط خواننده انسانی قابل تشخیص نیست و امکان تشخیص بسیار مطمئن را فراهم میکند. بسته به نحوه راهاندازی، ممکن است خود OpenAI تنها طرفی باشد که میتواند با اطمینان این تشخیص را به دلیل نحوه عملکرد فرآیند «امضا» ارائه دهد.»
در سخنرانی خود، آرونسون اذعان کرد که این طرح فقط در دنیایی کار میکند که شرکتهایی مانند OpenAI در ارتقای پیشرفتهترین سیستمها پیشتاز هستند – و همه آنها موافق هستند که بازیگرانی مسئولیتپذیر باشند. حتی اگر OpenAI ابزار واترمارکینگ را با سایر ارائه دهندگان سیستم تولید متن مانند Cohere و AI21Labs به اشتراک بگذارد، این امر مانع از عدم استفاده دیگران از آن نمی شود.
«اگر [it] آرونسون گفت، بسیاری از اقدامات ایمنی سختتر میشوند و حتی ممکن است غیرممکن باشند، حداقل بدون مقررات دولتی. «در دنیایی که هر کسی میتوانست مدل متنی خود را بسازد که به همان اندازه خوب باشد [ChatGPT, for example] … آنجا چه کار می کنی؟»
در حوزه متن به تصویر به این صورت است. برخلاف OpenAI که سیستم تولید تصویر DALL-E 2 آن تنها از طریق یک API در دسترس است، هوش مصنوعی پایداری فناوری متن به تصویر خود را (به نام Stable Diffusion) منبع باز کرد. در حالی که DALL-E 2 دارای تعدادی فیلتر در سطح API برای جلوگیری از ایجاد تصاویر مشکل ساز است (به علاوه واترمارک روی تصاویری که تولید می کند)، اما منبع باز Stable Diffusion اینگونه نیست. بازیگران بد از آن برای ساختن پورن های جعلی عمیق و سمیت های دیگر استفاده کرده اند.
آرونسون به نوبه خود خوشبین است. در این سخنرانی، او اعتقاد داشت که اگر OpenAI بتواند نشان دهد که واترمارکینگ کار می کند و بر کیفیت متن تولید شده تأثیر نمی گذارد، این پتانسیل را دارد که به یک استاندارد صنعتی تبدیل شود.
همه موافق نیستند. همانطور که Devadas اشاره میکند، این ابزار به یک کلید نیاز دارد، به این معنی که نمیتواند کاملاً منبع باز باشد – به طور بالقوه پذیرش آن را محدود به سازمانهایی میکند که موافقت میکنند با OpenAI شریک شوند. (اگر قرار بود کلید عمومی شود، هر کسی میتوانست الگوی پشت واترمارکها را استنباط کند و هدف آنها را شکست دهد.)
اما ممکن است چندان دور از ذهن نباشد. یکی از نمایندگان Quora گفت که این شرکت علاقه مند به استفاده از چنین سیستمی است و احتمالا این تنها سیستم نخواهد بود.
میتوانید نگران باشید که همه این چیزها در مورد تلاش برای ایمن و مسئولیتپذیر بودن در هنگام مقیاسبندی هوش مصنوعی… به محض اینکه به خطوط نهایی گوگل و متا و علیبابا و دیگر بازیگران اصلی آسیب برساند، بسیاری از آنها از پنجره بیرون میروند. آرونسون گفت. از سوی دیگر، در 30 سال گذشته شاهد بودهایم که شرکتهای بزرگ اینترنتی میتوانند روی استانداردهای حداقلی به توافق برسند، چه به دلیل ترس از شکایت، تمایل به دیده شدن بهعنوان یک بازیگر مسئول یا هر چیز دیگری.»
تلاشهای OpenAI برای واترمارک کردن متن هوش مصنوعی توسط کایل ویگرز که در ابتدا در TechCrunch منتشر شده بود با محدودیت مواجه شد.