توسعه دهنده هوش مصنوعی Anthropic اخیراً تحقیقات جدیدی را منتشر کرده است که تعدادی از تهدیدات بالقوه مخرب برای بشریت ناشی از مدل های پیشرفته هوش مصنوعی را شناسایی کرده است.
به گفته این شرکت، این تحقیق بر چهار روش خاص متمرکز شده است که یک مدل هوش مصنوعی مخرب می تواند یک انسان را فریب دهد تا تصمیم خطرناک یا مضری بگیرد.
در نهایت این تحقیق جدید برای ما خبرهای خوب و بدی دارد. خبر بد این است که طبق تحقیقات این شرکت، مدلهای پیشرفته زبانهای بزرگ مانند ChatGPT و Claude-3 قابلیت خرابکاری واضحی را نشان میدهند.
در این تحقیق آمده است: مدلهای به اندازه کافی قدرتمند میتوانند نظارت و تصمیمگیری انسانی را در زمینههای مهم به چالش بکشند. برای مثال، در زمینه توسعه هوش مصنوعی، مدلها میتوانند به طور پنهانی تلاشها برای ارزیابی قابلیتهای خطرناکشان، نظارت بر رفتارشان یا تصمیمگیری درباره استقرارشان را مختل کنند.
با این حال، خبر خوب این است که محققان Entropic مطمئن هستند که این خطرات حداقل در حال حاضر قابل کاهش هستند.
وندالیسم
Entropic چهار راه را شناسایی کرد که یک مدل هوش مصنوعی میتواند تصمیمگیری انسان را مختل کند و سپس مدلهای خود را برای بررسی موفقیت آمیز بودن آنها آزمایش کرد.
محققان ابتدا یک مدل را مجبور کردند تا با هدایت انسان ها به اطلاعات نادرست دست به خرابکاری بزند. این تهدید زمانی رخ میدهد که انسانها برای تجزیه و تحلیل مقادیر زیادی از دادهها از طرف خود به یک سیستم هوش مصنوعی متکی باشند.
سپس این تیم مدلها را آزمایش کردند تا ببینند که برای یک سیستم هوش مصنوعی طراحی شده برای کمک به توسعهدهندگان انسانی برای ایجاد کدهایی برای معرفی باگ یا خراب کردن تلاشهای کدنویس، چقدر آسان است.
دو تهدید آخر شامل “کیسه شن” بود، اصطلاحی که سناریویی را توصیف می کند که در آن یک هوش مصنوعی وانمود می کند که نمی تواند کاری انجام دهد تا آزمایش کنندگان امنیتی را متقاعد کند که خطرناک نیست.
در حالی که همه اینها ممکن است به طور بالقوه خطرناک به نظر برسند، آنتروپیک به مردم اطمینان داد که اقدامات پیشگیرانه کمی برای محافظت از بشر در برابر پتانسیل هوش مصنوعی برای ایجاد ویرانی لازم است.
بر اساس اعلام این شرکت؛ به طور کلی، در حالی که آزمایش ما نشان داد که احتمالاً نشانه هایی از قابلیت خرابکاری سطح پایین در مدل های فعلی وجود دارد، ما می گوییم که حداقل اقدامات پیشگیرانه برای مقابله با خطرات کافی است. با این حال، با بهبود قابلیتهای هوش مصنوعی، ارزیابیهای واقعیتر و پیشگیریهای قویتر احتمالاً ضروری خواهد بود.