هوش مصنوعی متن به تصویر امسال منفجر شد زیرا پیشرفتهای فنی وفاداری هنری را که سیستمهای هوش مصنوعی میتوانستند به میزان زیادی افزایش داد. از آنجایی که سیستمهایی مانند Stable Diffusion و OpenAI’s DALL-E 2 بحثبرانگیز هستند، پلتفرمهایی از جمله DeviantArt و Canva از آنها برای تقویت ابزارهای خلاقانه، شخصیسازی برند و حتی ایدهپردازی محصولات جدید استفاده کردهاند.
اما فناوری در قلب این سیستمها توانایی بسیار بیشتر از تولید هنر را دارد. انتشار نامیده می شود و توسط برخی گروه های تحقیقاتی بی باک برای تولید موسیقی، سنتز توالی DNA و حتی کشف داروهای جدید استفاده می شود.
بنابراین، انتشار دقیقاً چیست و چرا این جهش عظیم نسبت به وضعیت قبلی هنر است؟ با پایان یافتن سال، ارزش این را دارد که به منشأ انتشار و چگونگی پیشرفت آن در طول زمان برای تبدیل شدن به نیروی تأثیرگذار امروزی نگاهی بیندازیم. داستان Diffusion به پایان نرسیده است – هر ماه که می گذرد، اصلاحات روی تکنیک ها انجام می شود – اما یکی دو سال گذشته به خصوص پیشرفت قابل توجهی را به همراه داشت.
تولد انتشار
ممکن است روند اپلیکیشنهای دیپ فیک چندین سال پیش را به خاطر بیاورید – برنامههایی که پرترههای افراد را در تصاویر و ویدیوهای موجود قرار میدادند تا جایگزینهایی با ظاهری واقعی از سوژههای اصلی در آن محتوای هدف ایجاد کنند. با استفاده از هوش مصنوعی، برنامهها چهره یک فرد – یا در برخی موارد، کل بدن او را – در یک صحنه “وارد” میکنند، اغلب به اندازه کافی قانعکننده برای فریب دادن کسی در نگاه اول.
بیشتر این برنامهها به فناوری هوش مصنوعی به نام شبکههای متخاصم مولد یا به اختصار GAN متکی بودند. GAN ها از دو بخش تشکیل شده اند: الف ژنراتور که نمونه های مصنوعی (مثلاً تصاویر) را از داده های تصادفی تولید می کند و الف تبعیض کننده که تلاش می کند بین نمونه های مصنوعی و نمونه های واقعی از مجموعه داده های آموزشی تمایز قائل شود. (مجموعه دادههای آموزشی GAN معمولی شامل صدها تا میلیونها مثال از چیزهایی است که GAN انتظار میرود در نهایت آنها را ثبت کند.) هر دو مولد و ممیز در تواناییهای مربوطه خود بهبود مییابند تا زمانی که تمایزکننده نتواند نمونههای واقعی را از نمونههای ترکیبی با بهتر از آن تشخیص دهد. دقت 50 درصدی که از شانس انتظار می رود.
GAN های با عملکرد برتر می توانند، برای مثال، عکس های فوری از آن ایجاد کنند ساختمان های آپارتمانی خیالی. StyleGAN، سیستمی که انویدیا چند سال پیش توسعه داد، میتواند با یادگیری ویژگیهایی مانند حالت صورت، کک و مک و مو، عکسهایی از سر افراد خیالی با وضوح بالا ایجاد کند. فراتر از تولید تصویر، GAN ها در فضای مدلسازی سه بعدی و طرح های برداری، نشان دادن استعداد برای خروجی کلیپ های ویدئویی همچنین سخن، گفتار و حتی نمونه ابزار حلقه در آهنگ ها
با این حال، در عمل، GAN ها به دلیل معماری خود از تعدادی کاستی رنج می بردند. آموزش همزمان مدلهای مولد و ممیز ذاتاً ناپایدار بود. گاهی اوقات ژنراتور “در هم میپاشد” و نمونههای مشابه ظاهری زیادی به بیرون میدهد. GAN ها همچنین برای اجرا و آموزش به داده ها و توان محاسباتی زیادی نیاز داشتند که مقیاس آنها را سخت می کرد.
انتشار را وارد کنید.
نحوه عملکرد انتشار
انتشار از فیزیک الهام گرفته شده است – فرآیندی در فیزیک که در آن چیزی از ناحیه ای با غلظت بالاتر به ناحیه ای با غلظت پایین تر حرکت می کند، مانند یک حبه قند که در قهوه حل می شود. دانه های قند موجود در قهوه ابتدا در بالای مایع متمرکز می شوند، اما به تدریج توزیع می شوند.
سیستم های انتشار از انتشار در وام می گیرند ترمودینامیک غیر تعادلی به طور مشخص، که در آن فرآیند آنتروپی – یا تصادفی – سیستم را در طول زمان افزایش می دهد. یک گاز را در نظر بگیرید – در نهایت پخش می شود تا کل فضا را به طور مساوی از طریق حرکت تصادفی پر کند. به طور مشابه، داده هایی مانند تصاویر را می توان با اضافه کردن تصادفی نویز به یک توزیع یکنواخت تبدیل کرد.
سیستم های انتشار به آرامی ساختار داده ها را با افزودن نویز تخریب می کنند تا جایی که چیزی جز نویز باقی نماند.
در فیزیک، انتشار خود به خود و غیرقابل برگشت است – قند منتشر شده در قهوه را نمی توان به شکل مکعبی بازگرداند. اما هدف سیستمهای انتشار در یادگیری ماشینی یادگیری نوعی فرآیند “انتشار معکوس” برای بازیابی دادههای از بین رفته، به دست آوردن توانایی بازیابی دادهها از نویز است.
سیستم های انتشار نزدیک به یک دهه است که وجود دارند. اما یک نوآوری نسبتاً جدید از OpenAI به نام CLIP (مخفف “Contrastive Language-Image Pre-Training”) آنها را در کاربردهای روزمره بسیار کاربردی تر کرد. CLIP دادهها را طبقهبندی میکند – به عنوان مثال، تصاویر – برای “امتیاز” هر مرحله از فرآیند انتشار بر اساس میزان احتمال طبقهبندی آنها در یک پیام متنی مشخص (مثلاً “طرح یک سگ در یک چمن گلدار”).
در ابتدا، داده ها دارای امتیاز CLIP بسیار پایینی هستند، زیرا عمدتاً نویز هستند. اما همانطور که سیستم انتشار داده ها را از نویز بازسازی می کند، به آرامی به تطابق با اعلان نزدیک می شود. یک تشبیه مفید، سنگ مرمر حکاکی نشده است – مانند یک مجسمه ساز چیره دست که به یک تازه کار می گوید کجا کنده کاری کند، CLIP سیستم انتشار را به سمت تصویری هدایت می کند که امتیاز بالاتری می دهد.
OpenAI CLIP را در کنار سیستم تولید تصویر DALL-E معرفی کرد. از آن زمان، راه خود را به جانشین DALL-E، DALL-E 2، و همچنین جایگزین های منبع باز مانند Stable Diffusion باز کرده است.
انتشار چه کاری می تواند انجام دهد؟
بنابراین مدلهای انتشار هدایتشونده CLIP چه کاری میتوانند انجام دهند؟ خوب، همانطور که قبلا اشاره شد، آنها در تولید هنر بسیار خوب هستند – از هنر فوتورئالیستی گرفته تا طرح ها، طراحی ها و نقاشی ها به سبک تقریباً هر هنرمندی. در واقع، شواهدی وجود دارد که نشان میدهد آنها بهطور مشکلدار برخی از دادههای آموزشی خود را بازیابی میکنند.
اما استعداد مدل ها – هر چند بحث برانگیز باشد – به همین جا ختم نمی شود.
محققان همچنین با استفاده از مدلهای انتشار هدایتشده برای ساخت موسیقی جدید آزمایش کردهاند. هارمونایی، سازمانی با پشتوانه مالی از هوش مصنوعی پایداریاستارتآپ مستقر در لندن پشت Stable Diffusion، مدلی مبتنی بر انتشار منتشر کرد که میتواند با آموزش صدها ساعت از آهنگهای موجود، کلیپهای موسیقی را تولید کند. اخیراً، توسعه دهندگان Seth Forsgren و Hayk Martiros یک پروژه سرگرمی به نام Riffusion ایجاد کردند که از یک مدل انتشار استفاده می کند که به طور هوشمندانه بر روی طیف نگارها – بازنمایی های بصری – صدا آموزش داده شده است.
فراتر از قلمرو موسیقی، آزمایشگاههای متعددی در تلاش هستند تا از فناوری انتشار در زیستپزشکی به امید کشف درمانهای جدید بیماری استفاده کنند. استارتآپ Generate Biomedicines و تیمی از دانشگاه واشنگتن، مدلهای مبتنی بر انتشار را برای تولید طرحهایی برای پروتئینهایی با خواص و عملکردهای خاص، به عنوان بررسی فناوری MIT آموزش دادند. گزارش شده است اوایل این ماه
مدل ها به روش های مختلف کار می کنند. ایجاد نویزهای اضافه شده توسط Biomedicines با باز کردن زنجیرههای اسید آمینهای که یک پروتئین را میسازند و سپس زنجیرههای تصادفی را در کنار هم قرار میدهند تا پروتئین جدیدی را تشکیل دهند که توسط محدودیتهای مشخص شده توسط محققان هدایت میشود. از سوی دیگر، مدل دانشگاه واشنگتن با یک ساختار درهم شروع میشود و از اطلاعاتی در مورد اینکه چگونه قطعات یک پروتئین باید با هم قرار بگیرند استفاده میکند که توسط یک سیستم هوش مصنوعی جداگانه آموزش دیده برای پیشبینی ساختار پروتئین ارائه شده است.
آنها قبلاً به موفقیت هایی دست یافته اند. مدل طراحی شده توسط گروه دانشگاه واشنگتن توانست پروتئینی را پیدا کند که بهتر از داروهای موجود می تواند به هورمون پاراتیروئید – هورمونی که سطح کلسیم خون را کنترل می کند – بچسبد.
در همین حال، در OpenBioML، تلاشی مبتنی بر هوش مصنوعی پایدار برای ارائه رویکردهای مبتنی بر یادگیری ماشین به بیوشیمی، محققان سیستمی به نام انتشار DNA را برای تولید توالیهای DNA تنظیمکننده خاص نوع سلول – بخشهایی از مولکولهای اسید نوکلئیک که بر بیان ژن های خاص در یک ارگانیسم انتشار DNA – اگر همه چیز طبق برنامه پیش برود – توالی های DNA تنظیمی را از دستورالعمل های متنی مانند “توالی که یک ژن را تا حداکثر سطح بیان آن در سلول نوع X فعال می کند” و “توالی که یک ژن را در کبد و قلب فعال می کند” تولید می کند. اما نه در مغز.»
آینده برای مدل های انتشار چه چیزی ممکن است داشته باشد؟ آسمان ممکن است حد باشد. در حال حاضر، محققان آن را به کار برده اند تولید ویدیو، فشرده سازی تصاویر و سنتز گفتار. این بدان معنا نیست که دیفیوژن در نهایت با یک تکنیک یادگیری ماشینی کارآمدتر و کارآمدتر جایگزین نمی شود، همانطور که GAN ها با انتشار بودند. اما معماری du jour به یک دلیل است. انتشار اگر همه کاره نباشد چیزی نیست.
تاریخچه مختصری از انتشار، فناوری در قلب هوش مصنوعی تولید کننده تصویر مدرن توسط کایل ویگرز که در ابتدا در TechCrunch منتشر شد.