تاریخچه مختصری از انتشار، فناوری در قلب هوش مصنوعی تولید کننده تصویر مدرن

کد خبر : 9556

هوش مصنوعی متن به تصویر امسال منفجر شد زیرا پیشرفت‌های فنی وفاداری هنری را که سیستم‌های هوش مصنوعی می‌توانستند به میزان زیادی افزایش داد. از آنجایی که سیستم‌هایی مانند Stable Diffusion و OpenAI’s DALL-E 2 بحث‌برانگیز هستند، پلتفرم‌هایی از جمله DeviantArt و Canva از آنها برای تقویت ابزارهای خلاقانه، شخصی‌سازی برند و حتی ایده‌پردازی محصولات […]

اما فناوری در قلب این سیستم‌ها توانایی بسیار بیشتر از تولید هنر را دارد. انتشار نامیده می شود و توسط برخی گروه های تحقیقاتی بی باک برای تولید موسیقی، سنتز توالی DNA و حتی کشف داروهای جدید استفاده می شود.

بنابراین، انتشار دقیقاً چیست و چرا این جهش عظیم نسبت به وضعیت قبلی هنر است؟ با پایان یافتن سال، ارزش این را دارد که به منشأ انتشار و چگونگی پیشرفت آن در طول زمان برای تبدیل شدن به نیروی تأثیرگذار امروزی نگاهی بیندازیم. داستان Diffusion به پایان نرسیده است – هر ماه که می گذرد، اصلاحات روی تکنیک ها انجام می شود – اما یکی دو سال گذشته به خصوص پیشرفت قابل توجهی را به همراه داشت.

تولد انتشار

ممکن است روند اپلیکیشن‌های دیپ فیک چندین سال پیش را به خاطر بیاورید – برنامه‌هایی که پرتره‌های افراد را در تصاویر و ویدیوهای موجود قرار می‌دادند تا جایگزین‌هایی با ظاهری واقعی از سوژه‌های اصلی در آن محتوای هدف ایجاد کنند. با استفاده از هوش مصنوعی، برنامه‌ها چهره یک فرد – یا در برخی موارد، کل بدن او را – در یک صحنه “وارد” می‌کنند، اغلب به اندازه کافی قانع‌کننده برای فریب دادن کسی در نگاه اول.

بیشتر این برنامه‌ها به فناوری هوش مصنوعی به نام شبکه‌های متخاصم مولد یا به اختصار GAN متکی بودند. GAN ها از دو بخش تشکیل شده اند: الف ژنراتور که نمونه های مصنوعی (مثلاً تصاویر) را از داده های تصادفی تولید می کند و الف تبعیض کننده که تلاش می کند بین نمونه های مصنوعی و نمونه های واقعی از مجموعه داده های آموزشی تمایز قائل شود. (مجموعه داده‌های آموزشی GAN معمولی شامل صدها تا میلیون‌ها مثال از چیزهایی است که GAN انتظار می‌رود در نهایت آنها را ثبت کند.) هر دو مولد و ممیز در توانایی‌های مربوطه خود بهبود می‌یابند تا زمانی که تمایزکننده نتواند نمونه‌های واقعی را از نمونه‌های ترکیبی با بهتر از آن تشخیص دهد. دقت 50 درصدی که از شانس انتظار می رود.

مجسمه های شنی هری پاتر و هاگوارتز، ساخته شده توسط Stable Diffusion. اعتبار تصویر: هوش مصنوعی پایداری

GAN های با عملکرد برتر می توانند، برای مثال، عکس های فوری از آن ایجاد کنند ساختمان های آپارتمانی خیالی. StyleGAN، سیستمی که انویدیا چند سال پیش توسعه داد، می‌تواند با یادگیری ویژگی‌هایی مانند حالت صورت، کک و مک و مو، عکس‌هایی از سر افراد خیالی با وضوح بالا ایجاد کند. فراتر از تولید تصویر، GAN ها در فضای مدلسازی سه بعدی و طرح های برداری، نشان دادن استعداد برای خروجی کلیپ های ویدئویی همچنین سخن، گفتار و حتی نمونه ابزار حلقه در آهنگ ها

با این حال، در عمل، GAN ها به دلیل معماری خود از تعدادی کاستی رنج می بردند. آموزش همزمان مدل‌های مولد و ممیز ذاتاً ناپایدار بود. گاهی اوقات ژنراتور “در هم می‌پاشد” و نمونه‌های مشابه ظاهری زیادی به بیرون می‌دهد. GAN ها همچنین برای اجرا و آموزش به داده ها و توان محاسباتی زیادی نیاز داشتند که مقیاس آنها را سخت می کرد.

انتشار را وارد کنید.

نحوه عملکرد انتشار

انتشار از فیزیک الهام گرفته شده است – فرآیندی در فیزیک که در آن چیزی از ناحیه ای با غلظت بالاتر به ناحیه ای با غلظت پایین تر حرکت می کند، مانند یک حبه قند که در قهوه حل می شود. دانه های قند موجود در قهوه ابتدا در بالای مایع متمرکز می شوند، اما به تدریج توزیع می شوند.

سیستم های انتشار از انتشار در وام می گیرند ترمودینامیک غیر تعادلی به طور مشخص، که در آن فرآیند آنتروپی – یا تصادفی – سیستم را در طول زمان افزایش می دهد. یک گاز را در نظر بگیرید – در نهایت پخش می شود تا کل فضا را به طور مساوی از طریق حرکت تصادفی پر کند. به طور مشابه، داده هایی مانند تصاویر را می توان با اضافه کردن تصادفی نویز به یک توزیع یکنواخت تبدیل کرد.

سیستم های انتشار به آرامی ساختار داده ها را با افزودن نویز تخریب می کنند تا جایی که چیزی جز نویز باقی نماند.

در فیزیک، انتشار خود به خود و غیرقابل برگشت است – قند منتشر شده در قهوه را نمی توان به شکل مکعبی بازگرداند. اما هدف سیستم‌های انتشار در یادگیری ماشینی یادگیری نوعی فرآیند “انتشار معکوس” برای بازیابی داده‌های از بین رفته، به دست آوردن توانایی بازیابی داده‌ها از نویز است.

اعتبار تصویر: OpenBioML

سیستم های انتشار نزدیک به یک دهه است که وجود دارند. اما یک نوآوری نسبتاً جدید از OpenAI به نام CLIP (مخفف “Contrastive Language-Image Pre-Training”) آنها را در کاربردهای روزمره بسیار کاربردی تر کرد. CLIP داده‌ها را طبقه‌بندی می‌کند – به عنوان مثال، تصاویر – برای “امتیاز” هر مرحله از فرآیند انتشار بر اساس میزان احتمال طبقه‌بندی آن‌ها در یک پیام متنی مشخص (مثلاً “طرح یک سگ در یک چمن گلدار”).

در ابتدا، داده ها دارای امتیاز CLIP بسیار پایینی هستند، زیرا عمدتاً نویز هستند. اما همانطور که سیستم انتشار داده ها را از نویز بازسازی می کند، به آرامی به تطابق با اعلان نزدیک می شود. یک تشبیه مفید، سنگ مرمر حکاکی نشده است – مانند یک مجسمه ساز چیره دست که به یک تازه کار می گوید کجا کنده کاری کند، CLIP سیستم انتشار را به سمت تصویری هدایت می کند که امتیاز بالاتری می دهد.

OpenAI CLIP را در کنار سیستم تولید تصویر DALL-E معرفی کرد. از آن زمان، راه خود را به جانشین DALL-E، DALL-E 2، و همچنین جایگزین های منبع باز مانند Stable Diffusion باز کرده است.

انتشار چه کاری می تواند انجام دهد؟

بنابراین مدل‌های انتشار هدایت‌شونده CLIP چه کاری می‌توانند انجام دهند؟ خوب، همانطور که قبلا اشاره شد، آنها در تولید هنر بسیار خوب هستند – از هنر فوتورئالیستی گرفته تا طرح ها، طراحی ها و نقاشی ها به سبک تقریباً هر هنرمندی. در واقع، شواهدی وجود دارد که نشان می‌دهد آن‌ها به‌طور مشکل‌دار برخی از داده‌های آموزشی خود را بازیابی می‌کنند.

اما استعداد مدل ها – هر چند بحث برانگیز باشد – به همین جا ختم نمی شود.

محققان همچنین با استفاده از مدل‌های انتشار هدایت‌شده برای ساخت موسیقی جدید آزمایش کرده‌اند. هارمونایی، سازمانی با پشتوانه مالی از هوش مصنوعی پایداریاستارت‌آپ مستقر در لندن پشت Stable Diffusion، مدلی مبتنی بر انتشار منتشر کرد که می‌تواند با آموزش صدها ساعت از آهنگ‌های موجود، کلیپ‌های موسیقی را تولید کند. اخیراً، توسعه دهندگان Seth Forsgren و Hayk Martiros یک پروژه سرگرمی به نام Riffusion ایجاد کردند که از یک مدل انتشار استفاده می کند که به طور هوشمندانه بر روی طیف نگارها – بازنمایی های بصری – صدا آموزش داده شده است.

فراتر از قلمرو موسیقی، آزمایشگاه‌های متعددی در تلاش هستند تا از فناوری انتشار در زیست‌پزشکی به امید کشف درمان‌های جدید بیماری استفاده کنند. استارت‌آپ Generate Biomedicines و تیمی از دانشگاه واشنگتن، مدل‌های مبتنی بر انتشار را برای تولید طرح‌هایی برای پروتئین‌هایی با خواص و عملکردهای خاص، به عنوان بررسی فناوری MIT آموزش دادند. گزارش شده است اوایل این ماه

مدل ها به روش های مختلف کار می کنند. ایجاد نویزهای اضافه شده توسط Biomedicines با باز کردن زنجیره‌های اسید آمینه‌ای که یک پروتئین را می‌سازند و سپس زنجیره‌های تصادفی را در کنار هم قرار می‌دهند تا پروتئین جدیدی را تشکیل دهند که توسط محدودیت‌های مشخص شده توسط محققان هدایت می‌شود. از سوی دیگر، مدل دانشگاه واشنگتن با یک ساختار درهم شروع می‌شود و از اطلاعاتی در مورد اینکه چگونه قطعات یک پروتئین باید با هم قرار بگیرند استفاده می‌کند که توسط یک سیستم هوش مصنوعی جداگانه آموزش دیده برای پیش‌بینی ساختار پروتئین ارائه شده است.

اعتبار تصویر: PASIEKA/کتابخانه عکس علمی/گتی ایماژ

آنها قبلاً به موفقیت هایی دست یافته اند. مدل طراحی شده توسط گروه دانشگاه واشنگتن توانست پروتئینی را پیدا کند که بهتر از داروهای موجود می تواند به هورمون پاراتیروئید – هورمونی که سطح کلسیم خون را کنترل می کند – بچسبد.

در همین حال، در OpenBioML، تلاشی مبتنی بر هوش مصنوعی پایدار برای ارائه رویکردهای مبتنی بر یادگیری ماشین به بیوشیمی، محققان سیستمی به نام انتشار DNA را برای تولید توالی‌های DNA تنظیم‌کننده خاص نوع سلول – بخش‌هایی از مولکول‌های اسید نوکلئیک که بر بیان ژن های خاص در یک ارگانیسم انتشار DNA – اگر همه چیز طبق برنامه پیش برود – توالی های DNA تنظیمی را از دستورالعمل های متنی مانند “توالی که یک ژن را تا حداکثر سطح بیان آن در سلول نوع X فعال می کند” و “توالی که یک ژن را در کبد و قلب فعال می کند” تولید می کند. اما نه در مغز.»

آینده برای مدل های انتشار چه چیزی ممکن است داشته باشد؟ آسمان ممکن است حد باشد. در حال حاضر، محققان آن را به کار برده اند تولید ویدیو، فشرده سازی تصاویر و سنتز گفتار. این بدان معنا نیست که دیفیوژن در نهایت با یک تکنیک یادگیری ماشینی کارآمدتر و کارآمدتر جایگزین نمی شود، همانطور که GAN ها با انتشار بودند. اما معماری du jour به یک دلیل است. انتشار اگر همه کاره نباشد چیزی نیست.

تاریخچه مختصری از انتشار، فناوری در قلب هوش مصنوعی تولید کننده تصویر مدرن توسط کایل ویگرز که در ابتدا در TechCrunch منتشر شد.

منبع

لینک کوتاه : https://iran360news.com/?p=9556

ارسال توسط : امیررضا عسکری
بدون دیدگاه

تاریخچه مختصری از انتشار، فناوری در قلب هوش مصنوعی تولید کننده تصویر مدرن

تولد انتشار

نحوه عملکرد انتشار

انتشار چه کاری می تواند انجام دهد؟

نوشته های مشابه

ثبت دیدگاه

اخبار روز

درمان رایگان کودکان زیر 7 سال هنوز به دانشگاه ها ابلاغ نشده است

انواع ویزای تحصیلی برای تحصیل در آلمان

تلفن اینترنتی هایفون چه مزایایی نسبت به رقبا دارد؟

نگرانی کاربران از افزایش فروش دارایی‌ها و سهام‌های رمزارزی

آیا انحراف ستون فقرات خطرناک است؟

انواع تن پوش‌های عروسکی حیوانات برای کودکان

کوله پشتی کوهنوردی خوب را از کجا بخریم؟

ویبره بدنه؛ یک ابزار همه کاره در صنعت

تولد انتشار

نحوه عملکرد انتشار

انتشار چه کاری می تواند انجام دهد؟

نوشته های مشابه

سامسونگ گلکسی A56 با طراحی دوربین جدید و متفاوت وارد بازار شد 26 نوامبر 2024 - 15:24

Oppo Pad 3 با صفحه نمایش 11.6 اینچی، پردازنده Dimension 8350 و باتری بزرگ ارائه شد. 26 نوامبر 2024 - 13:49

Oppo Reno 13 و 13 Pro ارائه شد. اولین گوشی ها با پردازنده Dimension 8350 26 نوامبر 2024 - 11:42

پردازنده Mediatek Dimension 8350 ارائه شد. تغییرات محدود نسبت به Dimension 8300 25 نوامبر 2024 - 21:25

چگونه مغز مارمولک ما باعث نشخوار فکری و اضطراب می شود؟ 25 نوامبر 2024 - 20:22

ثبت دیدگاه

اخبار روز

درمان رایگان کودکان زیر 7 سال هنوز به دانشگاه ها ابلاغ نشده است

انواع ویزای تحصیلی برای تحصیل در آلمان

تلفن اینترنتی هایفون چه مزایایی نسبت به رقبا دارد؟

نگرانی کاربران از افزایش فروش دارایی‌ها و سهام‌های رمزارزی

آیا انحراف ستون فقرات خطرناک است؟

انواع تن پوش‌های عروسکی حیوانات برای کودکان

کوله پشتی کوهنوردی خوب را از کجا بخریم؟

ویبره بدنه؛ یک ابزار همه کاره در صنعت