مدلهای هوش مصنوعی چگونه تصویر میسازند؟
توانایی هوش مصنوعی در تبدیل چند کلمه به یک تصویر پیچیده و دقیق، ممکن است جادویی به نظر برسد، اما در پس این فرآیند، معماریهای پیچیده و الگوریتمهای قدرتمندی نهفته است. این فرآیند از درک زبان انسان آغاز شده و با استفاده از مدلهای پیشرفتهای مانند مدلهای دیفیوژن، به خلق تصویر میانجامد. درک این مکانیزمها برای استفاده بهینه از این فناوری و مدیریت انتظارات از آن ضروری است.
گام اول: درک زبان انسان
سفر از متن به تصویر با پردازش زبان طبیعی (NLP) آغاز میشود. زمانی که کاربر یک پرامپت متنی را وارد میکند، مدلهای NLP وظیفه تحلیل و تفسیر آن را بر عهده دارند. این مدلها پرامپت را به اجزای مفهومی آن تجزیه میکنند؛ مفاهیمی مانند اشیاء، اقدامات، سبکهای هنری، نورپردازی و ترکیببندی. سپس، این مفاهیم به یک نمایش عددی تبدیل میشوند که به آن embedding یا بردار گفته میشود. این بردار، در واقع یک نقشه راه ریاضیاتی برای مولد تصویر است. به عنوان مثال، پرامپت «یک تولهسگ گلدن رتریور پشمالو که در آفتاب بازی میکند» به بردارهای مجزایی برای مفاهیم «پشمالو» (بافت)، «گلدن رتریور» (شیء)، «بازی میکند» (عمل) و «در آفتاب» (نورپردازی) تجزیه میشود. این نقشه ریاضیاتی به مدل تولیدکننده تصویر میگوید که چه عناصری را باید در تصویر نهایی بگنجاند و چگونه این عناصر باید با یکدیگر در ارتباط باشند.
قلب تپنده: مدلهای دیفیوژن (Diffusion Models)
امروزه، تکنیک غالب در مولدهای تصویر پیشرفته مانند DALL-E 2 و Stable Diffusion، استفاده از مدلهای دیفیوژن است. این مدلها به دلیل توانایی در تولید تصاویر با جزئیات بالا و واقعگرایانه شهرت دارند. فرآیند کار آنها در دو مرحله اصلی خلاصه میشود:
• فرآیند آموزش (Forward Diffusion): در این مرحله، مدل با دریافت تصاویر تمیز و واقعی، به تدریج و در مراحل متعدد، به آنها نویز (noise) یا اختلال تصادفی (شبیه به برفک تلویزیون) اضافه میکند تا جایی که تصویر اصلی به طور کامل از بین برود و به یک الگوی نویز خالص تبدیل شود. در هر مرحله از این فرآیند تخریب، مدل یاد میگیرد که چگونه این فرآیند را معکوس کند.
• فرآیند تولید: (Reverse Diffusion) هنگام خلق یک تصویر جدید، مدل با یک بوم کاملاً پوشیده از نویز تصادفی شروع میکند. سپس، با راهنمایی بردار تعبیهشده از پرامپت متنی، فرآیند معکوس را اجرا میکند. در هر مرحله، مدل به طور مکرر بخشی از نویز را حذف کرده و الگوهای معناداری را جایگزین میکند تا در نهایت تصویری منسجم و واضح که با توصیفات پرامپت مطابقت دارد، پدیدار شود. این فرآیند را میتوان به مجسمهسازی تشبیه کرد که در آن هنرمند با تراشیدن یک سنگ خام، مجسمه نهایی را آشکار میسازد، یا به ظهور تدریجی عکس در تاریکخانه عکاسی.
این فرآیند اساساً یک بازسازی آماری و احتمالی است، نه یک درک خلاقانه. هوش مصنوعی «نمیداند» سگ چیست؛ بلکه میداند که توزیع آماری پیکسلهایی که در دادههای آموزشی با برچسب «سگ» مرتبط بودهاند، چگونه است. این موضوع، دلیل خطاهای رایج هوش مصنوعی مانند دستهای بدشکل یا صحنههای غیرمنطقی را توضیح میدهد. اگر الگوهای مربوط به «دست» در دادههای آموزشی از ثبات کمتری برخوردار باشند، خروجی نیز ناقص خواهد بود. این نکته برای کسبوکارها حائز اهمیت است، زیرا نشان میدهد که قابلیت اطمینان خروجی مستقیماً به کیفیت و جامعیت دادههای آموزشی بستگی دارد.
معماریهای دیگر: نگاهی به GANs و VAEs
علاوه بر مدلهای دیفیوژن، دو معماری کلیدی دیگر نیز در تاریخ و عملکرد سیستمهای تولید تصویر نقش اساسی داشتهاند:
• شبکههای :(Generative Adversarial Networks - GANs) این فناوری که پیش از مدلهای دیفیوژن رایج بود، یک معماری بنیادین در هوش مصنوعی مولد محسوب میشود. یک GAN از دو شبکه عصبی رقیب تشکیل شده است:
o یک مولد (Generator) که وظیفه خلق تصاویر جدید را بر عهده دارد.
o یک ممیز (Discriminator) که تلاش میکند تصاویر تولیدشده توسط مولد را از تصاویر واقعی تشخیص دهد. این دو شبکه در یک بازی رقابتی با یکدیگر آموزش میبینند. مولد تلاش میکند تصاویری آنچنان واقعی بسازد که ممیز را فریب دهد و ممیز نیز پیوسته در تشخیص تصاویر جعلی بهتر میشود. این رقابت باعث میشود کیفیت تصاویر تولیدشده به مرور زمان به شکل چشمگیری افزایش یابد. مدل معروف StyleGAN که برای تولید چهرههای انسانی فوقواقعگرایانه شناخته میشود، نمونهای برجسته از این معماری است.
• خودرمزگذار متغیر (Variational Autoencoders - VAEs): این مدلها نقشی حیاتی در بهینهسازی و افزایش کارایی فرآیند تولید تصویر دارند. یک VAE از دو بخش اصلی تشکیل شده است:
o یک رمزگذار (Encoder) که یک تصویر را به یک نمایش فشرده و کمحجم در فضایی به نام فضای نهان (latent space) تبدیل میکند.
o یک رمزگشا (Decoder) که میتواند تصویر اصلی را از این نمایش فشرده بازسازی کند. در بسیاری از مدلهای دیفیوژن مدرن، از VAE برای سرعت بخشیدن به فرآیند استفاده میشود. به جای انجام فرآیند زمانبر حذف نویز بر روی تصویر با رزولوشن کامل، این فرآیند در فضای نهان فشردهشده انجام میشود که محاسبات را به شدت کاهش میدهد و سپس رمزگشای VAE نتیجه را به یک تصویر با ابعاد کامل تبدیل میکند.
معماری ماژولار این سیستمها ترکیب مدلهای دیفیوژن با VAE و رمزگذارهای متنی مانند CLIP، کلید پیشرفت سریع و مقیاسپذیر آنهاست. این ماژولار بودن به محققان اجازه میدهد تا یک جزء را بدون نیاز به بازسازی کل سیستم بهبود بخشند. برای مثال، میتوان یک رمزگذار متن بهتر را برای درک عمیقتر پرامپتها جایگزین کرد. این ویژگی توضیحدهنده نرخ رشد نمایی و نه خطی این حوزه است، زیرا جامعه متنباز (open-source) میتواند به طور مداوم اجزای مختلف را بهبود بخشیده و ترکیب کند.


