تاریخچه تکامل تولید تصویر با هوش مصنوعی
مسیر تکامل تولید تصویر با هوش مصنوعی، داستانی جذاب از دههها تحقیق بنیادین است که با جهشهای ناگهانی و انقلابی همراه بوده است. این فناوری که امروز در دسترس همگان قرار دارد، بر شانه غولهایی از دهههای گذشته ایستاده است. درک این سیر تاریخی به ما کمک میکند تا سرعت شگفتانگیز پیشرفتهای اخیر و پتانسیل آینده آن را بهتر درک کنیم.
ریشههای اولیه (دهه ۱۹۶۰ تا ۲۰۰۰): از شبکههای عصبی تا تشخیص چهره
اگرچه تولید تصویر به شکل امروزی پدیدهای نوظهور است، اما پایههای نظری آن دههها پیش گذاشته شد. در دهههای ۱۹۶۰ و ۱۹۷۰، تحقیقات اولیه بر روی هوش مصنوعی با پروژههایی مانند چتبات ELIZA (ساخته شده در سال ۱۹۶۱) آغاز شد که توانایی تعامل با انسان از طریق زبان طبیعی را شبیهسازی میکرد. همزمان، تحقیقات بنیادین در زمینه شبکههای عصبی در حال شکلگیری بود. توسعه اولین شبکه عصبی چندلایه کاربردی به نام Cognitron در سال ۱۹۷۵ و به دنبال آن Neocognitron در سال ۱۹۷۹، که به عنوان اولین شبکه عصبی یادگیری عمیق شناخته میشود، گامهای مهمی در این مسیر بودند.
در کنار پیشرفتهای نرمافزاری، حوزه بینایی کامپیوتر نیز به آرامی در حال تکامل بود. تحقیقات اولیه در زمینه تشخیص چهره در دهه ۱۹۷۰ و بعدها، پروژههایی مانند «چالش بزرگ تشخیص چهره» (۲۰۰۴-۲۰۰۶) که توسط دولت ایالات متحده حمایت میشد، به ماشینها توانایی «دیدن» و تفسیر دادههای بصری را بخشید. این دستاوردها، اگرچه در زمان خود مستقیماً به تولید تصویر منجر نشدند، اما زیرساختهای لازم برای درک و پردازش تصاویر را فراهم کردند که بعدها برای آموزش مدلهای مولد ضروری بود.
تولد هوش مصنوعی مولد مدرن (۲۰۱۴-۲۰۲۰): ظهور GANs و Transformers
دهه ۲۰۱۰ شاهد دو نقطه عطف کلیدی بود که مسیر هوش مصنوعی مولد را برای همیشه تغییر داد.
سال ۲۰۱۴: معرفی شبکههای (GANs) توسط یان گودفلو و همکارانش، یک لحظه تاریخی بود. این معماری نوآورانه، اولین شبکههای عصبی عمیق کاربردی را ارائه داد که قادر به یادگیری مدلهای مولد برای دادههای پیچیدهای مانند تصاویر بودند. GANها توانستند تصاویری تولید کنند که به طرز شگفتانگیزی واقعی به نظر میرسیدند و این سرآغازی برای عصر جدیدی از خلاقیت ماشینی بود.
معماری Transformer و مدلهای GPT : در سال ۲۰۱۷، معرفی معماری Transformer، که در ابتدا برای پردازش زبان طبیعی طراحی شده بود، انقلابی دیگر در حوزه هوش مصنوعی ایجاد کرد. این معماری به مدلها اجازه میداد تا روابط پیچیده و دوربرد در دادهها را به شکل بهتری درک کنند. این نوآوری به سرعت به توسعه اولین ترنسفورمر از پیش آموزشدیده مولد (GPT-1) در سال ۲۰۱۸ منجر شد. در این دوره، مدلهای مبتنی بر GAN مانند StyleGAN نیز با تولید چهرههای انسانی فوقواقعگرایانه، توجه عموم را به خود جلب کردند و از طریق وبسایتهایی مانند "This Person Does Not Exist" به شهرت رسیدند.
این تاریخچه نشان میدهد که پیشرفت در این حوزه با دورههای طولانی تحقیقات بنیادین و سپس جهشهای انفجاری و کوتاه ناشی از یک نوآوری معماری خاص مشخص میشود. دههها کار بر روی شبکههای عصبی، زمینه را برای انقلاب GAN در سال ۲۰۱۴ فراهم کرد و به همین ترتیب، معماری Transformer نیز کاتالیزور موج دوم پیشرفتها از سال ۲۰۲۱ به بعد شد. این الگو نشان میدهد که پیشرفتهای آینده نیز احتمالاً به همین شکل خواهند بود: دورهای از ثبات نسبی که با یک نوآوری کلیدی دیگر شکسته خواهد شد.
انفجار بزرگ (۲۰۲۱ تاکنون): دال-ای، میدجرنی و استیبل دیفیوژن
آغاز دهه ۲۰۲۰، شاهد انفجاری در تواناییها و دسترسی عمومی به ابزارهای تولید تصویر بود که این فناوری را از آزمایشگاههای تحقیقاتی به دست میلیونها کاربر در سراسر جهان رساند.
• ۲۰۲۱: شرکت OpenAI با معرفی مدل DALL-E در ژانویه ۲۰۲۱، یک نقطه عطف جدید ایجاد کرد. این مدل قدرت یک ترنسفورمر عظیم را برای تولید تصاویر با کیفیت بالا از متن به نمایش گذاشت و تخیل عمومی را به تسخیر خود درآورد.
• ۲۰۲۲: این سال به عنوان سال «دموکراتیزه شدن» تولید تصویر با هوش مصنوعی شناخته میشود.
o DALL-E 2 (آوریل ۲۰۲۲) با جهشی قابل توجه در کیفیت و واقعگرایی، استانداردها را بالاتر برد.
o Midjourney (ژوئیه ۲۰۲۲) به صورت عمومی عرضه شد و به سرعت به دلیل سبک هنری متمایز و سینمایی خود، طرفداران بسیاری پیدا کرد.
o Stable Diffusion (اوت ۲۰۲۲) به عنوان یک مدل قدرتمند و متنباز (open-source) منتشر شد. این اتفاق، موج عظیمی از نوآوریهای جامعه-محور را به راه انداخت و به توسعهدهندگان و هنرمندان در سرا ر جهان اجازه داد تا این فناوری را به شیوههای جدیدی به کار گیرند و توسعه دهند.
انتشار عمومی ChatGPT در اواخر سال ۲۰۲۲ نیز این روند را تسریع کرد و هوش مصنوعی مولد را به یک اصطلاح شناختهشده در سطح جهانی تبدیل نمود.


