سینا | تاریخچه تکامل تولید تصویر با هوش مصنوعی

تاریخچه تکامل تولید تصویر با هوش مصنوعی

مسیر تکامل تولید تصویر با هوش مصنوعی، داستانی جذاب از دهه‌ها تحقیق بنیادین است که با جهش‌های ناگهانی و انقلابی همراه بوده است. این فناوری که امروز در دسترس همگان قرار دارد، بر شانه غول‌هایی از دهه‌های گذشته ایستاده است. درک این سیر تاریخی به ما کمک می‌کند تا سرعت شگفت‌انگیز پیشرفت‌های اخیر و پتانسیل آینده آن را بهتر درک کنیم.

ریشه‌های اولیه (دهه ۱۹۶۰ تا ۲۰۰۰): از شبکه‌های عصبی تا تشخیص چهره

اگرچه تولید تصویر به شکل امروزی پدیده‌ای نوظهور است، اما پایه‌های نظری آن دهه‌ها پیش گذاشته شد. در دهه‌های ۱۹۶۰ و ۱۹۷۰، تحقیقات اولیه بر روی هوش مصنوعی با پروژه‌هایی مانند چت‌بات ELIZA (ساخته شده در سال ۱۹۶۱) آغاز شد که توانایی تعامل با انسان از طریق زبان طبیعی را شبیه‌سازی می‌کرد. همزمان، تحقیقات بنیادین در زمینه شبکه‌های عصبی در حال شکل‌گیری بود. توسعه اولین شبکه عصبی چندلایه کاربردی به نام Cognitron در سال ۱۹۷۵ و به دنبال آن Neocognitron در سال ۱۹۷۹، که به عنوان اولین شبکه عصبی یادگیری عمیق شناخته می‌شود، گام‌های مهمی در این مسیر بودند.
در کنار پیشرفت‌های نرم‌افزاری، حوزه بینایی کامپیوتر نیز به آرامی در حال تکامل بود. تحقیقات اولیه در زمینه تشخیص چهره در دهه ۱۹۷۰ و بعدها، پروژه‌هایی مانند «چالش بزرگ تشخیص چهره» (۲۰۰۴-۲۰۰۶) که توسط دولت ایالات متحده حمایت می‌شد، به ماشین‌ها توانایی «دیدن» و تفسیر داده‌های بصری را بخشید. این دستاوردها، اگرچه در زمان خود مستقیماً به تولید تصویر منجر نشدند، اما زیرساخت‌های لازم برای درک و پردازش تصاویر را فراهم کردند که بعدها برای آموزش مدل‌های مولد ضروری بود.

تولد هوش مصنوعی مولد مدرن (۲۰۱۴-۲۰۲۰): ظهور GANs و Transformers

دهه ۲۰۱۰ شاهد دو نقطه عطف کلیدی بود که مسیر هوش مصنوعی مولد را برای همیشه تغییر داد. سال ۲۰۱۴: معرفی شبکه‌های (GANs) توسط یان گودفلو و همکارانش، یک لحظه تاریخی بود. این معماری نوآورانه، اولین شبکه‌های عصبی عمیق کاربردی را ارائه داد که قادر به یادگیری مدل‌های مولد برای داده‌های پیچیده‌ای مانند تصاویر بودند. GANها توانستند تصاویری تولید کنند که به طرز شگفت‌انگیزی واقعی به نظر می‌رسیدند و این سرآغازی برای عصر جدیدی از خلاقیت ماشینی بود.
معماری Transformer و مدل‌های GPT : در سال ۲۰۱۷، معرفی معماری Transformer، که در ابتدا برای پردازش زبان طبیعی طراحی شده بود، انقلابی دیگر در حوزه هوش مصنوعی ایجاد کرد. این معماری به مدل‌ها اجازه می‌داد تا روابط پیچیده و دوربرد در داده‌ها را به شکل بهتری درک کنند. این نوآوری به سرعت به توسعه اولین ترنسفورمر از پیش آموزش‌دیده مولد (GPT-1) در سال ۲۰۱۸ منجر شد. در این دوره، مدل‌های مبتنی بر GAN مانند StyleGAN نیز با تولید چهره‌های انسانی فوق‌واقع‌گرایانه، توجه عموم را به خود جلب کردند و از طریق وب‌سایت‌هایی مانند "This Person Does Not Exist" به شهرت رسیدند.
این تاریخچه نشان می‌دهد که پیشرفت در این حوزه با دوره‌های طولانی تحقیقات بنیادین و سپس جهش‌های انفجاری و کوتاه ناشی از یک نوآوری معماری خاص مشخص می‌شود. دهه‌ها کار بر روی شبکه‌های عصبی، زمینه را برای انقلاب GAN در سال ۲۰۱۴ فراهم کرد و به همین ترتیب، معماری Transformer نیز کاتالیزور موج دوم پیشرفت‌ها از سال ۲۰۲۱ به بعد شد. این الگو نشان می‌دهد که پیشرفت‌های آینده نیز احتمالاً به همین شکل خواهند بود: دوره‌ای از ثبات نسبی که با یک نوآوری کلیدی دیگر شکسته خواهد شد.

انفجار بزرگ (۲۰۲۱ تاکنون): دال-ای، میدجرنی و استیبل دیفیوژن

آغاز دهه ۲۰۲۰، شاهد انفجاری در توانایی‌ها و دسترسی عمومی به ابزارهای تولید تصویر بود که این فناوری را از آزمایشگاه‌های تحقیقاتی به دست میلیون‌ها کاربر در سراسر جهان رساند. • ۲۰۲۱: شرکت OpenAI با معرفی مدل DALL-E در ژانویه ۲۰۲۱، یک نقطه عطف جدید ایجاد کرد. این مدل قدرت یک ترنسفورمر عظیم را برای تولید تصاویر با کیفیت بالا از متن به نمایش گذاشت و تخیل عمومی را به تسخیر خود درآورد.
• ۲۰۲۲: این سال به عنوان سال «دموکراتیزه شدن» تولید تصویر با هوش مصنوعی شناخته می‌شود. o DALL-E 2 (آوریل ۲۰۲۲) با جهشی قابل توجه در کیفیت و واقع‌گرایی، استانداردها را بالاتر برد.
o Midjourney (ژوئیه ۲۰۲۲) به صورت عمومی عرضه شد و به سرعت به دلیل سبک هنری متمایز و سینمایی خود، طرفداران بسیاری پیدا کرد.
o Stable Diffusion (اوت ۲۰۲۲) به عنوان یک مدل قدرتمند و متن‌باز (open-source) منتشر شد. این اتفاق، موج عظیمی از نوآوری‌های جامعه-محور را به راه انداخت و به توسعه‌دهندگان و هنرمندان در سرا ر جهان اجازه داد تا این فناوری را به شیوه‌های جدیدی به کار گیرند و توسعه دهند.
انتشار عمومی ChatGPT در اواخر سال ۲۰۲۲ نیز این روند را تسریع کرد و هوش مصنوعی مولد را به یک اصطلاح شناخته‌شده در سطح جهانی تبدیل نمود.

تاریخچه تکامل تولید تصویر با هوش مصنوعی

تاریخچه تکامل تولید تصویر با هوش مصنوعی

ریشه‌های اولیه (دهه ۱۹۶۰ تا ۲۰۰۰): از شبکه‌های عصبی تا تشخیص چهره

تولد هوش مصنوعی مولد مدرن (۲۰۱۴-۲۰۲۰): ظهور GANs و Transformers

انفجار بزرگ (۲۰۲۱ تاکنون): دال-ای، میدجرنی و استیبل دیفیوژن

مقالات