هوش مصنوعی مولد یا هوش مصنوعی زایشی (به انگلیسی: Generative artificial intelligence) نوعی هوش مصنوعی است که در پاسخ به درخواست کاربر، قادر به تولید متن، تصاویر یا دیگر رسانه است. مدلهای هوش مصنوعی مولد الگوها و ساختار دادههای آموزشی ورودی خود را یادمیگیرند و سپس دادههای جدیدی تولید میکنند. هوش مصنوعیهای مولد قابل توجه عبارتند از چتجیپیتی، یک بات مکالمه که توسط اوپنایآی با استفاده از مدلهای زبان اصلی جیپیتی-۳ و جیپیتی-۴ ساخته شدهاست. و بارد، یک بات مکالمه ساخته گوگل که با استفاده از مدل پایه لمدا ساخته شدهاست. از مدلهای هوش مصنوعی مولد هنری میتوان به استیبل دیفیوژن و میدجرنی و دال-ئی اشاره کرد.
هوش مصنوعی مولد کاربردهای بالقوه ای در طیف گستردهای از صنایع از جمله هنر، نوشتن، توسعه نرمافزار، مراقبتهای بهداشتی، مالی، بازی، بازاریابی و مد دارد. در اوایل دهه ۲۰۲۰ سرمایهگذاری بر روی هوش مصنوعی مولد افزایش یافت و شرکتهای بزرگی مانند مایکروسافت، گوگل و بایدو به همراه شرکتهای کوچک متعددی مدلهای هوش مصنوعی مولد را توسعه دادند. با این حال، نگرانیهایی در مورد سوء استفاده احتمالی از هوش مصنوعی مولد مانند ایجاد اخبار جعلی یا جعل عمیق وجود دارد که میتواند برای فریب دادن یا دستکاری مردم استفاده شود.
تاریخچه:
از زمان تأسیس، حوزه یادگیری ماشینی از مدلهای آماری از جمله مدلهای سازنده، برای مدلسازی و پیشبینی دادهها استفاده کردهاست. با شروع در اواخر دهه ۲۰۰۰، ظهور یادگیری عمیق باعث پیشرفت و تحقیق در پردازش تصویر و ویدئو، تجزیه و تحلیل متن، تشخیص گفتار و سایر وظایف شد. با این حال، اکثر شبکههای عصبی عمیق به عنوان مدلهای تمایز دهنده که وظایف طبقهبندی مانند طبقهبندی تصویر مبتنی بر شبکه عصبی کانولوشنال را انجام میدهند، آموزش دیدهاند.
در سال ۲۰۱۴، پیشرفتهایی مانند خودرمزگذار متغیر و شبکههای مولد رقابتی، اولین شبکههای عصبی عمیق عملی را تولید کردند که قادر به یادگیری مدلهای مولد، به جای مدلهای تماییزی از دادههای پیچیده مانند تصاویر بودند. این مدلهای مولد عمیق، اولین مدلهایی بودند که میتوانستند نه تنها برچسبهای کلاس را برای تصاویر، بلکه به عنوان خروجی تصویر تولید کنند.
در سال ۲۰۱۷، شبکه ترنسفورمر پیشرفتهایی را در مدلهای مولد ایجاد کرد که منجر به اولین ترنسفورمر از پیش آموزشدیده مولد در سال ۲۰۱۸ شد. این در سال ۲۰۱۹ توسط جیپیتی ۲ دنبال شد که توانایی تعمیم بدون نظارت را به بسیاری از وظایف مختلف به عنوان یک مدل بنیادی نشان داد.
در سال ۲۰۲۱، انتشار دال-ئی، یک مدل مولد پیکسل مبتنی بر ترنسفورمر، و به دنبال آن میدجرنی و استیبل دیفیوژن، ظهور هنر هوش مصنوعی کاربردی با کیفیت بالا را از درخواستهای زبان طبیعی نشان داد.
در ژانویه ۲۰۲۳، وبسایت Futurism.com خبری را منتشر کرد که رسانه سینت از یک ابزار هوش مصنوعی داخلی فاش نشده برای نوشتن حداقل ۷۷ داستان خود استفاده کردهاست. پس از انتشار این خبر، سینت اصلاحاتی را در ۴۱ فروشگاه ارسال کرد.
در مارس ۲۰۲۳، جیپیتی ۴ منتشر شد. گروهی از تحقیقات مایکروسافت استدلال کردند که «به طور منطقی میتوان آن را به عنوان یک نسخه اولیه (اما هنوز ناقص) از یک سیستم هوش جامع مصنوعی (AGI) در نظر گرفت».
در آوریل ۲۰۲۳، روزنامه آلمانی Die Aktuelle مصاحبه جعلی ایجاد شده توسط هوش مصنوعی با راننده سابق مسابقهای منزوی، مایکل شوماخر را منتشر کرد. این داستان شامل دو افشای احتمالی بود: روی جلد عبارت «بهطور فریبآمیز واقعی» بود، و در داخل مجله در پایان مصاحبه اذعان کرد که مصاحبه توسط هوش مصنوعی ساخته شدهاست. سردبیر مدت کوتاهی پس از آن در میان جنجال برکنار شد.
روش:
یک سیستم هوش مصنوعی مولد با استفاده از یادگیری ماشینی بدون نظارت یا خود نظارت بر مجموعه داده ساخته میشود. قابلیتهای یک سیستم هوش مصنوعی مولد به روش یا نوع مجموعه داده مورد استفاده بستگی دارد.
هوش مصنوعی مولد میتواند یک وجهی یا چندوجهی باشد. سیستمهای تکوجهی تنها یک نوع ورودی میگیرند، در حالی که سیستمهای چندوجهی میتوانند بیش از یک نوع ورودی بگیرند. برای مثال، یک نسخه از جیپیتی ۴ شرکت اوپنایآی ورودیهای متن و تصویر را میپذیرد.
متن: سیستمهای هوش مصنوعی مولد آموزشدیده بر روی کلمات یا نشانههای کلمه عبارتند از جیپیتی ۳، لمدا، لاما، بلوم، جیپیتی ۴ و موارد دیگر. آنها قادر به پردازش زبان طبیعی، ترجمه ماشینی، و تولید زبان طبیعی هستند و میتوانند به عنوان مدلهای پایه برای کارهای دیگر استفاده شوند. مجموعه دادهها شامل BookCorpus، ویکیپدیا، و موارد دیگر است).
کد: علاوه بر متن زبان طبیعی، مدلهای زبانی بزرگ را میتوان بر روی متن زبان برنامهنویسی آموزش داد که به آنها اجازه میدهد کد منبع برای برنامههای رایانهای جدید تولید کنند. به عنوان مثال میتوان به اوپنایآی کدکس اشاره کرد.
تصاویر: سیستمهای هوش مصنوعی مولد آموزشدیده بر روی مجموعههایی از تصاویر با شرح متن شامل Imagen شرکت گوگل برین, دال-ئی، میدجرنی, ادوبی فایرفلای, استیبل دیفیوژن و موارد دیگر هستند. آنها معمولاً برای تولید متن به تصویر و انتقال سبک عصبی استفاده میشوند. مجموعه دادهها شامل LAION-۵B و سایرین است.
مولکولها: سیستمهای هوش مصنوعی مولد را میتوان بر روی توالیهایی از آمینو اسیدها یا نمایشهای مولکولی مانند SMILES که نشان دهنده DNA یا پروتئینها هستند، آموزش داد. این سیستمها، مانند AlphaFold، برای پیشبینی ساختار پروتئین و داروپژوهی استفاده میشوند. مجموعه دادهها شامل مجموعه دادههای بیولوژیکی مختلف است.
موسیقی: سیستمهای هوش مصنوعی مولد مانند MusicLM را میتوان بر روی شکلهای موج صوتی موسیقی ضبطشده همراه با حاشیهنویسی متن آموزش داد تا نمونههای موسیقی جدیدی بر اساس توضیحات متنی مانند ملودی آرامشبخش ویولن با پشتوانه ریف گیتار تحریفشده تولید کنند.
ویدئو: هوش مصنوعی مولد آموزش دیده بر روی ویدئوی حاشیه نویسی میتواند کلیپهای ویدئویی منسجم زمانی تولید کند. مثالها عبارتند از Gen۱ و Gen۲ توسط RunwayML و Make-A-Video توسط متا پلتفرمز.
کنشهای ربات: هوش مصنوعی مولد آموزش دیده بر روی حرکات یک سیستم رباتیک میتواند مسیرهای جدیدی را برای برنامهریزی حرکت ایجاد کند. برای مثال، UniPi ساخته بخش تحقیقات گوگل از دستوراتی مانند «کاسه آبی را بردارید» یا «صفحه را با اسفنج زرد پاک کنید» برای کنترل حرکات بازوی ربات استفاده میکند.
منبع: دانشنامه ویکی پدیا