OpenAI همواره قابلیتهای ChatGPT را گسترش داده است، از جمله افزودن دستیار صوتی هوش مصنوعی، درک فایلها و تصاویر، قابلیتهای پیشرفتهی تحقیقاتی، عاملهای هوش مصنوعی (AI agents) و موارد دیگر. بااینحال، یک خلأ بزرگ در میان این ویژگیها وجود داشت: یک تولیدکننده تصویر واقعاً قدرتمند.
روز سهشنبه، OpenAI قابلیت تولید تصویر با GPT-4o را معرفی کرد. این مدل تصویری بهطور قابل توجهی بهتر – اما کندتر – از مدلهای DALL-E است که قبلاً توسط OpenAI ارائه شده بودند. این مدل میتواند درخواستهای پیچیده را، مانند تولید تصاویر واقعگرایانه و حتی متون دقیق درون تصاویر، بهخوبی پردازش کند.
ارتقای قابل توجه در تولید تصویر
در یکی از دموی پخش زنده، سم آلتمن، مدیرعامل OpenAI، به همراه پژوهشگران گابریل گو و پرافولا دهاریوال، مدل GPT-4o را برای تولید یک عکس از زاویه دید خاص با یک بروشور حاوی متن زیاد آزمایش کردند. پس از چند ثانیه پردازش، مدل نهتنها ترکیب سینمایی درستی ارائه داد، بلکه تمامی متنها را بهدقت نمایش داد.
قابلیتهای جدید:
GPT-4o علاوه بر بهبود کیفیت تصویر، ویژگیهایی دارد که در مدلهای قبلی OpenAI وجود نداشتند، از جمله:
- تولید نسخههای متفاوت از یک تصویر (مثلاً تبدیل یک تصویر به سبک انیمه یا سلفی)
- پسزمینه شفاف و استفاده از رنگهای خاص بر اساس کد HEX
- امکان ترکیب تولید تصویر با قابلیتهای پیشرفتهی چت (مثلاً، اگر از مدل بخواهید “عنصر طنز” به تصویر اضافه کند، میتواند این درخواست را با قرار دادن متن یا جزئیات مناسب برآورده کند)
یکی از ویژگیهای جالب دیگر این است که کاربران میتوانند از طریق مکالمات چندمرحلهای تصویر را اصلاح کرده و نسخههای بهتری از آن را ایجاد کنند. از آنجا که GPT-4o به اینترنت دسترسی دارد، میتواند با در نظر گرفتن زمینههای قبلی، تصاویر جدیدی خلق کند.
دقت در اجرای دستورات:
مدل GPT-4o میتواند بین ۱۰ تا ۲۰ شیء مختلف را در یک تصویر قرار دهد، بنابراین کاربران قادر خواهند بود درخواستهایی با جزئیات زیاد را اجرا کنند.
تغییر در محدودیتهای محتوایی
یکی از تغییرات مهم در این مدل جدید، کاهش برخی محدودیتها در تولید محتوا است، مشابه آنچه مدل Grok ایلان ماسک ارائه میدهد. در پخش زنده، آلتمن اظهار داشت که قابلیت جدید میتواند محتوای حساستری تولید کند، اما “در حد معقول.” او در پستی در شبکه اجتماعی X نوشت:
«هدف ما این است که ابزار چیزی توهینآمیز تولید نکند، مگر اینکه کاربر بخواهد، که در این صورت، در حد معقول انجام شود. ما معتقدیم که آزادی فکری و کنترل این ابزار در دستان کاربران قرار گیرد، اما نظارت خواهیم کرد و بازخورد جامعه را در نظر خواهیم گرفت.»
بااینحال، OpenAI تأکید کرده است که درخواستهایی که سیاستهای محتوایی را نقض میکنند، مسدود خواهند شد. این شامل تصاویر سوءاستفاده از کودکان و دیپفیکهای جنسی است. همچنین، محدودیتهایی در تولید تصاویر با افراد واقعی در نظر گرفته شده که شامل محافظتهای شدید در برابر نمایش برهنگی و خشونت گرافیکی است.
چگونه به این قابلیت دسترسی داشته باشیم؟
ویژگیهای جدید تولید تصویر از امروز در ChatGPT و Sora در حال عرضه هستند. همهی کاربران – حتی کاربران رایگان – میتوانند از GPT-4o برای تولید تصویر استفاده کنند. اگر کسی بخواهد همچنان از مدل DALL-E استفاده کند، این گزینه از طریق یک GPT اختصاصی در دسترس خواهد بود. کاربران سازمانی و آموزشی نیز بهزودی به این قابلیت دسترسی پیدا خواهند کرد، و توسعهدهندگان نیز طی هفتههای آینده از طریق API به آن دسترسی خواهند داشت.