گوگل یک نسخه بهروز شده از هوش مصنوعی تصویرساز خود را از طریق سرویس AI Test Kitchen به همه در ایالات متحده ارائه داده است.
Imagen 3 گوگل اولین بار در ماه مه در مراسم I/O این شرکت معرفی شد، اما تنها هفته گذشته پس از انتشار مقاله تحقیقاتی توسط گوگل عرضه شد.
Imagen 3 مانند بسیاری از دیگر تولیدکنندگان تصویر هوش مصنوعی کار میکند: کاربران یک عبارت را وارد میکنند و حدود ۳۰ ثانیه صبر میکنند تا تصاویر شروع به ظاهر شدن کنند. گوگل میگوید که این مدل در زمان ارزیابی “ترجیح داده شده” نسبت به سایر مدلهای پیشرفته دیگر است.
در آزمایشهای PetaPixel، Imagen 3 به نظر میرسد که یک مدل متنی به تصویر با کیفیت است که با Midjourney یا DALL-E OpenAI رقابت میکند. علاوه بر این، Imagen 3 در حال حاضر برخلاف موارد مذکور بهصورت رایگان در دسترس است.
گوگل میگوید: “Imagen 3 مدل تولید متن به تصویر با بالاترین کیفیت ما است که قادر به تولید تصاویری با جزئیات بهتر، نورپردازی غنیتر و تعداد کمتری از نقصهای آزار دهنده نسبت به مدلهای قبلی ما است.”
“ما توانایی Imagen 3 را در درک عبارات به طور قابل توجهی بهبود دادهایم، که به مدلها کمک میکند تا طیف وسیعی از سبکهای بصری را ایجاد کرده و جزئیات کوچک را از عبارات طولانیتر به تصویر بکشند.”
گوگل همچنین امکان ویرایش تصاویر تولید شده را با استفاده از تکنیک درونپردازی (inpainting) ارائه میدهد. این روش به کاربر اجازه میدهد تا قسمتی از تصویر را انتخاب کرده و تغییر مورد نظر خود را اعمال کند.
بر خلاف تولید کننده تصویر هوش مصنوعی Grok از ایلان ماسک، گوگل محدودیتهایی بر روی Imagen 3 اعمال کرده است.
اوایل امسال، گوگل به دلیل اینکه هوش مصنوعی تصویرساز آن در Gemini متهم به اصلاح بیش از حد برای پیشداوریها و عملاً “حذف مردم سفیدپوست” شد، دچار مشکل شد. این مسئله باعث شد گوگل تولید کننده تصویر را به طور کامل حذف کند.
برای امتحان کردن Imagen 3، به وبسایت DeepMind مراجعه کنید.