جستجو
برای جستجو متن مورد نظر وارد کنید و Enter بزنید برای بستن Esc بزنید.
هوش مصنوعی مدل ساز به سرعت از ساخت تصاویر ثابت فراتر رفته و اکنون انیمیشنها و ویدیوهای بسیار واقعگرایانه را با استفاده از دستورات متنی ساده تولید میکند. به تازگی محققانی از شرکت متا و دانشگاه آکسفورد یک ابزار جدید و قدرتمند معرفی کردهاند که قادر است دستورات متنی را به مدلهای سهبعدی دقیق تبدیل کند.
VFusion3D بهطور موفقیتآمیزی مشکل «دسترسی محدود» به دادههای سهبعدی را کنار زده و مدلهای بسیار چشمگیری ایجاد میکند. کاربران اینترنتی در حال حاضر این پتانسیل را دارند که این ابزار بتواند فرآیند طراحی شخصیتها را دگرگون کند.
مقالهای با عنوان “VFusion3D: یادگیری مدلهای سهبعدی مولد با مقیاسپذیری از مدلهای انتشار ویدئویی”، نوشته محققان جونلین هان، فیلیپوس کوکینوس و فیلیپ تور، توضیح میدهد که این مدل جدید قادر است “مدلهای سهبعدی مولد مقیاسپذیر را با استفاده از مدلهای انتشار ویدئویی پیشآموزشیافته بسازد.”
طبق گزارش VentureBeat، تیم تحقیقاتی یک مدل هوش مصنوعی ویدئویی موجود را بهینهسازی کرده تا دنبالههای ویدئویی چند نما تولید کند که به آن امکان میدهد اشیاء را از زوایای مختلف ببیند. نتایج نیز کاملاً قابل توجه است – مقاله چندین نمونه از تصاویر ثابت تبدیلشده به اشیاء سهبعدی را شامل میشود که هوش مصنوعی با دقت بسیار بالایی جزئیات را تکمیل کرده است.
مقدمه مقاله بیان میکند: “مهمترین مانع در توسعه مدلهای سهبعدی مولد پایه، دسترسی محدود به دادههای سهبعدی است. برخلاف تصاویر، متون یا ویدئوها، دادههای سهبعدی بهراحتی در دسترس نیستند و دستیابی به آنها دشوار است. این منجر به یک شکاف بزرگ در مقیاس نسبت به سایر انواع دادهها میشود.” برای حل این مشکل، ما پیشنهاد میکنیم از یک مدل انتشار ویدئویی، که با حجم گستردهای از متون، تصاویر و ویدئوها آموزش دیده است، به عنوان منبع دانشی برای دادههای سهبعدی استفاده شود. با فعالسازی قابلیتهای تولید چند نما از طریق بهینهسازی، ما یک مجموعه داده مصنوعی چند نما با مقیاس بزرگ ایجاد میکنیم تا یک مدل مولد سهبعدی پیشبینیکننده را آموزش دهیم. مدل پیشنهادی، VFusion3D، که با تقریباً 3 میلیون داده مصنوعی چند نما آموزش داده شده، میتواند در عرض چند ثانیه از یک تصویر، یک مدل سهبعدی ایجاد کند و در مقایسه با مدلهای پیشرفته مولد سهبعدی فعلی عملکرد بهتری داشته باشد، بهطوریکه کاربران در بیش از 90٪ مواقع نتایج ما را ترجیح میدهند.”
شما حتی میتوانید VFusion3D را خودتان امتحان کنید. یک نسخه نمایشی عمومی در سایت Hugging Face در دسترس است که به شما امکان میدهد تصاویر خود را وارد کنید یا از بین چند تصویر موجود از جمله پیکاچو و بیبی یودا انتخاب کنید.
از تصاویر وحشتناک واقعی Flux که در فضای مجازی منتشر شدهاند تا ویدیوهای ژیمناستیک تولید شده توسط هوش مصنوعی، محتوای تولید شده توسط هوش مصنوعی یا واقعیتر میشود یا ترسناکتر – و اغلب هر دو. اما نگران نباشید، گزارشهای اخیر نشان میدهند که تولیدکنندگان هوش مصنوعی ممکن است در نهایت خودشان را از بین ببرند.
دیدگاهتان را بنویسید!
برای نوشتن دیدگاه باید وارد بشوید.