جستجو
برای جستجو متن مورد نظر وارد کنید و Enter بزنید برای بستن Esc بزنید.
متا تنها دو ماه پس از عرضه مدل قبلی هوش مصنوعی خود، با معرفی Llama 3.2، نخستین مدل متنباز و چندوجهی خود که علاوه بر پردازش متون، قادر به پردازش تصاویر، جداول، نمودارها و کپشن عکسها است، بازگشته است.
مدل جدید Llama 3.2 به توسعهدهندگان این امکان را میدهد تا اپلیکیشنهای هوش مصنوعی پیشرفتهای مانند اپلیکیشنهای واقعیت مجازی، موتورهای جستجوی بصری که تصاویر را بر اساس محتوا مرتب میکنند، یا ابزارهایی برای تحلیل اسناد و خلاصهسازی متون طولانی بسازند. این مدل میتواند بهطور همزمان با دادههای متنی و تصویری کار کند و این ویژگیها باعث میشود تا توسعهدهندگان با اضافه کردن حالت چندوجهی جدید، امکان تعامل با تصاویر و فایلهای بصری را فراهم کنند.
با توجه به اینکه شرکتهای OpenAI و گوگل پیشتر مدلهای چندوجهی خود را معرفی کرده بودند، متا با Llama 3.2 تلاش میکند تا از رقبا عقب نماند و به جایگاه بهتری دست یابد. افزودن قابلیت پردازش تصویر به این مدل، نقشی کلیدی در آینده برنامههای متا ایفا میکند؛ چراکه این شرکت در حال توسعه هوش مصنوعی برای سختافزارهایی مانند عینکهای هوشمند متا ریبن است.
مدل Llama 3.2 در دو نسخه بینایی (با 11 و 90 میلیارد پارامتر) و دو نسخه متنی (با 1 و 3 میلیارد پارامتر) عرضه شده است. نسخههای کوچکتر این مدل بهگونهای طراحی شدهاند که بتوانند با سختافزارهای کوالکام، مدیاتک و سایر دستگاههای مبتنی بر آرم کار کنند و متا احتمالاً در نظر دارد این مدلها را به گوشیهای هوشمند نیز وارد کند.
متا اعلام کرده است که Llama 3.2 در زمینه تشخیص تصویر و درک عناصر بصری، رقیبی جدی برای مدلهای Claude 3 Haiku از انتروپیک و GPT4o-mini از OpenAI است. با این حال، در حوزههایی مانند دنبالکردن دستورات، خلاصهسازی محتوا و بازنویسی پرامپت، عملکرد بهتری نسبت به مدلهای Gemma و Phi 3.5-mini دارد.
این مدلها هماکنون از طریق وبسایت Llama.com و پلتفرمهای همکار متا مانند Hugging Face در دسترس هستند.
دیدگاهتان را بنویسید!
برای نوشتن دیدگاه باید وارد بشوید.