ابزار جدیدی می‌خواهد به مدل‌های بزرگ زبانی اعتبار ببخشد

مدل‌های بزرگ زبانی به تبحر در ارائه پاسخ‌های ساختگی شهرت دارند. موضوعی که از آن به عنوان توهم هوش مصنوعی یاد می‌شود و باعث شده تا بسیاری نتوانند واقعیت و دروغ این ابزارها را از یکدیگر تشخیص دهند، موضوعی که خطراتی را به دنبال دارد.

به گزارش پیوست، استارت‌آپی به نام Cleanlab که برآمد از آزمایشگاه رایانش کوانتومی دانشگاه MIT است، ابزاری برای کاربران حساس طراحی کرده تا با استفاده از آن اعتبار مدل‌ها را بسنجند. این ابزار که Trustworthy Language Model نام دارد براساس اعتبار خروجی مدل بزرگ زبانی به آن امتیازی بین ۰ و ۱ می‌دهد. با این کار مردم می‌توانند پاسخ‌های قابل اعتماد و غیرقابل اعتماد را از یکدیگر تشخیص دهند.

استارت‌آپ Cleanlab امیدوار است که با این ابزار از مدل‌های بزرگ زبانی گزینه جذاب‌تری برای کسب‌وکارهایی بسازد که نگران اعتبار و درستی پاسخ‌ها هستند. کرتیس نورتکات، مدیرعامل Cleanlab، می‌گوید: «به نظرم مردم می‌دانند که LLMها جهان را تغییر می‌دهند اما این توهم‌های لعنتی است که جلودارشان شده است.»

چت‌بات‌ها به سرعت در حال تبدیل شدن به اولین منبع اطلاعاتی هستند.موتورهای جستجو نیز روند بازطراحی خود پیرامون این فناوری را طی می‌کنند. نرم‌افزار آفیس که میلیارد‌ها نفر هرروز از آن برای کارهای متخلف استفاده می‌کنند حالا یک چت‌بات بومی را در کنار خود دارد. با این حال مطالعه‌ای که در ماه نوامبر توسط Vectara، استارت‌آپی که توسط کارکنان سابق گوگل بنیان‌گذاری شده است، منتشر شد نشان می‌دهد چت‌بات‌ها حداقل ۳ درصد از مواقع اطلاعات را از خودشان تولید می‌کند. شاید از نظر یک کاربر معمولی این نرخ اشتباه چندان زیاد نباشد اما کسب‌وکارها تحمل این سطح از خطر را ندارند.

ابزار شرکت Cleanlab را در حال حاضر چند شرکت از جمله گروه تحقیقاتی برکلی، یک شرکت مشاوره مستقر در انگلستان که در حوزه نزاع‌ها و تفحص‌های شرکت تخصص دارد،‌ استفاده می‌کنند. ایتیون کاتروپ، نایب‌رئیس شرکت تحقیقاتی برکلی، می‌گوید Trustworthy Language Model یا TLM اولین راه‌حل کارآمدی است که برای مشکل توهم دیده است: «TLM از شرکت Cleanlab قدرت هزاران پژوهشگر داده را در اختیار ما می‌گذارد.»

شرکت Cleanlab در سال ۲۰۲۱ فناوری را توسعه داد که خطاهای موجود در ۱۰ پایگاه داده مشهور در حوزه الگوریتم‌های یادگیری ماشینی را شناسایی کرد؛ این فناوری خروجی مدل را در قیاس با چندین مدل مختلف که براساس همان داده آموزش دیده‌اند ارزیابی می‌کند. چندین شرکت بزرگ از جمله گوگل، تسلا و Chase،‌ غول حوزه بانکی، در حال حاضر از این فناوری استفاده می‌کنند. TLM همان ایده را گرفته و بر چت‌بات‌ها اعمال می‌کند.

نورتکات در دمویی که هفته گذشته شرکت Cleanlab در اختیار مجله فناوری ام‌آی‌تی قرار داد، سوال ساده‌ای را از ChatGPT می‌پرسد: «حرف n چند مرتبه در کلمه enter وجود دارد؟» چت‌بات در پاسخ گفت «حرف n یک بار در کلمه enter وجود دارد.» این پاسخ صحیح نشانگر اعتبار است اما اگر این سوال را چند مرتبه دیگر بپرسید، ChatGPT در پاسخ می‌گوید: «حرف n دو بار در کلمه enter وجود دارد.»

همین مثال ساده نکته را روشن می‌کند. نورتکات، می‌؛وید بدون امتیازممکن است تصور کنید که پاسخ چت‌بات صحیح است. مشکل اینجاست که پژوهشگران داده‌ای که مدل‌های بزرگ زبانی را در شرایط پر خطر آزمایش می‌کنند با چند پاسخ صحیح گرماه شده و فرض را بر صحبت پاسخ‌های آینده می‌گذارند: «آنها امتحان می‌کنند، آنها چند مثال را بررسی می‌کنند و تصور می‌کنند که جواب می‌دهد. سپس کارهایی می‌کنند که به تصمیمات تجاری بدی منجر می‌شود.»

مدل TLM از چندین تکنیک برای برآورد امتیاز خود استفاده می‌کند. اول از همه پرسشی که از ابزار صورت گرفته به یک یا چند مدل بزرگ زبانی ارسال می‌شود. نورتکات می‌گوید این فناوری برای تمامی مدل‌ها از جمله سری GPT از اوپن‌ای‌آی جواب و یا مدل‌های متن بازی مثل DBRX که توسط شرکت هوش مصنوعی Databricks ساخته شده جواب می‌دهد. اگر پاسخ تمامی این مدل‌ها یکسان یا مشابه باشد، امتیاز بیشتری به پاسخ اختصاص می‌یابد.

بیشتر بخوانید: تصاویر جدید پیکسل ۹ پرو فولد لو رفت؛ گوشی تاشدنی مورد انتظار گوگل

در همین حال، TLM نسخه‌هایی از پرسش را با کمی تفاوت برای هرکدام از این مدل‌ها ارسال می‌کند که در آنها چند کلمه جابجا شده اما معنای آن یکسان است. در اینجا هم اگر پاسخ‌ها به هم شبیه یا یکسان باشند امتیاز بیشتری به پاسخ داده می‌شود. نورتاکت می‌گوید: «ما به طرق مختلف با آنها بازی می‌کنیم تا خروجی‌های متفاوتی بگیریم و ببینیم آیا آنها موافق هستند.»

این ابزار از مدل‌ها می‌خواهد تا پاسخ‌های یکدیگر را نیز بررسی کنند: «مثل اینکه بگوییم، این پاسخ من است، تو چه فکری می‌کنی؟ خب این پاسخ من، نظر تو چیست؟ می‌گذاریم صحبت کنند.» این تعاملات تحت نظارت قرار گرفته و سنجیده می‌شوند و سپس در امتیاز لحاظ خواهند شد.

نیک مک‌کنا، پژوهشگر کامپیوتر در موسسه تحقیقاتی مایکروسافت در کمبریج انگلستان، که روی مدل های بزرگ زبانی برای تولید کد کار می‌کند امیدوار است که این رویکرد می‌تواند مفید باشد. با این حال او به بی‌نقص بودن چنین رویکردی مشکوک است. او می‌گوید: «یکی از مشکلاتی که در توهم‌های مدل می‌بینیم این است که آنها می‌توانند خیلی ماهرانه این کار را انجام دهند.»

با این حال شرکت Cleanlab در چندین آزمای از مدل‌های بزرگ زبانی نشان می‌دهد که امتیاز این شرکت رابطه خوبی با دقت این پاسخ‌ها دارد. به عبارت دیگر، نمرات نزدیک به ۱ با پاسخ های صحیح همراه می شوند و نمرات نزدیک به ۰ هم با پاسخ‌های نادرست. آنها در آزمایش دیگری دریافتند که استفاده از TLM برای GPT-4 به پاسخ‌های قابل اعتماد‌تری نسبت به استفاده از GPT-4 به تنهایی منتهی می‌شود.

مدل‌های بزرگ زبانی متن را با پیش بینی محتمل‌ترین کلمه بعدی در جملات تولید می‌کنند. شرکت Cleanlab در نسخه‌های بعدی ابزار خود قرار است با اتکا به احتمالاتی که مدل برای پیش‌بینی خود استفاده کرده است،‌دقت امتیاز خود را افزایش دهد. این شرکت می‌خواهد به ارقامی که مدل به هر کلمه در فرهنگ لغت اختصاص می‌دهد دسترسی یابد. همین ارقام برای محاسبه احتمالات استفاده می شوند. یک سری از پلتفرم‌ها از جمله Bedrock از شرکت آمازون که کسب‌وکارها از آن برای اجرای مدل‌های بزرگ زبان استفاده می‌کنند،‌ چنین اطلاعاتی را ارائه می‌کنند.

شرکت Cleanlab این رویکرد را با داده‌های ارائه شده از گروه تحقیقاتی برکلی آزمایش کرده است. این شرکت باید ارجاعاتی که به مشکلات بهداشتی در هزاران مستند شرکتی ارائه شده را جستجو می‌کرد. چنین کاری به صورت دستی هفته‌ها زمان می‌برد. گروه تحقیقاتی برکلی با استفاده از TLM برای بررسی این مستندات متوجه شد که چت‌بات درمورد کدام مستندات کمترین اطمینان را دارد و در نتیجه این دسته از مستندات به صورت دستی بازبینی شدند. نورتکات می‌گوید این رویکرد بار کاری را تا ۸۰ درصد کاهش داد.

در آزمایش دیگری، شرکت Cleanlab با بانک بزرگی همکاری کرده است (نورتکات نام بانک را فاش نمی‌کند زیرا یکی از رقبای گلدمن ساکس است.) این بانک نیز همچون شرکت تحقیقاتی برکلی باید ارجاعات مربوط به بیمه را در ۱۰۰ هزار مستند جستجو می‌کرد. این بار هم TLM توانست تعداد مستنداتی که نیاز به بررسی دستی داشتند را به بیش از نصف کاهش دهد.

ارائه چندباره هر پرسش برای چندین مدل هزینه و زمان را به نسبت استفاده از یک چت‌بات افزایش می‌دهد اما Cleanlab می‌گوید TLM یک خدمت پر هزینه برای خودکارسازی وظایف مهمی است که در گذشته به مدل‌های بزرگ زبانی واگذار نمی‌شدند. قرار نیست چت‌بات‌ها جایگزین شوند بلکه شرایطی ایجاد می‌شود تا این ابزارها کار متخصصان انسانی را انجام دهند. نورتکات می‌گوید اگر این ابزار بتواند زمان مورد نیاز برای استخدام یک اقتصاددان یا وکیل را کاهش دهد، ارزش هزینه کردن را دارد.

نورتکات امیدوار است که این فناوری در بلند مدت با کاهش ابهام درمورد پاسخ‌های چت‌بات به کاربران بیشتری در استفاده از مدل‌های بزرگ زبانی کمک کند. او می‌گوید: «توهم تنها مشکل مدل بزرگ زبانی نیست،‌ مساله اصلی شک است.»

منبع