شرکتهای پیشرو طی سالهای اخیر مدلها و چتباتهای پیشرفتهای را برای تثبیت جایگاه برند خود در بازار پرشتاب هوش مصنوعی معرفی کردهاند؛ بازاری که دنبالکردن تحولاتش همچنان ساده نیست و با وجود پیشرفتهای فنی، کاربران همچنان از توهمزایی و پاسخهای نادرست در تعامل با این مدلها گلایه دارند.
به گزارش زومیت، Microsoft Research و Salesforce در پژوهشی مشترک با تحلیل بیش از ۲۰۰ هزار مکالمهی مرتبط با مدلهایی مانند GPT-4.1، Gemini 2.5 Pro، Claude 3.7 Sonnet، o3، DeepSeek R1 و Llama 4، نشان دادند که مدلهای زبانی بزرگ در مکالمههای چندمرحلهای دچار افت عملکرد میشوند و بهاصطلاح «در گفتوگو گم میشوند».
طبق تحقیقات، نرخ موفقیت مدلهایی مانند GPT-4.1 و Gemini 2.5 Pro در سناریوهای تکدرخواستی به حدود ۹۰ درصد میرسد؛ اما عملکرد همین مدلها در گفتوگوهای رفتوبرگشتی طولانی با کاهش محسوسی روبهرو میشود و میانگین موفقیت آنها به نزدیک ۶۵ درصد سقوط میکند.
پژوهش مایکروسافت نشان میدهد افت کیفیت لزوماً بهمعنای کاهش چشمگیر توانایی نیست. در واقع، گفته میشود هرچه بیشتر با چتباتها صحبت کنید، دقتشان کمتر خواهد شد.
تحلیلها همچنین از بروز پدیدهای با عنوان «تورم پاسخ» حکایت دارند؛ بهگونهای که طول خروجیها در مکالمههای چندنوبتی بین ۲۰ تا ۳۰۰ درصد افزایش مییابد. پاسخهای مفصلتر فرضیات بیشتری وارد متن میکنند و احتمال توهمزایی را بالا میبرند؛ خطاهایی که سپس بهعنوان زمینهی دائمی گفتوگو استفاده میشوند.
در شرایطی که استفاده از ابزارهای هوش مصنوعی بهسرعت گسترش پیدا میکند و قابلیتهایی مانند Google AI Overviews به تجربهی جستوجوی افزوده شدهاند، کنارگذاشتن موتورهای جستوجوی سنتی و اتکا به پاسخهای تولیدشده با مدلهای هوش مصنوعی میتواند ریسکپذیر باشد.
پربیننده ترین پست همین یک ساعت اخیر
«جو دوسر» سطح کلسترول را کاهش میدهد
خبر بعد نظرات کاربران خبر قبل
اشتراک گذاری :
زنان را بزنید چی میشود؟ قانون افغانستان از شما حمایت میکند!
تماشاخانه
<?xml version="1.0" encoding="iso-8859-1"?>
روزه ، بدن را وارد «اتوفاژی» می کند و سلول های خطرناک را از بین می برد
چرا یکی از بهترین افتتاحیههای تاریخ سینمای ایران در کلاسهای فیلمنامه نویسی جهان تدریس میشود؟ (تماشا کنید)
فیلم های دیگر
۱۵ سال پیش در چنین روزی
این لحظه با حافظ
گلستان سعدی
آموزش زبان انگلیسی