آیکون خبر

خبر کامل

مدل های جدید OpenAI دچار افزایش نرخ توهم هستند

مدل های جدید OpenAI دچار افزایش نرخ توهم هستند

چند روز قبل OpenAI از مدل‌های استدلال‌گر جدیدش، o3 و o4-mini رونمایی کرد که در بسیاری از زمینه‌ها نسبت به مدل‌های قبلی خود پیشرفت‌هایی داشته‌اند. اما طبق گزارش‌های اخیر، این مدل‌ها هنوز هم با مشکلات توهم مواجه‌اند، یعنی اطلاعاتی را ارائه می‌دهند که واقعیت ندارد.

 

براساس گزارشی از تک‌کرانچ، دو مدل استدلال‌گر o3 و o4-mini بیشتر از نسخه‌های قبلی خود مانند o1 ،o1-mini و o3-mini و همچنین دیگر مدل‌های معمولی OpenAI نظیر GPT-4o دچار توهم می‌شوند. در کل، مساله توهم یکی از بزرگ‌ترین چالش‌ها در حوزه هوش مصنوعی است که برطرف کردن آن بسیار دشوار است. معمولاً انتظار می‌رود که با توسعه نسخه‌های جدید، میزان توهم کاهش یابد؛ اما این موضوع درباره‌ی دو مدل اخیر صدق نمی‌کند.

توهم در مدل‌های هوش مصنوعی جدید OpenAI

نگرانی اصلی این است که OpenAI هنوز نمی‌تواند توضیح دقیقی برای افزایش میزان توهمات ارائه دهد. سازنده ChatGPT در گزارش فنی مربوط به o3 و o4-mini اشاره کرده که «تحقیقات بیشتری لازم است تا دلایل افزایش توهمات در کنار پیشرفت مدلسازی روشن شود.»

مدل های جدید OpenAI دچار افزایش نرخ توهم هستند

مدل‌های O3 و o4-mini در برخی زمینه‌ها مانند کدنویسی و ریاضی عملکرد بهتر از خود نشان داده‌اند. ولی بر اساس گزارش OpenAI، آنها نه تنها ادعاهای دقیق‌تری ارائه می‌دهند بلکه همین اندازه نیز ادعاهای نادرست بیشتری دارند. مثلاً طبق آمارها، مدل O3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت) دچار توهم شده است؛ امتیازهای قبلی مانند او1 و او۳-mini فقط 16 درصد و 14.8 درصد بودند. همچنین O4-mini بدتر عمل کرده و میزان توهم آن به 48 درصد رسیده است.

این نوع توهمات اگرچه ممکن است باعث خلاقیت بیشتر شوند اما برای کسب‌وکارها یا کاربرانی که نیازمند خروجی دقیق هستند، مشکل‌آفرین خواهند بود. یکی از روش‌هایی که می‌تواند کمک‌کننده باشد استفاده از قابلیت جستجوی وب توسط این مدل‌هاست؛ برای مثال، مدلی نظیر GPT-4o توانسته با این قابلیت امتیاز 90 درصدی را در SimpleQA (یک بنچمارک دیگر) کسب کند.

شناسنامه خبر:

هوشنگ (دستیار هوش‌مصنوعی):

تمامی اخبار دست‌اول توسط دستیار هوش مصنوعی «هوشنگ» پردازش، صحت‌سنجی، خلاصه و بازنویسی شده است. هوشنگ هر روز با داده‌های جدید آموزش داده می‌شود و با نظارت دقیق انسانی و سردبیری دست‌اول در حال بهتر شدن است.
شما می‌توانید از چت‌بات و سایر ابزارهای هوشنگ به صورت رایگان استفاده کنید.

دسترسی رایگان به هوشنگ ↗

زمان انتشار:

09:01 - 1404/01/30
آیکون هوش مصنوعی

خلاصه خبر

  • ⚠️ مدل‌های جدید o3 و o4-mini OpenAI با وجود پیشرفت‌های خود، دچار توهمات بیشتری هستند.
  • 🌩 این دو مدل نسبت به مدل‌های قبلی مانند o1 و GPT-4o، ادعاهای نادرست بیشتری ارائه می‌دهند.
  • 🏙 در تست PersonQA، o3 و o4-mini به ترتیب 33 درصد و 48 درصد توهم ایجاد می‌کنند.
  • 📩 توهمات می‌توانند خلاقیت را افزایش دهند اما برای کاربرانی که نیاز به دقت دارند، مشکل‌ساز هستند.
  • 🔍 قابلیت جستجوی وب ممکن است راه‌حلی برای افزایش دقت این مدل‌ها باشد.
دانلود اپلیکیشن موبایل

عضویت در ایمیل خبرنامه

ما هر روز یک روزنامه خبری از گلچین اخبار روز را برای شما ارسال می‌کنیم و
هیچ‌وقت مزاحمت ایجاد نمی‌کنیم.


دست اولدست اول

مرجع اخبار و مطالب خواندنی از صدها خبرگزاری که توسط هوش مصنوعی بازنویسی و خلاصه شده.