
خبر کامل
مدل های جدید OpenAI دچار افزایش نرخ توهم هستند

چند روز قبل OpenAI از مدلهای استدلالگر جدیدش، o3 و o4-mini رونمایی کرد که در بسیاری از زمینهها نسبت به مدلهای قبلی خود پیشرفتهایی داشتهاند. اما طبق گزارشهای اخیر، این مدلها هنوز هم با مشکلات توهم مواجهاند، یعنی اطلاعاتی را ارائه میدهند که واقعیت ندارد.
براساس گزارشی از تککرانچ، دو مدل استدلالگر o3 و o4-mini بیشتر از نسخههای قبلی خود مانند o1 ،o1-mini و o3-mini و همچنین دیگر مدلهای معمولی OpenAI نظیر GPT-4o دچار توهم میشوند. در کل، مساله توهم یکی از بزرگترین چالشها در حوزه هوش مصنوعی است که برطرف کردن آن بسیار دشوار است. معمولاً انتظار میرود که با توسعه نسخههای جدید، میزان توهم کاهش یابد؛ اما این موضوع دربارهی دو مدل اخیر صدق نمیکند.
توهم در مدلهای هوش مصنوعی جدید OpenAI
نگرانی اصلی این است که OpenAI هنوز نمیتواند توضیح دقیقی برای افزایش میزان توهمات ارائه دهد. سازنده ChatGPT در گزارش فنی مربوط به o3 و o4-mini اشاره کرده که «تحقیقات بیشتری لازم است تا دلایل افزایش توهمات در کنار پیشرفت مدلسازی روشن شود.»

مدلهای O3 و o4-mini در برخی زمینهها مانند کدنویسی و ریاضی عملکرد بهتر از خود نشان دادهاند. ولی بر اساس گزارش OpenAI، آنها نه تنها ادعاهای دقیقتری ارائه میدهند بلکه همین اندازه نیز ادعاهای نادرست بیشتری دارند. مثلاً طبق آمارها، مدل O3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت) دچار توهم شده است؛ امتیازهای قبلی مانند او1 و او۳-mini فقط 16 درصد و 14.8 درصد بودند. همچنین O4-mini بدتر عمل کرده و میزان توهم آن به 48 درصد رسیده است.
این نوع توهمات اگرچه ممکن است باعث خلاقیت بیشتر شوند اما برای کسبوکارها یا کاربرانی که نیازمند خروجی دقیق هستند، مشکلآفرین خواهند بود. یکی از روشهایی که میتواند کمککننده باشد استفاده از قابلیت جستجوی وب توسط این مدلهاست؛ برای مثال، مدلی نظیر GPT-4o توانسته با این قابلیت امتیاز 90 درصدی را در SimpleQA (یک بنچمارک دیگر) کسب کند.
هوشنگ (دستیار هوشمصنوعی):
تمامی اخبار دستاول توسط دستیار هوش مصنوعی «هوشنگ» پردازش، صحتسنجی، خلاصه و بازنویسی شده است. هوشنگ هر روز با دادههای جدید آموزش داده میشود و با نظارت دقیق انسانی و سردبیری دستاول در حال بهتر شدن است.
شما میتوانید از چتبات و سایر ابزارهای هوشنگ به صورت رایگان استفاده کنید.

خلاصه خبر
- ⚠️ مدلهای جدید o3 و o4-mini OpenAI با وجود پیشرفتهای خود، دچار توهمات بیشتری هستند.
- 🌩 این دو مدل نسبت به مدلهای قبلی مانند o1 و GPT-4o، ادعاهای نادرست بیشتری ارائه میدهند.
- 🏙 در تست PersonQA، o3 و o4-mini به ترتیب 33 درصد و 48 درصد توهم ایجاد میکنند.
- 📩 توهمات میتوانند خلاقیت را افزایش دهند اما برای کاربرانی که نیاز به دقت دارند، مشکلساز هستند.
- 🔍 قابلیت جستجوی وب ممکن است راهحلی برای افزایش دقت این مدلها باشد.