ChatGPT o1 جدید سخت ترین مسابقه تلویزیونی بریتانیا را به چالش می کشد

خدمات سئو سایت
مدل جدید حل مسئله ChatGPT سوالات Only Connect را کرک کرد
AFP از طریق Getty ImagesOnly Connect به طور گسترده به عنوان سخت‌ترین مسابقه تلویزیونی بریتانیا در نظر گرفته می‌شود – اما با مدل جدید هوش مصنوعی ChatGPT همخوانی ندارد.
OpenAI روز پنجشنبه پیش نمایشی از مدل جدید هوش مصنوعی o1 خود را معرفی کرد که به ادعای این شرکت برای “استدلال در کارهای پیچیده و حل مسائل سخت تر از مدل های قبلی در کدنویسی علمی و ریاضی” طراحی شده است.
در حالی که مدل‌های قبلی هوش مصنوعی این شرکت اغلب به سؤالات کاملاً اساسی برخورد می‌کردند، مثلاً چند بار حرف R در کلمه Strawberry ظاهر می‌شود، مدل جدید طوری طراحی شده است که بیشتر شبیه یک شخص پاسخ دهد. OpenAI در یک پست وبلاگی که پیش‌نمایش o1 را اعلام کرد، ادعا کرد: «از طریق آموزش، آنها یاد می‌گیرند که فرآیند تفکر خود را اصلاح کنند، استراتژی‌های مختلف را امتحان کنند و اشتباهات خود را تشخیص دهند.
مدل جدید – و همتای آن o1-mini – بسیار مهم است، یک گام بالقوه به هدف OpenAI برای ایجاد مدل‌های هوش مصنوعی که «عموماً باهوش‌تر از انسان‌ها» هستند، به اصطلاح هوش عمومی مصنوعی. همچنین یکی از بزرگ‌ترین نقص‌های هوش مصنوعی تا به امروز را برطرف می‌کند: فقدان «عقل سلیم» که بتواند اشتباهات ابتدایی آن را ببیند. OpenAI ادعا می کند که این مدل عملکردی مشابه Ph.D دارد. دانش آموزان در موضوعات چالش برانگیز مانند فیزیک و ریاضیات. با این حال، ویژگی‌هایی مانند مرور وب و آپلود فایل‌ها را شامل نمی‌شود، بنابراین «برای بسیاری از موارد رایج، GPT-4o در کوتاه‌مدت توانایی بیشتری خواهد داشت».
برای آزمایش، تصمیم گرفتم ببینم چگونه با یک سری سوالات از Only Connect کنار می آید. برای کسانی که با نمایش آشنا نیستند، این یک مسابقه معمولی نیست. شرکت کنندگان باید پیوندهای پیچیده بین کلمات یا عبارات، دنباله های کامل، یا عباراتی را که در آن تمام حروف صدادار از پاسخ ها حذف شده اند، حل کنند.
این مسابقه بدون عذرخواهی برای روشنفکران مطرح می‌شود و در بریتانیا که در بی‌بی‌سی پخش می‌شود، چیزی شبیه به یک فرقه مذهبی است.
در اینجا نحوه عملکرد AI حل مشکل ChatGPT با چهار دور سؤال از Only Connect آورده شده است. همه سوالات از کتاب مسابقه رسمی نمایش آمده است.
اطلاعات بیشتر از FORMFORBES ADVISORبهترین حساب های پس انداز پربازده سال 2024ByKevin PayneContributorبهترین حساب های پس انداز سود 5% در سال 2024ByCassidy HortonContributorConnectionها هوش مصنوعی توانست سرنخ های مسابقه پیچیده ای را به دست آورد.
getty دور اول مسابقه اتصالات است. نمایش به نوبت به شرکت کنندگان چهار سرنخ می دهد و آنها باید ارتباط بین آنها را پیدا کنند. در مسابقه، سرنخ‌ها یکی یکی به شرکت‌کنندگان داده می‌شود و امتیاز بیشتری برای دریافت پاسخ درست با سرنخ‌های کمتر به دست می‌آورند. برای این تست، من به ChatGPT هر چهار سرنخ را یکجا دادم.
به عنوان مثال، من از ChatGPT خواستم تا ارتباط بین چهار کلمه زیر را پیدا کند:

* ناشناس
*بی خبر
* بی تعصب
* نام اشتباه
پس از نه ثانیه تفکر، به درستی مشخص شد که همه این کلمات هیچ نقطه مقابل مثبتی در زبان انگلیسی ندارند.
حتی در بررسی ارتباط بین تولید باروت، دهانشویه رومی، غلیظ شدن پشم و علامت گذاری قلمرو سریعتر بود – همه آنها فرآیندهایی بودند که از نظر تاریخی شامل استفاده از ادرار می شدند.
فقط پنج ثانیه طول کشید تا ارتباط بین این چهار برقرار شود:

* مطلقاً هر کسی
* مرد در 3rd Rock from the Sun پیشتاز است
* تونل ها در فرار بزرگ
* رؤسای جمهور جفرسون، نیکسون و ترومن
متوجه شدید؟ همه آنها شامل تام، دیک و هری هستند. من از ChatGPT o1-preview پنج سوال Connections پرسیدم، و در این دور امتیاز پنج از پنج را کسب کرد.
SequencesSequences مشابه Connections است، از این نظر که همه کلمات با یک موضوع مشترک به هم مرتبط هستند. با این حال، در این دور، شرکت کنندگان باید بدون اینکه بدانند موضوع چیست، بررسی کنند که چهارمین مورد در دنباله چیست.
من با چیزی که فکر می کردم سخت بود شروع کردم، برای یافتن عبارت چهارم در این دنباله:

* 1485
* الیزابتی
* Regency
ChatGPT 12 ثانیه طول کشید تا قبل از اینکه به درستی تشخیص دهد که آنها دوره های تاریخی مورد استفاده برای سه سری اول کمدی تلویزیون بریتانیا، Blackadder هستند، فکر می کند، قبل از ارائه پاسخ چهارم: جنگ جهانی اول.
حتی تاثیرگذارتر، زمانی که به طور تصادفی سرنخ سوم را در دنباله زیر اشتباه تایپ کردم:

* ورود کاپیتان جیمز کوک
* Centuar پرتاب نیزه نور
* 2088 فو درامر
11 ثانیه طول کشید تا فکر کنیم، قبل از اینکه این لحظات نمادین در مراسم افتتاحیه المپیک متوالی بودند، فکر کنیم، و اینکه باید 2008 درامر فو برای المپیک 2008 پکن می بود نه 2088. پاسخ چهارم را اضافه کرد که ملکه الیزابت دوم با چتر نجات با جیمز باند برای لندن 2012. بسیار شگفت انگیز است، با توجه به اینکه سوال تا حدی نادرست بود!
فقط یک سوال ChatGPT را در این دور مطرح کرد. هنگامی که مورد بعدی به ترتیب برای:

*گندم
* تنظیم
* توقف
هوش مصنوعی متوجه شد که توالی مربوط به اعداد است. موضوع این است که چگونه اعداد به زبان فرانسوی صحبت می شود (huit، سپتامبر، شش برای هشت، هفت و شش). به نظر می‌رسید که ChatGPT متوجه این موضوع شده است، اما سپس پیشنهاد کرد که کلمه بعدی به ترتیب «hive» باشد، که یک هم‌آوای انگلیسی برای «پنج» است، نه اینکه بگوییم «sank» که می‌توانست هم‌آوای درستی برای «cinq» باشد. پس در این دور از پنج امتیاز چهار گرفت.
اتصال دیوارها هوش مصنوعی حتی با سخت‌ترین راندهای مسابقه مقابله کرد
getty دور بعدی بدون شک سخت ترین حل برای هوش مصنوعی است. به شرکت کنندگان 16 کلمه در یک شبکه (یا دیوار) 4×4 داده می شود و از آنها خواسته می شود که کلمات را به چهار گروه چهار نفره جدا کنند. هر گروه یک موضوع مشترک دارد.
برای سخت‌تر کردن زندگی، بازی شاه‌ماهی‌های قرمز را در ترکیب قرار می‌دهد: برخی کلمات می‌توانند بخشی از دو گروه باشند. برای مثال، در اینجا 16 کلمه از یکی از دیوارهای اتصال که از ChatGPT خواستم حل شود، آمده است:
1. کشیش 2. لافورد 3. نایت 4. پاپ 5. کرملین 6. سیناترا 7. مارتین 8. اسقف 9. کودک 10. دیکن 11. گرند اسلم 12. هاپمن 13. خواهر 14. دیویس 15. کانن 16. همسایه
این معماها واقعاً هوش مصنوعی را به تأمل واداشتند و در حالی که در حال پردازش بود، تا حدی «فرایند فکری» خود را آشکار کرد. به عنوان مثال، در مورد بالا، هنگامی که از طریق پیوندهای بالقوه شروع به کار کرد، «نقشه‌برداری عناوین شغلی» را بیان کرد.
پس از 88 ثانیه پاسخ صحیح را ارائه کرد. گروه 1 اعضای Rat Pack هستند (سیناترا، مارتین، دیویس، لافورد). این گروه همچنین می‌توانست شامل Bishop برای جوی بیشاپ باشد، اما ChatGPT متوجه شد که باید در گروه 2، اعضای روحانی (پاپ، اسقف، کشیش، دیکن) باشند. گروه 3 مسابقات تنیس بود (دیویس، هاپمن، کرملین و گرند اسلم)، و گروه 4 همگی می توانستند با “هود” (شوالیه، کودک، خواهر، کانن) تکمیل شوند. البته کانن و خواهر هم می توانستند در گروه روحانیت باشند.
این یک چالش بسیار سخت است، اما هوش مصنوعی آن را از بین برد. همانطور که برای دیوار اتصال دیگری انجام دادم به سمت آن پرتاب کردم. ChatGPT نزدیک بود که آن را به سه از سه تبدیل کند، اما دو گروه اشتباه کردند، به دنبال یک شاه ماهی قرمز شدند و متوجه یک سری کلماتی نشدند که می‌توان آن را با کلمه «ایست» دنبال کرد. هنوز هم برای درست کردن دو گروه و سه اتصال امتیازی در مسابقه کسب می کند. به طور کلی، از 30 امتیاز ممکن در مسابقه، 25 امتیاز را کسب می کرد.
صدادارهای گمشده دور آخر مسابقه، صدادارهای گمشده است، که در آن به شرکت کنندگان یک موضوع داده می شود و باید سرنخ هایی را که مصوت ها از آنها حذف شده است، شناسایی کنند. برای سخت تر کردن آن، کلمات به طور متناقض با هم فاصله دارند. بنابراین، برای مثال، اگر پاسخ این بود:
خرس های شیکاگو
ممکن است در دور حروف صدادار گمشده به صورت زیر ظاهر شود:
THC HCGB RS
فکر می‌کردم این ساده‌ترین مرحله برای کرک کردن هوش مصنوعی است، اما در اولین تلاش خود هر چهار پاسخ را اشتباه گرفت. و سپس متوجه شدم… من به طور تصادفی به مدل قدیمی GPT-4o بازگشته بودم و نه به o1-preview. وقتی همان مجموعه کلمات را روی مدل جدید گذاشتم، نمره عالی گرفت.
برای مرجع، چهار سرنخ عبارت بودند از:

* FRT NTM STHR
* TMC NMB RFM LYB DNM
* SP TSNT WDC
* LFT HNVR SNDV RYT HNG
و موضوع “آنها برابر با 42 هستند.”
ChatGPT دقیقا 11 ثانیه طول کشید و سپس پاسخ های زیر را ارائه کرد:
چهارده بار سه
(14 × 3 = 42)
عدد اتمی مولیبدن
(عدد اتمی مولیبدن 42 است)
نقاط روی دو تاس
(هر قالب دارای 21 نقطه است؛ 21 × 2 = 42)
زندگی، جهان و همه چیز
(طبق راهنمای داگلاس آدامز «هیچ‌هایکر برای کهکشان»، پاسخ به زندگی، جهان و همه چیز 42 است)
من دوست دارم ChatGPT را در دورهای بیشتر Missing Vowels آزمایش کنم، اما تا این زمان تمام اعتبارات پیش نمایش خود را رایت کرده بودم، به این معنی که باید تا هفته آینده منتظر بمانم تا دوباره از مدل استفاده کنم. بنابراین، در یک آزمون کوتاه، چهار از چهار را کسب کرد.
ChatGPT o1-Preview Verdict توانایی هوش مصنوعی برای حل مشکلات کلمه حتی نسبتاً پیچیده واقعاً خیره کننده است. روشی که هوش مصنوعی در هنگام حل مشکلات، کنار گذاشتن برخی نظریه ها و بازگشت به برخی دیگر تا زمانی که پاسخ صحیح را پیدا کند، به همان اندازه چشمگیر است.
این بی عیب نیست، اما یک گام بزرگ رو به جلو در پیچیدگی مدل قبلی است. و به اندازه کافی باهوش است که در سخت ترین مسابقه تلویزیونی بریتانیا شرکت کننده برنده باشد.
من را در توییتر یا لینکدین دنبال کنید. وب سایت من را بررسی کنید. Barry CollinsFollowingBarry Collins بیش از 20 سال است که نویسنده و ویراستار فناوری است. او پیشرفت‌های جدید در رایانه‌های شخصی، مک، بازی و موارد دیگر، از جمله بحران CrowdStrike را پوشش می‌دهد. او دستیار سردبیر بخش فناوری ساندی تایمز، سردبیر مجله PC Pro بود و در طول سال‌ها برای بیش از ده‌ها نشریه و وب‌سایت مختلف نوشته است. . اگر یک داستان فنی دارید که نیاز به شکستن دارد، با barry@mediabc.co.uk تماس بگیرید.”>

* استانداردهای تحریریه
* جوایز فوربس

اتوخبری - اخبار روز خودرو

توسطautokhabari

توسط autokhabari

پست های مرتبط

تاریخ نهمین دوره اولویت‌بندی محصولات ایران‌خودرو اعلام شد (آبان ۱۴۰۴)

معرفی هوندا سوپر وان، هاچ‌بک برقی با صدای موتور و شبیه‌ساز تعویض دنده

قیمت گوشت گوسفندی و گوساله امروز ۹ آبان

You missed

تاریخ نهمین دوره اولویت‌بندی محصولات ایران‌خودرو اعلام شد (آبان ۱۴۰۴)

معرفی هوندا سوپر وان، هاچ‌بک برقی با صدای موتور و شبیه‌ساز تعویض دنده

قیمت گوشت گوسفندی و گوساله امروز ۹ آبان

ایران‌خودرو بازهم افزایش قیمت داد| هایما ۲۳۰ میلیون گران شد

اتوخبری - اخبار روز خودرو