رقابت نفسگیر هوشمصنوعی با باهوشترین دانشآموزان جهان
هوش مصنوعی DeepMind در این مسابقه موفق شد تا به ۲۵ سوال از ۳۰ سوال مطرح شده پاسخ دهد و این در حالی بود که دارنده مدال طلای هندسه به ۲۶ سوال پاسخ داد.
سیستم توسعه یافته توسط DeepMind گوگل، رکورد جدیدی را از عملکرد هوش مصنوعی در حل مسائل هندسه را به نمایش گذاشت. این سیستم که AlphaGeometry نام دارد، توانست تا به ۲۵ سوال از ۳۰ سوال هندسهای که از المپیادهای جهانی بینالمللی ریاضی در بین سالهای ۲۰۰۰ تا ۲۰۲۲ استخراج شده بود، پاسخ دهد.
بدینترتیب این نرمافزار، از اکثریت ریاضیدانان جوان و برندگان مدال طلای IMO پیشی گرفته است. خود DeepMind پیشبینی کرده که یک دارنده مدال طلای المپیاد میتواند ۲۶ سوال از ۳۰ سوال را حل کند.
بسیاری از افراد IMO را معتبرترین مسابقه ریاضی جهان برای دانشآموزان دبیرستانی میدانند. DeepMind در این رابطه نوشت:« از آنجا که مدلهای زبانی در شناسایی الگوها و روابطعمومی در دادهها برتری دارند، این قابلیت را دارند که به سرعت به پیشبینی سازههای بالقوه مفید بپردازند. اما در اغلب مواقع توانایی استدلال دقیق یا توضیح تصمیمات خود را ندارند. از همین رو و برای غلبه بر این مشکل، DeepMind یک مدل زبان را با یک موتور کسر نمادین سنتیتر که استدلال جبری و هندسی را انجام میدهد، با هم همراه کرد.»
این تحقیق توسط Trieu Trinh، دانشمند کامپیوتر که اخیرا دکترای خود را از دانشگاه نیویورک گرفته، هدایت شد. ایوان چن، دارنده مدال طلای المپیاد سابق، بعد از ارزیابی برخی از خروجیهای AlphaGeometry، به تمجید از آن پرداخت و گفت:« این حیرتانگیز است؛ چرا که هم قابل تائید و هم تر و تمیز است.» این در حالی است که برخی از نرمافزارهای قبلی، اثباتهای پیچیدهای را برای هندسه ارائه میدادند که درک آن برای بازدیدکنندگان دشوار بود. اما خروجی AlphaGeometry مشابه آنچه که یک ریاضیدان مینویسد، خواهد بود.
AlphaGeometry بخشی از یک پروژه بزرگتر DeepmMind است که برای بهبود قابلیتهای استدلال مدلهای زبان بزرگ با ترکیب آنها با الگوریتمهای جستجوی سنتی به کار میرود. DeepMind مقالات متعددی در این باره منتشر کرده است.
راه حل DeepMind برای غلبه بر نقطه ضعفها
نقطه ضعف یک مدل زبان این است که در استدلال قیاسی عالی نیست؛ از همین رو تیم DeepMind یک معماری ترکیبی را توسعه دادهاند که یک موتور کسر نمادین به شکل مکانیکی نتایجی را به دست میآورد که به صورت منطقی از فرضیههای دریافتی ناشی میشوند و به شکل دورهای، کنترل به یک مدل زبان منتقل میشود که خلاقانهتر خواهد بود.
آنچه کار را دشوار میکند این است که برای آموزش یک مدل زبان جدید، به دادههای زیادی نیاز خواهد بود و این در حالی است که دادههای کافی درباره مسائل هندسی سخت و دشوار وجود ندارد؛ از همین رو ترین و همکارانش به جای تکیه بر مسائل هندسه طراحی شده توسط انسان، یک پایگاه داده عظیم از مسئلههای چالش برانگیز هندسه ایجاد کردند.
معرفی FunSearch
ماه گذشته بود که DeepMind، Funsearch را که یک مدل زبان برای تولید برنامههای کامپیوتری را معرفی کرد که از آن برای حل مسائل سخت ریاضی استفاده میشود. Funsearch به جای جستجوی درختی از الگوریتم ژنتیک برای کشف فضای برنامههای ممکن استفاده میکند. اما در سطح انتزاعیتر، از همان رویکرد اساسی AlphaGeometry بهره می برد.
شین لگ، یکی از بنیانگذاران و دانشمند ارشد DeepMind در این باره گفته:«این مدلهای پایه، یک نوع مدل جهانی هستند و برای حل خلاقانه مسئله، باید جستجو را آغاز کرد. برای خلاقیت بیشتر، باید در فضاهای احتمالی به جستجو پرداخته و این جواهرات پنهان شده را بیابید.»
Tree of Thoughts، FunSearch و اکنون AlphaGeometry همگی انواعی از این موضوع اصلی هستند. گرچه مدلهای زبان، منبع خوبی برای ایدههای امیدوارکننده هستند، اما در استدلال منطقی عالی نیستند. چرا که گاهی اشتباه میکنند یا گیج میشوند. بنابراین DeepMind با جاسازی مدلهای زبانی در سیستمهای بزرگتر آزمایش میکند که آیا میتوان در استدلال سیستماتیکتر شرکت داده شوند یا خیر.
از سوی دیگر شایعاتی وجود دارد که OpenAI روی رویکردهای مشابهی کار میکند. در نوامبر گذشته و با اخراج و استخدام مجدد سام آلتمن به عنوان مدیرعامل OpenAI، گزارشهایی درباره ساخت پروژه مرموز OpenAI به نام Q* منتشر شد که تلاشی برای ترکیب مدلهای زبان با الگوریتمهای جستجوی سنتیتر بوده است.
تردیدی نیست که این رویکرد پیشرفتهای مهمی را به همراه خواهد داشت. وجه اشتراک FunSearch و AlphaGeometry این است که هر دو به دامنههایی محدود میشوند که در آن ما روشهای خودکار ارزیابی راهحلهای پیشنهادی را داریم و این بدان معناست که مدلهای زبانی نیازی به درک عمیق مسائلی که در حال حل آنها هستند را ندارند.
منبع: arstechnica