راز احمقانه هوش مصنوعی

غزال زیاری: Scale AI متخصص درزمینهٔ تهیه حجم وسیعی از داده‌هایی که LLM ها در آن آموزش می‌بینند، با همکاری مرکز ایمنی هوش مصنوعی (CAIS) در ابتکار عملی متفاوت و خاص، طرحی به نام آخرین آزمون انسانیت (Humanity’s Last Exam) را راه‌اندازی کرده است.
Scale و CAIS جایزه‌ای ۵ هزار دلاری را برای کسانی که ۵۰ سؤال برتر منتخب این آزمون را طراحی کنند، تعیین کردند و دراین‌باره اعلام نمودند که هدف از این کار، آزمایش این موضوع است که ببینیم که چقدر به سیستم‌های هوش مصنوعی در سطح متخصص، با استفاده از بزرگ‌ترین و گسترده‌ترین ائتلاف کارشناسان در تاریخ نزدیک هستیم.
اما لزوم انجام این کار چیست؟ در حال حاضر، LLM های پیشرو، آزمایش‌های زیادی را درزمینهٔ هوش، ریاضیات و حقوق انجام داده‌اند، اما نمی‌توان مطمئن بود که این‌ها تا چه حد معنادار هستند. در بسیاری از مواقع، ممکن است به دلیل وجود حجم عظیمی از داده‌هایی که با آن‌ها آموزش‌دیده‌اند و همچنین اطلاعات بی‌پایان موجود در اینترنت، آن‌ها پاسخ‌ها را از قبل یاد گرفته باشند.

داده‌ها برای کل این حوزه، کلیدی و اساسی هستند. این در پس تغییر از محاسبات معمولی به هوش مصنوعی و یا به‌عبارتی‌دیگر از “گفتن” به “نشان دادن” به این ماشین‌هاست که چه‌کاری باید انجام دهند. این امر مستلزم مجموعه داده‌های آموزشی خوب و همچنین آزمایش‌های مناسبی است. توسعه‌دهندگان معمولاً این کار را با استفاده از داده‌هایی به نام “مجموعه داده‌های آزمایشی” انجام می‌دهند که قبلاً برای آموزش مورداستفاده قرار نگرفته بودند.
اگر LLM ها در حال حاضر نمی‌توانند از قبل، پاسخ تست‌های تعیین‌شده‌ای مثل آزمون‌های وکالت را بیاموزند، اما احتمالاً به‌زودی این کار را خواهند کرد. سایت تجزیه‌وتحلیل هوش مصنوعی Epoch تخمین زده که در سال ۲۰۲۸ هوش‌مصنوعی به شکل مؤثری هر آن‌چه تا امروز توسط انسان نوشته‌شده را خواهد خواند؛ اما چالش مهم این است که چگونه می‌توان پس‌ازاین مرحله، به ارزیابی هوش‌مصنوعی ادامه داد.

از آنجاکه اینترنت همیشه در حال گسترش است و روزانه میلیون‌ها آیتم جدید اضافه می‌شود، حالا سؤال مطرح‌شده اینجاست که آیا این موضوع، می‌تواند این مشکلات را برطرف کند؟
همین ماجرا منجر به مشکل موذی دیگری به نام “فروپاشی مدل” شده است؛ از آنجاکه اینترنت مرتباً با دیتاهای تولیدی توسط هوش‌مصنوعی پر می‌شود، همین ممکن است باعث عملکرد ضعیف هوش‌مصنوعی گردد و برای غلبه بر این مشکل، در حال حاضر بسیاری از توسعه‌دهندگان، مشغول جمع‌آوری داده‌ها از تعاملات انسانی هوش‌مصنوعی و افزودن داده‌های تازه برای آموزش و آزمایش هستند.
برخی از متخصصان استدلال می‌کنند که هوش مصنوعی هم باید تجسم شود: به معنی حرکت در دنیای واقعی و کسب تجربه، دقیقاً همان کاری که انسان‌ها انجامش می‌دهند. این شاید دور از ذهن به نظر برسد؛ اما باید بدانید که تسلا سال‌هاست این کار را با خودروهایش انجام داده است. مورد دیگر، ابزارهای پوشیدنی انسانی مثل عینک هوشمند متا و Ray-Ban است که به دوربین و میکروفون مجهز شده و می‌توان از آن‌ها برای جمع‌آوری مقادیر زیادی از داده‌های صوتی و تصویری انسان‌محور استفاده کرد.

تست‌های ظریف
حتی اگر چنین محصولاتی، داده‌های آموزشی کافی در آینده را تضمین کنند، هنوز معمای چگونگی تعریف و اندازه‌گیری هوش، به‌ویژه هوش مصنوعی عمومی (AGI) یعنی هوش مصنوعی که برابر یا فراتر از هوش انسان است، پابرجاست.
تست‌های سنتی IQ انسان، مدت‌هاست که به دلیل ناکامی در درک ماهیت چندوجهی هوش (که شامل همه‌چیز از زبان و ریاضیات گرفته تا همدلی می‌شود)، بحث‌برانگیز بوده است.
مشکل مشابهی هم در آزمایش‌های مورداستفاده در هوش مصنوعی وجود دارد. تست‌های ثابت زیادی وجود دارد که وظایفی مثل خلاصه کردن متن، درک آن، استنتاج صحیح از اطلاعات، تشخیص ژست‌های انسان و بینایی ماشین را پوشش می‌دهند.
هوش های مصنوعی تخصصی
برخی از آزمایش‌ها معمولاً به این دلیل که هوش مصنوعی در آن‌ها بسیار خوب عمل می‌کند، کنار گذاشته می‌شوند؛ اما آن‌ها آنقدر مختص انجام یک کار ویژه طراحی‌شده‌اند که معیارهای بسیار محدودی از هوش را ارائه می‌دهند؛ مثلاً شطرنج‌باز هوش مصنوعی Stockfish از مگنوس کارلسن، بهترین شطرنج‌باز انسانی تاریخ در سیستم رتبه‌بندی Elo پیشی گرفته است. بااین‌وجود ولی Stockfish در مسائل دیگری مثل درک زبان، توانایی خاصی ندارد و اشتباه است که توانایی‌های شطرنج هوش‌مصنوعی آن را با هوش گسترده‌تر ترکیب کنیم.

اما از آنجاکه حالا هوش مصنوعی رفتار هوشمندانه‌تری نشان می‌دهد، چالش اینجاست که معیارهای جدیدی برای مقایسه و اندازه‌گیری پیشرفت آن ایجاد شود. فرانسوا شوله، مهندس فرانسوی گوگل، دراین‌باره رویکرد جالبی را ارائه داده. او استدلال می‌کند که هوش واقعی در توانایی انطباق و تعمیم یادگیری به موقعیت‌های جدید و نادیده، نهفته است. او در سال ۲۰۱۹، با “جریان انتزاعی و استدلال” (ARC)، وارد عمل شد که درواقع مجموعه‌ای از پازل‌ها در قالب شبکه‌های بصری ساده‌ای بود که برای آزمایش توانایی هوش‌مصنوعی در استنتاج و اعمال قوانین انتزاعی طراحی‌شده بودند.
در معیارهای قبلی، تشخیص بصری اشیاء با آموزش یک هوش‌مصنوعی روی میلیون‌ها تصویری که هرکدام اطلاعاتی درباره اشیاء موجود داشتند، آزمایش می‌شد؛ اما این بار به ARC، از قبل حداقل نمونه‌های ممکن ارائه شد. این هوش مصنوعی می‌بایست منطق پازل را دریافته و نمی‌توانست تمام پاسخ‌های ممکن را بیاموزد.
گرچه حل آزمایش‌های ARC برای انسان آن‌قدرها سخت نیست، اما برای اولین سیستم هوش‌مصنوعی که به امتیاز ۸۵ درصد برسد، جایزه ۶۰۰ هزار دلاری تعیین شد که در حال حاضر، با آن نقطه فاصله زیادی داریم. دو LLM پیشرو اخیر، یعنی پیش‌نمایش o۱ OpenAI  و  Sonnet ۳.۵ Anthropic، هر دو امتیاز ۲۱% را در جدول امتیازات عمومی ARC کسب کردند.

سیستم OpenAI’s GPT-۴o امتیاز ۵۰٪ را به دست آورد که البته تا حدودی بحث‌برانگیز بود؛ چرا که این رویکرد هزاران راه‌حل ممکن را قبل از انتخاب راه‌حلی که بهترین پاسخ را برای آزمایش می‌داد ایجاد کرد که حتی این هم با امتیاز تعیین‌شده برای جایزه یا با عملکرد انسانی (بیش از ۹۰ درصد)، فاصله زیادی داشت.
در شرایط فعلی، ARC  به‌عنوان یکی از معتبرترین تلاش‌ها برای آزمایش هوش‌واقعی در هوش‌مصنوعی به شمار می‌رود ولی ابتکار Scale/CAIS نشان می‌دهد که جستجو برای معرفی جایگزین‌های قانع‌کننده ادامه دارد.
ما باید بدانیم که ماشین‌ها چه زمانی با تمام سؤالات ایمنی و اخلاقی‌ای که این موضوع ایجاد می‌کند، به استدلال در سطح انسانی نزدیک می‌شوند. در آن مرحله، احتمالاً با یک سؤال امتحانی حتی سخت‌تر مواجه خواهیم شد: چگونه برای یک هوش فوق‌العاده آزمایش طراحی کنیم. این کار خیلی سختی خواهد بود که باید آن را کشف کنیم.
منبع: theconversation
۵۸۳۲۱ منبع:‌ خبرآنلاین

نمایش بیشتر

نوشته های مشابه

دکمه بازگشت به بالا