به عصر تجربه خوش آمدید
ما در آستانه عصر جدیدی در هوش مصنوعی ایستادهایم که نویدبخش دستیابی به سطحی بیسابقه از توانایی است. نسل جدیدی از عاملها (agents) با یادگیری عمدتاً از طریق تجربه، به قابلیتهای فرابشری دست خواهند یافت. این یادداشت به بررسی ویژگیهای کلیدی میپردازد که این عصر پیش رو را تعریف خواهند کرد.
این مطلب ترجمهی مقاله Welcome to the Era of Experience از David Silver و Richard S. Sutton است که در اون ایدهی «یادگیری تجربی» رو بهعنوان فاز بعدی توسعهی هوش مصنوعی مطرح کردن. تلاش شده متن به دقت و با حفظ لحن حرفهای مقاله اصلی بازگردانی شود.
این پیشنویس فصلی است که در کتاب “طراحی یک هوش” (Designing an Intelligence)، منتشر شده توسط MIT Press، ظاهر خواهد شد.
عصر دادههای انسانی
هوش مصنوعی (AI) در سالهای اخیر با آموزش بر روی حجم عظیمی از دادههای تولید شده توسط انسان و تنظیم دقیق (fine-tuning) با مثالها و ترجیحات متخصصان انسانی، گامهای چشمگیری برداشته است. این رویکرد در مدلهای زبانی بزرگ (LLM) که به سطح گستردهای از کلیت (generality) دست یافتهاند، به خوبی مشهود است. یک LLM واحد اکنون میتواند وظایفی از نوشتن شعر و حل مسائل فیزیک گرفته تا تشخیص مسائل پزشکی و خلاصهسازی اسناد حقوقی را انجام دهد.
با این حال، اگرچه تقلید از انسان برای بازتولید بسیاری از قابلیتهای انسانی در سطح قابل قبولی کافی است، این رویکرد به تنهایی نتوانسته و احتمالاً نمیتواند به هوش فرابشری در بسیاری از موضوعات و وظایف مهم دست یابد. در حوزههای کلیدی مانند ریاضیات، کدنویسی و علوم، دانشی که از دادههای انسانی استخراج میشود به سرعت به حد خود نزدیک میشود. اکثر منابع داده با کیفیت بالا - آنهایی که واقعاً میتوانند عملکرد یک عامل قوی را بهبود بخشند - یا قبلاً مصرف شدهاند یا به زودی مصرف خواهند شد. سرعت پیشرفت که صرفاً توسط یادگیری تحت نظارت (supervised learning) از دادههای انسانی هدایت میشود، به طور قابل اثباتی در حال کند شدن است و نیاز به رویکردی جدید را نشان میدهد. علاوه بر این، بینشهای جدید و ارزشمند، مانند قضایای جدید، فناوریها یا پیشرفتهای علمی، فراتر از مرزهای فعلی درک بشر قرار دارند و نمیتوان آنها را با دادههای انسانی موجود ثبت کرد.
عصر تجربه
برای پیشرفت چشمگیرتر، به منبع داده جدیدی نیاز است. این دادهها باید به گونهای تولید شوند که با قویتر شدن عامل، به طور مداوم بهبود یابند؛ هر روش ایستا برای تولید مصنوعی دادهها به سرعت منسوخ خواهد شد. این امر با اجازه دادن به عاملها برای یادگیری مداوم از تجربیات خود، یعنی دادههایی که توسط تعامل عامل با محیط خود تولید میشود، قابل دستیابی است. هوش مصنوعی در آستانه دوره جدیدی قرار دارد که در آن تجربه به رسانه غالب بهبود تبدیل خواهد شد و در نهایت مقیاس دادههای انسانی مورد استفاده در سیستمهای امروزی را کوچک خواهد کرد.
این گذار ممکن است حتی برای مدلهای زبانی بزرگی که مظهر هوش مصنوعی انسانمحور هستند، آغاز شده باشد. یک مثال در قابلیت ریاضیات است. AlphaProof [20] اخیراً اولین برنامهای شد که در المپیاد جهانی ریاضی مدال کسب کرد و از عملکرد رویکردهای انسانمحور [27، 19] پیشی گرفت. AlphaProof که در ابتدا در معرض حدود صد هزار اثبات صوری قرار گرفت که طی سالیان متمادی توسط ریاضیدانان انسانی ایجاد شده بود، متعاقباً با تعامل مداوم با یک سیستم اثبات صوری، صد میلیون اثبات دیگر تولید کرد.1 این تمرکز بر تجربه تعاملی به AlphaProof اجازه داد تا امکانات ریاضی را فراتر از محدودیتهای اثباتهای صوری از پیش موجود کاوش کند تا راهحلهایی برای مسائل بدیع و چالشبرانگیز کشف کند. ریاضیات غیررسمی نیز با جایگزینی دادههای تولید شده توسط متخصص با دادههای خود-تولید شده به موفقیت دست یافته است؛ به عنوان مثال، کار اخیر DeepSeek “بر قدرت و زیبایی یادگیری تقویتی تأکید میکند: به جای آموزش صریح مدل در مورد چگونگی حل یک مسئله، ما به سادگی انگیزههای درست را برای آن فراهم میکنیم و او به طور خودمختار استراتژیهای پیشرفته حل مسئله را توسعه میدهد.” [10]
ادعای ما این است که قابلیتهای جدید و باورنکردنی زمانی پدیدار خواهند شد که پتانسیل کامل یادگیری تجربی مهار شود. این عصر تجربه احتمالاً با عاملها و محیطهایی مشخص خواهد شد که علاوه بر یادگیری از مقادیر عظیم دادههای تجربی، محدودیتهای سیستمهای هوش مصنوعی انسانمحور را در چندین بُعد دیگر نیز خواهند شکست:
عاملها در جریانهای پیوسته تجربه (streams of experience) ساکن خواهند بود، نه قطعات کوتاه تعامل. اقدامات و مشاهدات آنها عمیقاً در محیط ریشه خواهد داشت (richly grounded in the environment)، نه اینکه صرفاً از طریق گفتگوی انسانی تعامل کنند.
پاداشهای آنها در تجربه آنها از محیط ریشه خواهد داشت (grounded in their experience of the environment)، نه اینکه از پیشداوری انسانی ناشی شود.
آنها در مورد تجربه برنامهریزی و/یا استدلال خواهند کرد (plan and/or reason about experience)، نه اینکه صرفاً با اصطلاحات انسانی استدلال کنند.
ما معتقدیم که فناوری امروزی، با الگوریتمهای مناسب انتخاب شده، از قبل پایه و اساس به اندازه کافی قدرتمندی را برای دستیابی به این پیشرفتها فراهم میکند. علاوه بر این، پیگیری این دستور کار توسط جامعه هوش مصنوعی، نوآوریهای جدیدی را در این مسیرها برانگیخته و هوش مصنوعی را به سرعت به سمت عاملهای واقعاً فرابشری سوق خواهد داد.
جریانها (Streams)
یک عامل تجربی میتواند در طول عمر خود به یادگیری ادامه دهد. در عصر دادههای انسانی، هوش مصنوعی مبتنی بر زبان عمدتاً بر روی قسمتهای کوتاه تعامل متمرکز بوده است: به عنوان مثال، کاربر سوالی میپرسد و (شاید پس از چند مرحله تفکر یا اقدامات استفاده از ابزار) عامل پاسخ میدهد. معمولاً، اطلاعات کمی از یک قسمت به قسمت بعدی منتقل میشود یا اصلاً منتقل نمیشود، که مانع از هرگونه سازگاری در طول زمان میشود. علاوه بر این، عامل منحصراً برای نتایج درون قسمت فعلی، مانند پاسخ مستقیم به سوال کاربر، هدفگذاری میکند. در مقابل، انسانها (و سایر حیوانات) در یک جریان مداوم از اقدامات و مشاهدات وجود دارند که برای سالها ادامه مییابد. اطلاعات در کل جریان حمل میشود و رفتار آنها از تجربیات گذشته برای خود-اصلاحی و بهبود، سازگار میشود. علاوه بر این، اهداف ممکن است بر حسب اقدامات و مشاهداتی تعریف شوند که تا آینده دور جریان امتداد دارند. به عنوان مثال، انسانها ممکن است اقداماتی را برای دستیابی به اهداف بلندمدت مانند بهبود سلامتی خود، یادگیری یک زبان یا دستیابی به یک پیشرفت علمی انتخاب کنند.
عاملهای قدرتمند باید جریان تجربه خود را داشته باشند که مانند انسانها، در یک مقیاس زمانی طولانی پیشرفت کند. این به عاملها اجازه میدهد تا اقداماتی را برای دستیابی به اهداف آینده انجام دهند و به طور مداوم در طول زمان با الگوهای رفتاری جدید سازگار شوند. به عنوان مثال، یک عامل سلامت و تندرستی متصل به دستگاههای پوشیدنی کاربر میتواند الگوهای خواب، سطح فعالیت و عادات غذایی را طی ماهها کنترل کند. سپس میتواند توصیهها و تشویقهای شخصیسازی شده ارائه دهد و راهنمایی خود را بر اساس روندهای بلندمدت و اهداف سلامتی خاص کاربر تنظیم کند. به طور مشابه، یک عامل آموزش شخصیسازی شده میتواند پیشرفت کاربر در یادگیری یک زبان جدید را ردیابی کند، شکافهای دانشی را شناسایی کند، با سبک یادگیری او سازگار شود و روشهای تدریس خود را طی ماهها یا حتی سالها تنظیم کند. علاوه بر این، یک عامل علمی میتواند اهداف بلندپروازانهای مانند کشف یک ماده جدید یا کاهش دیاکسید کربن را دنبال کند. چنین عاملی میتواند مشاهدات دنیای واقعی را در یک دوره طولانی تجزیه و تحلیل کند، شبیهسازیها را توسعه داده و اجرا کند و آزمایشها یا مداخلات دنیای واقعی را پیشنهاد دهد.
در هر مورد، عامل دنبالهای از مراحل را انجام میدهد تا موفقیت بلندمدت را با توجه به هدف مشخص شده به حداکثر برساند. یک گام فردی ممکن است هیچ منفعت فوری نداشته باشد، یا حتی در کوتاهمدت مضر باشد، اما با این وجود ممکن است در مجموع به موفقیت بلندمدت کمک کند. این به شدت با سیستمهای هوش مصنوعی فعلی که پاسخهای فوری به درخواستها ارائه میدهند، بدون هیچ توانایی برای اندازهگیری یا بهینهسازی پیامدهای آتی اقدامات خود بر محیط، در تضاد است.
اقدامات و مشاهدات (Actions and Observations)
عاملها در عصر تجربه به طور خودمختار در دنیای واقعی عمل خواهند کرد. LLM ها در عصر دادههای انسانی عمدتاً بر روی اقدامات و مشاهدات ممتاز انسانی (human-privileged) متمرکز بودند که متن را به کاربر خروجی میدهند و متن را از کاربر به عامل ورودی میدهند. این به طور قابل توجهی با هوش طبیعی متفاوت است، که در آن یک حیوان از طریق کنترل حرکتی و حسگرها با محیط خود تعامل میکند. در حالی که حیوانات، و به ویژه انسانها، ممکن است با حیوانات دیگر ارتباط برقرار کنند، این امر از طریق همان رابط کنترل حسی-حرکتی دیگر رخ میدهد نه یک کانال ممتاز.
مدتهاست که تشخیص داده شده است که LLM ها ممکن است اقداماتی را در دنیای دیجیتال نیز فراخوانی کنند، به عنوان مثال با فراخوانی API ها (برای مثال، [43] را ببینید). در ابتدا، این قابلیتها عمدتاً از مثالهای انسانی استفاده از ابزار ناشی میشد، نه از تجربه عامل. با این حال، قابلیتهای کدنویسی و استفاده از ابزار به طور فزایندهای بر بازخورد اجرایی [17، 7، 12] بنا شدهاند، جایی که عامل واقعاً کد را اجرا میکند و آنچه را که اتفاق میافتد مشاهده میکند. اخیراً، موج جدیدی از عاملهای نمونه اولیه شروع به تعامل با رایانهها به شیوهای حتی عمومیتر کردهاند، با استفاده از همان رابطی که انسانها برای کار با رایانه استفاده میکنند [3، 15، 24]. این تغییرات، گذار از ارتباطات منحصراً ممتاز انسانی به تعاملات بسیار خودمختارتر را نوید میدهد که در آن عامل قادر است به طور مستقل در جهان عمل کند. چنین عاملهایی قادر خواهند بود فعالانه جهان را کاوش کنند، با محیطهای در حال تغییر سازگار شوند و استراتژیهایی را کشف کنند که ممکن است هرگز به ذهن انسان خطور نکند.
این تعاملات غنیتر وسیلهای برای درک و کنترل خودمختار دنیای دیجیتال فراهم میکند. عامل ممکن است از اقدامات و مشاهدات ‘کاربرپسند’ مانند رابطهای کاربری استفاده کند که به طور طبیعی ارتباط و همکاری با کاربر را تسهیل میکند. عامل همچنین ممکن است اقدامات ‘ماشینپسند’ انجام دهد که کد را اجرا کرده و API ها را فراخوانی میکند، و به عامل اجازه میدهد تا به طور خودمختار در راستای اهداف خود عمل کند. در عصر تجربه، عاملها همچنین از طریق رابطهای دیجیتال با دنیای واقعی تعامل خواهند کرد. به عنوان مثال، یک عامل علمی میتواند حسگرهای محیطی را پایش کند، یک تلسکوپ را از راه دور کنترل کند، یا یک بازوی رباتیک را در آزمایشگاه برای انجام خودمختار آزمایشها کنترل کند.
پاداشها (Rewards)
چه میشد اگر عاملهای تجربی میتوانستند از رویدادها و سیگنالهای خارجی یاد بگیرند، و نه فقط از ترجیحات انسانی؟
LLM های انسانمحور معمولاً برای پاداشهای مبتنی بر پیشداوری انسانی (human prejudgement) بهینهسازی میشوند: یک متخصص عمل عامل را مشاهده میکند و تصمیم میگیرد که آیا این یک عمل خوب است، یا بهترین عمل عامل را از بین چندین گزینه انتخاب میکند. به عنوان مثال، یک متخصص ممکن است توصیه یک عامل سلامت، تدریس یک دستیار آموزشی، یا آزمایش پیشنهادی یک عامل دانشمند را قضاوت کند. این واقعیت که این پاداشها یا ترجیحات توسط انسانها در غیاب پیامدهای آنها تعیین میشوند، به جای اندازهگیری تأثیر آن اقدامات بر محیط، به این معنی است که آنها مستقیماً در واقعیت جهان ریشه ندارند (not directly grounded in the reality of the world).
اتکا به پیشداوری انسانی به این روش معمولاً منجر به یک سقف غیرقابل نفوذ در عملکرد عامل میشود: عامل نمیتواند استراتژیهای بهتری را کشف کند که توسط ارزیاب انسانی دست کم گرفته شدهاند. برای کشف ایدههای جدیدی که بسیار فراتر از دانش موجود انسانی هستند، در عوض استفاده از پاداشهای ریشهدار (grounded rewards) ضروری است: سیگنالهایی که از خود محیط ناشی میشوند. به عنوان مثال، یک دستیار سلامت میتواند اهداف سلامتی کاربر را در یک پاداش مبتنی بر ترکیبی از سیگنالهایی مانند ضربان قلب در حالت استراحت، مدت زمان خواب و سطح فعالیت او پایهریزی کند (ground)، در حالی که یک دستیار آموزشی میتواند از نتایج امتحانات برای ارائه یک پاداش ریشهدار برای یادگیری زبان استفاده کند. به طور مشابه، یک عامل علمی با هدف کاهش گرمایش جهانی ممکن است از پاداشی مبتنی بر مشاهدات تجربی سطوح دیاکسید کربن استفاده کند، در حالی که هدف کشف یک ماده قویتر ممکن است در ترکیبی از اندازهگیریهای یک شبیهساز مواد، مانند استحکام کششی یا مدول یانگ، ریشه داشته باشد.
پاداشهای ریشهدار ممکن است از انسانهایی که بخشی از محیط عامل هستند ناشی شوند. به عنوان مثال، یک کاربر انسانی میتواند گزارش دهد که آیا کیک را خوشمزه یافته است، چقدر پس از ورزش خسته است، یا سطح درد ناشی از سردرد، که یک عامل دستیار را قادر میسازد دستور پخت بهتری ارائه دهد، پیشنهادات تناسب اندام خود را اصلاح کند، یا داروی توصیه شده خود را بهبود بخشد. چنین پاداشهایی پیامد اقدامات عامل را در محیط آنها اندازهگیری میکنند و در نهایت باید منجر به کمک بهتری نسبت به یک متخصص انسانی شوند که یک دستور پخت کیک، برنامه ورزشی یا برنامه درمانی پیشنهادی را پیشداوری میکند.2
پاداشها از کجا میآیند، اگر از دادههای انسانی نباشند؟ هنگامی که عاملها از طریق فضاهای اقدام و مشاهده غنی (به بالا مراجعه کنید) به جهان متصل میشوند، کمبودی در سیگنالهای ریشهدار برای فراهم کردن مبنایی برای پاداش وجود نخواهد داشت. در واقع، جهان مملو از کمیتهایی مانند هزینه، نرخ خطا، گرسنگی، بهرهوری، معیارهای سلامتی، معیارهای آب و هوایی، سود، فروش، نتایج امتحانات، موفقیت، بازدید، بازده، سهام، لایکها، درآمد، لذت/درد، شاخصهای اقتصادی، دقت، قدرت، فاصله، سرعت، کارایی یا مصرف انرژی است. علاوه بر این، سیگنالهای بیشمار دیگری وجود دارند که از وقوع رویدادهای خاص، یا از ویژگیهای مشتق شده از توالیهای خام مشاهدات و اقدامات ناشی میشوند.
اصولاً میتوان انواع مختلفی از عاملهای متمایز ایجاد کرد که هر کدام برای یک سیگنال ریشهدار به عنوان پاداش خود بهینهسازی میکنند. این استدلال وجود دارد که حتی یک سیگنال پاداش واحد، که با اثربخشی زیاد بهینهسازی شود، ممکن است برای القای هوش با قابلیت گسترده کافی باشد [34].3 این به این دلیل است که دستیابی به یک هدف ساده در یک محیط پیچیده ممکن است اغلب مستلزم تسلط بر طیف گستردهای از مهارتها باشد.
با این حال، پیگیری یک سیگنال پاداش واحد در ظاهر به نظر نمیرسد که الزامات یک هوش مصنوعی همهمنظوره را که بتواند به طور قابل اعتمادی به سمت رفتارهای دلخواه کاربر هدایت شود، برآورده کند. آیا بهینهسازی خودمختار سیگنالهای پاداش ریشهدار و غیرانسانی، بنابراین در تضاد با الزامات سیستمهای هوش مصنوعی مدرن است؟ ما استدلال میکنیم که این لزوماً چنین نیست، با ترسیم یک رویکرد که ممکن است این خواستهها را برآورده کند؛ رویکردهای دیگری نیز ممکن است امکانپذیر باشند.
ایده این است که پاداش را به طور انعطافپذیر، بر اساس سیگنالهای ریشهدار، به روشی هدایتشده توسط کاربر، تطبیق دهیم. به عنوان مثال، تابع پاداش میتواند توسط یک شبکه عصبی تعریف شود که تعاملات عامل با کاربر و محیط را به عنوان ورودی میگیرد و یک پاداش اسکالر (scalar reward) را خروجی میدهد. این به پاداش اجازه میدهد تا سیگنالها را از محیط به روشی که به هدف کاربر بستگی دارد، انتخاب یا ترکیب کند. به عنوان مثال، کاربر ممکن است یک هدف گسترده مانند “بهبود تناسب اندام من” را مشخص کند و تابع پاداش ممکن است تابعی از ضربان قلب، مدت زمان خواب و تعداد قدمهای کاربر را برگرداند. یا کاربر ممکن است هدفی مانند “به من کمک کن اسپانیایی یاد بگیرم” را مشخص کند و تابع پاداش میتواند نتایج امتحان اسپانیایی کاربر را برگرداند.
علاوه بر این، کاربران میتوانند در طول فرآیند یادگیری بازخورد ارائه دهند، مانند سطح رضایت خود، که میتواند برای تنظیم دقیق تابع پاداش استفاده شود. سپس تابع پاداش میتواند در طول زمان سازگار شود تا روش انتخاب یا ترکیب سیگنالها را بهبود بخشد و هرگونه عدم همسویی (misalignment) را شناسایی و اصلاح کند. این را میتوان به عنوان یک فرآیند بهینهسازی دو سطحی (bi-level optimization) نیز درک کرد که بازخورد کاربر را به عنوان هدف سطح بالا بهینه میکند و سیگنالهای ریشهدار از محیط را در سطح پایین بهینه میکند.4 به این ترتیب، مقدار کمی از دادههای انسانی ممکن است مقدار زیادی از یادگیری خودمختار را تسهیل کند.
برنامهریزی و استدلال (Planning and Reasoning)
آیا عصر تجربه نحوه برنامهریزی و استدلال عاملها را تغییر خواهد داد؟ اخیراً، پیشرفت قابل توجهی با استفاده از LLM هایی که میتوانند با زبان استدلال کنند یا “فکر کنند” [23، 14، 10]، با دنبال کردن زنجیرهای از افکار (chain of thought) قبل از خروجی دادن پاسخ [16]، حاصل شده است. از نظر مفهومی، LLM ها میتوانند به عنوان یک کامپیوتر جهانی (universal computer) عمل کنند [30]: یک LLM میتواند توکنها را به زمینه (context) خود اضافه کند و به آن اجازه دهد الگوریتمهای دلخواه را قبل از خروجی دادن نتیجه نهایی اجرا کند.
در عصر دادههای انسانی، این روشهای استدلال به صراحت برای تقلید از فرآیندهای فکری انسان طراحی شدهاند. به عنوان مثال، LLM ها برای انتشار زنجیرههای فکری شبیه به انسان [16]، تقلید از ردپاهای تفکر انسانی [42]، یا تقویت مراحل تفکری که با مثالهای انسانی مطابقت دارند [18]، پرامپت (prompted) شدهاند. فرآیند استدلال ممکن است بیشتر تنظیم دقیق شود تا ردپاهای تفکری تولید کند که با پاسخ صحیح، همانطور که توسط متخصصان انسانی تعیین شده است، مطابقت داشته باشد [44].
با این حال، بسیار بعید است که زبان انسان نمونه بهینه یک کامپیوتر جهانی را فراهم کند. مکانیسمهای کارآمدتری برای تفکر مطمئناً وجود دارند که از زبانهای غیرانسانی استفاده میکنند که ممکن است به عنوان مثال از محاسبات نمادین، توزیعشده، پیوسته یا قابل تمایز (differentiable) استفاده کنند. یک سیستم خود-یادگیرنده اصولاً میتواند چنین رویکردهایی را با یادگیری نحوه تفکر از تجربه، کشف یا بهبود بخشد. به عنوان مثال، AlphaProof یاد گرفت که قضایای پیچیده را به روشی کاملاً متفاوت از ریاضیدانان انسانی به طور صوری اثبات کند [20].
علاوه بر این، اصل یک کامپیوتر جهانی فقط به محاسبات داخلی عامل میپردازد؛ آن را به واقعیتهای دنیای خارج متصل نمیکند. عاملی که برای تقلید از افکار انسانی یا حتی مطابقت با پاسخهای متخصص انسانی آموزش دیده است، ممکن است روشهای فکری نادرستی را که عمیقاً در آن دادهها تعبیه شدهاند، مانند مفروضات ناقص یا سوگیریهای ذاتی، به ارث ببرد. به عنوان مثال، اگر عاملی برای استدلال با استفاده از افکار انسانی و پاسخهای متخصصان از 5000 سال پیش آموزش دیده بود، ممکن بود در مورد یک مسئله فیزیکی بر اساس جاندارپنداری (animism) استدلال کند؛ 1000 سال پیش ممکن بود بر اساس عبارات خداباورانه (theistic) استدلال کند؛ 300 سال پیش ممکن بود بر اساس مکانیک نیوتنی استدلال کند؛ و 50 سال پیش بر اساس مکانیک کوانتومی استدلال کند. پیشرفت فراتر از هر روش تفکر مستلزم تعامل با دنیای واقعی بود: ایجاد فرضیهها، اجرای آزمایشها، مشاهده نتایج و بهروزرسانی اصول بر اساس آن. به طور مشابه، یک عامل باید در دادههای دنیای واقعی ریشه داشته باشد تا روشهای فکری نادرست را کنار بگذارد. این ریشهدار بودن (grounding) یک حلقه بازخورد فراهم میکند و به عامل اجازه میدهد مفروضات به ارث برده خود را در برابر واقعیت آزمایش کند و اصول جدیدی را کشف کند که توسط شیوههای غالب فعلی تفکر انسانی محدود نشدهاند. بدون این ریشهدار بودن، یک عامل، هر چقدر هم که پیچیده باشد، به اتاق پژواک (echo chamber) دانش موجود انسانی تبدیل خواهد شد. برای فراتر رفتن از این، عاملها باید فعالانه با جهان درگیر شوند، دادههای مشاهدهای جمعآوری کنند و از آن دادهها برای اصلاح مکرر درک خود استفاده کنند، که از بسیاری جهات منعکسکننده فرآیندی است که پیشرفت علمی بشر را هدایت کرده است.
یک راه ممکن برای ریشهدار کردن مستقیم تفکر در دنیای خارج، ساختن یک مدل جهانی (world model) [37] است که پیامدهای اقدامات عامل را بر جهان، از جمله پیشبینی پاداش، پیشبینی میکند. به عنوان مثال، یک دستیار سلامت ممکن است توصیه یک باشگاه ورزشی محلی یا یک پادکست سلامت را در نظر بگیرد. مدل جهانی عامل ممکن است پیشبینی کند که چگونه ضربان قلب یا الگوهای خواب کاربر ممکن است متعاقباً پس از این اقدام تغییر کند، و همچنین گفتگوی آینده با کاربر را پیشبینی کند. این به عامل اجازه میدهد تا مستقیماً بر حسب اقدامات خود و تأثیر علی آنها بر جهان، برنامهریزی کند [36، 29]. همانطور که عامل در طول جریان تجربه خود به تعامل با جهان ادامه میدهد، مدل دینامیک آن به طور مداوم برای اصلاح هرگونه خطا در پیشبینیهایش بهروز میشود. با داشتن یک مدل جهانی، یک عامل ممکن است روشهای برنامهریزی مقیاسپذیر را به کار گیرد که عملکرد پیشبینیشده عامل را بهبود میبخشد.
روشهای برنامهریزی و استدلال متقابلاً منحصر به فرد نیستند: یک عامل ممکن است از محاسبات داخلی LLM برای انتخاب هر اقدام در طول برنامهریزی، یا برای شبیهسازی و ارزیابی پیامدهای آن اقدامات استفاده کند.
چرا اکنون؟ (Why Now?)
یادگیری از تجربه چیز جدیدی نیست. سیستمهای یادگیری تقویتی قبلاً بر تعداد زیادی از وظایف پیچیده که در یک شبیهساز با یک سیگنال پاداش واضح نشان داده شده بودند، تسلط یافته بودند (تقریباً، “عصر شبیهسازی” در شکل 1 را مقایسه کنید). به عنوان مثال، روشهای RL با عملکرد انسان در بازیهای تختهای مانند تخته نرد [39]، گو [31]، شطرنج [32]، پوکر [22، 6] و استراتگو [26]؛ بازیهای ویدیویی مانند آتاری [21]، StarCraft II [40]، Dota 2 [4] و Gran Turismo [41]؛ وظایف دستکاری ماهرانه مانند مکعب روبیک [1]؛ و وظایف مدیریت منابع مانند خنکسازی مرکز داده [13] برابری کردند یا از آن فراتر رفتند. علاوه بر این، عاملهای قدرتمند RL مانند AlphaZero [33] مقیاسپذیری چشمگیر و بالقوه نامحدودی را با اندازه شبکه عصبی، کمیت تجربه تعاملی و مدت زمان تفکر نشان دادند. با این حال، عاملهای مبتنی بر این پارادایم، شکاف بین شبیهسازی (مسائل بسته با پاداشهای واحد و دقیقاً تعریف شده) و واقعیت (مسائل باز با کثرت پاداشهای ظاهراً بد تعریف شده) را پر نکردند.
عصر دادههای انسانی راهحل جذابی ارائه داد. مجموعههای عظیم دادههای انسانی حاوی نمونههایی از زبان طبیعی برای تنوع عظیمی از وظایف هستند. عاملهایی که بر روی این دادهها آموزش دیدهاند، در مقایسه با موفقیتهای محدودتر عصر شبیهسازی، به طیف وسیعی از شایستگیها دست یافتند. در نتیجه، روششناسی RL تجربی تا حد زیادی به نفع عاملهای همهمنظورهتر کنار گذاشته شد و منجر به گذار گسترده به هوش مصنوعی انسانمحور شد.
با این حال، چیزی در این گذار از دست رفت: توانایی عامل برای کشف دانش خود. به عنوان مثال، AlphaZero استراتژیهای اساساً جدیدی برای شطرنج و گو کشف کرد و نحوه بازی انسانها در این بازیها را تغییر داد [28، 45]. عصر تجربه این توانایی را با سطح کلیت وظیفه (task-generality) که در عصر دادههای انسانی به دست آمد، آشتی خواهد داد. این امر، همانطور که در بالا ذکر شد، زمانی امکانپذیر خواهد شد که عاملها قادر به عمل و مشاهده خودمختار در جریانهای تجربه دنیای واقعی [11] باشند و پاداشها بتوانند به طور انعطافپذیر به هر ترکیبی از سیگنالهای فراوان ریشهدار و دنیای واقعی متصل شوند. ظهور عاملهای خودمختار که با فضاهای اقدام پیچیده و دنیای واقعی [3، 15، 24] تعامل میکنند، در کنار روشهای قدرتمند RL که میتوانند مسائل باز را در فضاهای استدلال غنی [20، 10] حل کنند، نشان میدهد که گذار به عصر تجربه قریبالوقوع است.
شکل 1: طرح کلی گاهشماری پارادایمهای غالب هوش مصنوعی. محور y نسبت کل تلاش و محاسبات میدانی را که بر RL متمرکز شده است، نشان میدهد
- محور افقی (Year): سال (2014 تا 2024)
- محور عمودی چپ (Attention on Reinforcement Learning): توجه به یادگیری تقویتی
- محور عمودی راست (superhuman intelligence): هوش فرابشری
- دورهها: Era of Simulation (عصر شبیهسازی)، Era of Human Data (عصر دادههای انسانی)، Era of Experience (عصر تجربه)
روشهای یادگیری تقویتی (Reinforcement Learning Methods)
یادگیری تقویتی (RL) تاریخچهای غنی دارد که عمیقاً در یادگیری خودمختار ریشه دارد، جایی که عاملها از طریق تعامل مستقیم با محیط خود برای خودشان یاد میگیرند. تحقیقات اولیه RL مجموعهای از مفاهیم و الگوریتمهای قدرتمند را به همراه داشت. به عنوان مثال، یادگیری تفاوت زمانی (temporal difference learning) [35] عاملها را قادر ساخت تا پاداشهای آتی را تخمین بزنند، که منجر به پیشرفتهایی مانند عملکرد فرابشری در تخته نرد [39] شد. تکنیکهای اکتشاف (Exploration)، که توسط خوشبینی یا کنجکاوی هدایت میشوند، برای کمک به عاملها در کشف رفتارهای خلاقانه جدید و جلوگیری از گیر افتادن در روالهای نامطلوب توسعه یافتند [2]. روشهایی مانند الگوریتم Dyna به عاملها امکان ساخت و یادگیری از مدلهای جهان خود را داد و به آنها اجازه داد تا در مورد اقدامات آتی برنامهریزی و استدلال کنند [36، 29]. مفاهیمی مانند گزینهها (options) و یادگیری درون/بین گزینهها (inter/intra-option learning) انتزاع زمانی (temporal abstraction) را تسهیل کردند و عاملها را قادر ساختند تا در مقیاسهای زمانی طولانیتر استدلال کنند و وظایف پیچیده را به اهداف فرعی قابل مدیریت تقسیم کنند [38].
با این حال، ظهور LLM های انسانمحور، تمرکز را از یادگیری خودمختار به سمت بهرهبرداری از دانش انسانی تغییر داد. تکنیکهایی مانند RLHF (یادگیری تقویتی از بازخورد انسانی) [9، 25] و روشهایی برای همسو کردن مدلهای زبانی با استدلال انسانی [44] فوقالعاده مؤثر بودند و پیشرفت سریعی را در قابلیتهای هوش مصنوعی به ارمغان آوردند. این رویکردها، اگرچه قدرتمند هستند، اغلب مفاهیم اصلی RL را دور میزدند: RLHF با فراخوانی متخصصان انسانی به جای مقادیر تخمینزده شده توسط ماشین، نیاز به توابع ارزش (value functions) را کنار گذاشت، پیشفرضهای قوی (strong priors) از دادههای انسانی اتکا به اکتشاف را کاهش داد، و استدلال بر اساس اصطلاحات انسانمحور نیاز به مدلهای جهانی و انتزاع زمانی را کاهش داد.
با این حال، میتوان استدلال کرد که تغییر پارادایم، کودک را با آب حمام بیرون انداخته است (throw out the baby with the bathwater). در حالی که RL انسانمحور گستره بیسابقهای از رفتارها را امکانپذیر کرده است، همچنین سقف جدیدی را بر عملکرد عامل تحمیل کرده است: عاملها نمیتوانند فراتر از دانش موجود انسانی بروند. علاوه بر این، عصر دادههای انسانی عمدتاً بر روشهای RL متمرکز بوده است که برای قسمتهای کوتاه تعامل غیر ریشهدار (ungrounded) و انسانی طراحی شدهاند و برای جریانهای طولانی تعامل ریشهدار (grounded) و خودمختار مناسب نیستند.
عصر تجربه فرصتی برای بازبینی و بهبود مفاهیم کلاسیک RL فراهم میکند. این عصر راههای جدیدی برای تفکر در مورد توابع پاداش که به طور انعطافپذیر در دادههای مشاهدهای ریشه دارند، به ارمغان خواهد آورد. توابع ارزش و روشهای تخمین آنها از جریانهای طولانی با دنبالههای هنوز ناقص را بازبینی خواهد کرد. روشهای اصولی و در عین حال عملی برای اکتشاف در دنیای واقعی را به ارمغان خواهد آورد که رفتارهای جدیدی را کشف میکنند که به طور رادیکال با پیشفرضهای انسانی متفاوت هستند. رویکردهای بدیع به مدلهای جهانی توسعه خواهند یافت که پیچیدگیهای تعاملات ریشهدار را ثبت میکنند. روشهای جدید برای انتزاع زمانی به عاملها اجازه میدهد تا بر اساس تجربه، در افقهای زمانی طولانیتر استدلال کنند. با بنا نهادن بر پایههای RL و تطبیق اصول اصلی آن با چالشهای این عصر جدید، میتوانیم پتانسیل کامل یادگیری خودمختار را باز کنیم و راه را برای هوش واقعاً فرابشری هموار کنیم.
پیامدها (Consequences)
ظهور عصر تجربه، جایی که عاملهای هوش مصنوعی از تعاملات خود با جهان یاد میگیرند، نویدبخش آیندهای عمیقاً متفاوت از هر چیزی است که قبلاً دیدهایم. این پارادایم جدید، در حالی که پتانسیل عظیمی را ارائه میدهد، خطرات و چالشهای مهمی را نیز به همراه دارد که نیازمند بررسی دقیق هستند، از جمله موارد زیر اما نه محدود به آنها. از جنبه مثبت، یادگیری تجربی قابلیتهای بیسابقهای را باز خواهد کرد. در زندگی روزمره، دستیارهای شخصیسازی شده از جریانهای پیوسته تجربه برای سازگاری با نیازهای سلامتی، آموزشی یا حرفهای افراد به سمت اهداف بلندمدت در طول ماهها یا سالها استفاده خواهند کرد. شاید متحولکنندهترین مورد، تسریع کشف علمی باشد. عاملهای هوش مصنوعی به طور خودمختار آزمایشهایی را در زمینههایی مانند علم مواد، پزشکی یا طراحی سختافزار طراحی و اجرا خواهند کرد. با یادگیری مداوم از نتایج آزمایشهای خود، این عاملها میتوانند به سرعت مرزهای جدید دانش را کاوش کنند و منجر به توسعه مواد، داروها و فناوریهای بدیع با سرعتی بیسابقه شوند.
با این حال، این عصر جدید چالشهای مهم و بدیعی را نیز به همراه دارد. در حالی که اتوماسیون قابلیتهای انسانی نویدبخش افزایش بهرهوری است، این بهبودها همچنین میتواند منجر به جابجایی شغلی شود. عاملها حتی ممکن است قادر به نشان دادن قابلیتهایی باشند که قبلاً قلمرو انحصاری بشریت محسوب میشد، مانند حل مسئله بلندمدت، نوآوری و درک عمیق از پیامدهای دنیای واقعی.
علاوه بر این، در حالی که نگرانیهای عمومی در مورد سوء استفاده بالقوه از هر هوش مصنوعی وجود دارد، خطرات بیشتری ممکن است از عاملهایی ناشی شود که میتوانند به طور خودمختار با جهان در دورههای زمانی طولانی برای دستیابی به اهداف بلندمدت تعامل کنند. به طور پیشفرض، این امر فرصتهای کمتری را برای انسانها برای مداخله و میانجیگری در اقدامات عامل فراهم میکند و بنابراین نیازمند سطح بالایی از اعتماد و مسئولیتپذیری است. دور شدن از دادههای انسانی و شیوههای تفکر انسانی نیز ممکن است تفسیر سیستمهای هوش مصنوعی آینده را دشوارتر کند. با این حال، ضمن اذعان به اینکه یادگیری تجربی برخی خطرات ایمنی را افزایش میدهد و تحقیقات بیشتری قطعاً برای اطمینان از گذار ایمن به عصر تجربه مورد نیاز است، باید همچنین تشخیص دهیم که ممکن است برخی مزایای ایمنی مهم را نیز فراهم کند.
اولاً، یک عامل تجربی از محیطی که در آن قرار دارد آگاه است و رفتار آن میتواند در طول زمان با تغییرات آن محیط سازگار شود. هر سیستم از پیش برنامهریزی شده، از جمله یک سیستم هوش مصنوعی ثابت، میتواند از زمینه محیطی خود بیاطلاع باشد و با دنیای در حال تغییری که در آن مستقر شده است، ناسازگار شود. به عنوان مثال، یک قطعه سختافزاری حیاتی ممکن است دچار نقص شود، یک بیماری همهگیر ممکن است باعث تغییر سریع اجتماعی شود، یا یک کشف علمی جدید ممکن است باعث آبشاری از تحولات سریع فناوری شود. در مقابل، یک عامل تجربی میتواند سختافزار معیوب را مشاهده کرده و یاد بگیرد که آن را دور بزند، با تغییرات سریع اجتماعی سازگار شود، یا علم و فناوری جدید را بپذیرد و بر آن بنا نهد. شاید حتی مهمتر از آن، عامل بتواند تشخیص دهد که چه زمانی رفتارش باعث نگرانی، نارضایتی یا پریشانی انسان میشود و به طور تطبیقی رفتار خود را برای جلوگیری از این پیامدهای منفی اصلاح کند.
ثانیاً، تابع پاداش عامل ممکن است خود از طریق تجربه تطبیق داده شود، به عنوان مثال با استفاده از بهینهسازی دو سطحی که قبلاً توضیح داده شد (به بخش پاداشها مراجعه کنید). نکته مهم این است که این بدان معنی است که توابع پاداش نامناسب (misaligned) اغلب میتوانند به تدریج در طول زمان با آزمون و خطا اصلاح شوند. به عنوان مثال، به جای بهینهسازی کورکورانه یک سیگنال، مانند حداکثر کردن گیرههای کاغذ [5]، تابع پاداش میتواند بر اساس نشانههای نگرانی انسانی، قبل از اینکه تولید گیره کاغذ تمام منابع زمین را مصرف کند، اصلاح شود. این مشابه روشی است که انسانها برای یکدیگر اهداف تعیین میکنند و سپس اگر مشاهده کنند که افراد سیستم را بازی میدهند (gaming the system)، رفاه بلندمدت را نادیده میگیرند یا باعث پیامدهای منفی ناخواسته میشوند، آن اهداف را تطبیق میدهند؛ اگرچه مانند هدفگذاری انسانی، هیچ تضمینی برای همسویی کامل وجود ندارد.
در نهایت، پیشرفتهایی که به تجربه فیزیکی متکی هستند، ذاتاً با زمانی که برای اجرای اقدامات در دنیای واقعی و مشاهده پیامدهای آنها لازم است، محدود میشوند. به عنوان مثال، توسعه یک داروی جدید، حتی با طراحی به کمک هوش مصنوعی، هنوز به آزمایشهای دنیای واقعی نیاز دارد که نمیتوان یک شبه آنها را تکمیل کرد. این ممکن است یک ترمز طبیعی بر سرعت بهبود بالقوه خودکار هوش مصنوعی ایجاد کند.
نتیجهگیری (Conclusion)
عصر تجربه نقطه عطفی در تکامل هوش مصنوعی است. با بنا نهادن بر پایههای قوی امروزی، اما فراتر رفتن از محدودیتهای دادههای مشتق شده از انسان، عاملها به طور فزایندهای از تعاملات خود با جهان یاد خواهند گرفت. عاملها به طور خودمختار از طریق مشاهدات و اقدامات غنی با محیطها تعامل خواهند کرد. آنها در طول جریانهای مادامالعمر تجربه به سازگاری ادامه خواهند داد. اهداف آنها به سمت هر ترکیبی از سیگنالهای ریشهدار قابل هدایت خواهد بود. علاوه بر این، عاملها از استدلال قدرتمند غیرانسانی استفاده خواهند کرد و برنامههایی را خواهند ساخت که در پیامدهای اقدامات عامل بر محیط آن ریشه دارند. در نهایت، دادههای تجربی از مقیاس و کیفیت دادههای تولید شده توسط انسان پیشی خواهند گرفت. این تغییر پارادایم، همراه با پیشرفتهای الگوریتمی در RL، در بسیاری از حوزهها قابلیتهای جدیدی را باز خواهد کرد که از قابلیتهای هر انسانی فراتر میرود.
تقدیر و تشکر (Acknowledgements)
نویسندگان مایلند از نظرات و بحثهای مفید توماس دگریس، روهین شاه، تام شاول و هادو ون هاسلت قدردانی کنند.
رفرنسها
پاورقیها
یک الگوریتم RL الگوریتمی است که یاد میگیرد با آزمون و خطا به هدفی دست یابد، یعنی رفتار خود را از تجربه تعامل با محیطش تطبیق میدهد. تطبیق ممکن است به هر وسیلهای اتفاق بیفتد، به عنوان مثال بهروزرسانی وزنهای یک شبکه عصبی، یا تطبیق در زمینه (in-context) بر اساس بازخورد از محیط. ↩︎
تجربه و دادههای انسانی دقیقاً متضاد نیستند. به عنوان مثال، یک سگ کاملاً از تجربه یاد میگیرد، اما تعامل انسانی بخشی از تجربه آن است. ↩︎
فرضیه “پاداش کافی است” (reward-is-enough) نشان میدهد که هوش و تواناییهای مرتبط با آن، میتوانند به طور طبیعی از حداکثرسازی پاداش پدیدار شوند. این ممکن است شامل محیطهایی حاوی تعامل انسانی و پاداشهای مبتنی بر بازخورد انسانی باشد. ↩︎
در این مورد، همچنین میتوان بازخورد انسانی ریشهدار را به عنوان یک تابع پاداش واحد در نظر گرفت که هدف کلی عامل را تشکیل میدهد، که با ساخت و بهینهسازی یک تابع پاداش ذاتی [8] مبتنی بر بازخورد غنی و ریشهدار، حداکثر میشود. ↩︎