پست

به عصر تجربه خوش آمدید

ما در آستانه عصر جدیدی در هوش مصنوعی ایستاده‌ایم که نویدبخش دستیابی به سطحی بی‌سابقه از توانایی است. نسل جدیدی از عامل‌ها (agents) با یادگیری عمدتاً از طریق تجربه، به قابلیت‌های فرابشری دست خواهند یافت. این یادداشت به بررسی ویژگی‌های کلیدی می‌پردازد که این عصر پیش رو را تعریف خواهند کرد.

به عصر تجربه خوش آمدید

این مطلب ترجمه‌ی مقاله Welcome to the Era of Experience از David Silver و Richard S. Sutton است که در اون ایده‌ی «یادگیری تجربی» رو به‌عنوان فاز بعدی توسعه‌ی هوش مصنوعی مطرح کردن. تلاش شده متن به دقت و با حفظ لحن حرفه‌ای مقاله اصلی بازگردانی شود.

این پیش‌نویس فصلی است که در کتاب “طراحی یک هوش” (Designing an Intelligence)، منتشر شده توسط MIT Press، ظاهر خواهد شد.

عصر داده‌های انسانی

هوش مصنوعی (AI) در سال‌های اخیر با آموزش بر روی حجم عظیمی از داده‌های تولید شده توسط انسان و تنظیم دقیق (fine-tuning) با مثال‌ها و ترجیحات متخصصان انسانی، گام‌های چشمگیری برداشته است. این رویکرد در مدل‌های زبانی بزرگ (LLM) که به سطح گسترده‌ای از کلیت (generality) دست یافته‌اند، به خوبی مشهود است. یک LLM واحد اکنون می‌تواند وظایفی از نوشتن شعر و حل مسائل فیزیک گرفته تا تشخیص مسائل پزشکی و خلاصه‌سازی اسناد حقوقی را انجام دهد.

با این حال، اگرچه تقلید از انسان برای بازتولید بسیاری از قابلیت‌های انسانی در سطح قابل قبولی کافی است، این رویکرد به تنهایی نتوانسته و احتمالاً نمی‌تواند به هوش فرابشری در بسیاری از موضوعات و وظایف مهم دست یابد. در حوزه‌های کلیدی مانند ریاضیات، کدنویسی و علوم، دانشی که از داده‌های انسانی استخراج می‌شود به سرعت به حد خود نزدیک می‌شود. اکثر منابع داده با کیفیت بالا - آنهایی که واقعاً می‌توانند عملکرد یک عامل قوی را بهبود بخشند - یا قبلاً مصرف شده‌اند یا به زودی مصرف خواهند شد. سرعت پیشرفت که صرفاً توسط یادگیری تحت نظارت (supervised learning) از داده‌های انسانی هدایت می‌شود، به طور قابل اثباتی در حال کند شدن است و نیاز به رویکردی جدید را نشان می‌دهد. علاوه بر این، بینش‌های جدید و ارزشمند، مانند قضایای جدید، فناوری‌ها یا پیشرفت‌های علمی، فراتر از مرزهای فعلی درک بشر قرار دارند و نمی‌توان آنها را با داده‌های انسانی موجود ثبت کرد.

عصر تجربه

برای پیشرفت چشمگیرتر، به منبع داده جدیدی نیاز است. این داده‌ها باید به گونه‌ای تولید شوند که با قوی‌تر شدن عامل، به طور مداوم بهبود یابند؛ هر روش ایستا برای تولید مصنوعی داده‌ها به سرعت منسوخ خواهد شد. این امر با اجازه دادن به عامل‌ها برای یادگیری مداوم از تجربیات خود، یعنی داده‌هایی که توسط تعامل عامل با محیط خود تولید می‌شود، قابل دستیابی است. هوش مصنوعی در آستانه دوره جدیدی قرار دارد که در آن تجربه به رسانه غالب بهبود تبدیل خواهد شد و در نهایت مقیاس داده‌های انسانی مورد استفاده در سیستم‌های امروزی را کوچک خواهد کرد.

این گذار ممکن است حتی برای مدل‌های زبانی بزرگی که مظهر هوش مصنوعی انسان‌محور هستند، آغاز شده باشد. یک مثال در قابلیت ریاضیات است. AlphaProof [20] اخیراً اولین برنامه‌ای شد که در المپیاد جهانی ریاضی مدال کسب کرد و از عملکرد رویکردهای انسان‌محور [27، 19] پیشی گرفت. AlphaProof که در ابتدا در معرض حدود صد هزار اثبات صوری قرار گرفت که طی سالیان متمادی توسط ریاضیدانان انسانی ایجاد شده بود، متعاقباً با تعامل مداوم با یک سیستم اثبات صوری، صد میلیون اثبات دیگر تولید کرد.1 این تمرکز بر تجربه تعاملی به AlphaProof اجازه داد تا امکانات ریاضی را فراتر از محدودیت‌های اثبات‌های صوری از پیش موجود کاوش کند تا راه‌حل‌هایی برای مسائل بدیع و چالش‌برانگیز کشف کند. ریاضیات غیررسمی نیز با جایگزینی داده‌های تولید شده توسط متخصص با داده‌های خود-تولید شده به موفقیت دست یافته است؛ به عنوان مثال، کار اخیر DeepSeek “بر قدرت و زیبایی یادگیری تقویتی تأکید می‌کند: به جای آموزش صریح مدل در مورد چگونگی حل یک مسئله، ما به سادگی انگیزه‌های درست را برای آن فراهم می‌کنیم و او به طور خودمختار استراتژی‌های پیشرفته حل مسئله را توسعه می‌دهد.” [10]

ادعای ما این است که قابلیت‌های جدید و باورنکردنی زمانی پدیدار خواهند شد که پتانسیل کامل یادگیری تجربی مهار شود. این عصر تجربه احتمالاً با عامل‌ها و محیط‌هایی مشخص خواهد شد که علاوه بر یادگیری از مقادیر عظیم داده‌های تجربی، محدودیت‌های سیستم‌های هوش مصنوعی انسان‌محور را در چندین بُعد دیگر نیز خواهند شکست:

عامل‌ها در جریان‌های پیوسته تجربه (streams of experience) ساکن خواهند بود، نه قطعات کوتاه تعامل. اقدامات و مشاهدات آنها عمیقاً در محیط ریشه خواهد داشت (richly grounded in the environment)، نه اینکه صرفاً از طریق گفتگوی انسانی تعامل کنند.

پاداش‌های آنها در تجربه آنها از محیط ریشه خواهد داشت (grounded in their experience of the environment)، نه اینکه از پیش‌داوری انسانی ناشی شود.

آنها در مورد تجربه برنامه‌ریزی و/یا استدلال خواهند کرد (plan and/or reason about experience)، نه اینکه صرفاً با اصطلاحات انسانی استدلال کنند.

ما معتقدیم که فناوری امروزی، با الگوریتم‌های مناسب انتخاب شده، از قبل پایه و اساس به اندازه کافی قدرتمندی را برای دستیابی به این پیشرفت‌ها فراهم می‌کند. علاوه بر این، پیگیری این دستور کار توسط جامعه هوش مصنوعی، نوآوری‌های جدیدی را در این مسیرها برانگیخته و هوش مصنوعی را به سرعت به سمت عامل‌های واقعاً فرابشری سوق خواهد داد.

جریان‌ها (Streams)

یک عامل تجربی می‌تواند در طول عمر خود به یادگیری ادامه دهد. در عصر داده‌های انسانی، هوش مصنوعی مبتنی بر زبان عمدتاً بر روی قسمت‌های کوتاه تعامل متمرکز بوده است: به عنوان مثال، کاربر سوالی می‌پرسد و (شاید پس از چند مرحله تفکر یا اقدامات استفاده از ابزار) عامل پاسخ می‌دهد. معمولاً، اطلاعات کمی از یک قسمت به قسمت بعدی منتقل می‌شود یا اصلاً منتقل نمی‌شود، که مانع از هرگونه سازگاری در طول زمان می‌شود. علاوه بر این، عامل منحصراً برای نتایج درون قسمت فعلی، مانند پاسخ مستقیم به سوال کاربر، هدف‌گذاری می‌کند. در مقابل، انسان‌ها (و سایر حیوانات) در یک جریان مداوم از اقدامات و مشاهدات وجود دارند که برای سال‌ها ادامه می‌یابد. اطلاعات در کل جریان حمل می‌شود و رفتار آنها از تجربیات گذشته برای خود-اصلاحی و بهبود، سازگار می‌شود. علاوه بر این، اهداف ممکن است بر حسب اقدامات و مشاهداتی تعریف شوند که تا آینده دور جریان امتداد دارند. به عنوان مثال، انسان‌ها ممکن است اقداماتی را برای دستیابی به اهداف بلندمدت مانند بهبود سلامتی خود، یادگیری یک زبان یا دستیابی به یک پیشرفت علمی انتخاب کنند.

عامل‌های قدرتمند باید جریان تجربه خود را داشته باشند که مانند انسان‌ها، در یک مقیاس زمانی طولانی پیشرفت کند. این به عامل‌ها اجازه می‌دهد تا اقداماتی را برای دستیابی به اهداف آینده انجام دهند و به طور مداوم در طول زمان با الگوهای رفتاری جدید سازگار شوند. به عنوان مثال، یک عامل سلامت و تندرستی متصل به دستگاه‌های پوشیدنی کاربر می‌تواند الگوهای خواب، سطح فعالیت و عادات غذایی را طی ماه‌ها کنترل کند. سپس می‌تواند توصیه‌ها و تشویق‌های شخصی‌سازی شده ارائه دهد و راهنمایی خود را بر اساس روندهای بلندمدت و اهداف سلامتی خاص کاربر تنظیم کند. به طور مشابه، یک عامل آموزش شخصی‌سازی شده می‌تواند پیشرفت کاربر در یادگیری یک زبان جدید را ردیابی کند، شکاف‌های دانشی را شناسایی کند، با سبک یادگیری او سازگار شود و روش‌های تدریس خود را طی ماه‌ها یا حتی سال‌ها تنظیم کند. علاوه بر این، یک عامل علمی می‌تواند اهداف بلندپروازانه‌ای مانند کشف یک ماده جدید یا کاهش دی‌اکسید کربن را دنبال کند. چنین عاملی می‌تواند مشاهدات دنیای واقعی را در یک دوره طولانی تجزیه و تحلیل کند، شبیه‌سازی‌ها را توسعه داده و اجرا کند و آزمایش‌ها یا مداخلات دنیای واقعی را پیشنهاد دهد.

در هر مورد، عامل دنباله‌ای از مراحل را انجام می‌دهد تا موفقیت بلندمدت را با توجه به هدف مشخص شده به حداکثر برساند. یک گام فردی ممکن است هیچ منفعت فوری نداشته باشد، یا حتی در کوتاه‌مدت مضر باشد، اما با این وجود ممکن است در مجموع به موفقیت بلندمدت کمک کند. این به شدت با سیستم‌های هوش مصنوعی فعلی که پاسخ‌های فوری به درخواست‌ها ارائه می‌دهند، بدون هیچ توانایی برای اندازه‌گیری یا بهینه‌سازی پیامدهای آتی اقدامات خود بر محیط، در تضاد است.

اقدامات و مشاهدات (Actions and Observations)

عامل‌ها در عصر تجربه به طور خودمختار در دنیای واقعی عمل خواهند کرد. LLM ها در عصر داده‌های انسانی عمدتاً بر روی اقدامات و مشاهدات ممتاز انسانی (human-privileged) متمرکز بودند که متن را به کاربر خروجی می‌دهند و متن را از کاربر به عامل ورودی می‌دهند. این به طور قابل توجهی با هوش طبیعی متفاوت است، که در آن یک حیوان از طریق کنترل حرکتی و حسگرها با محیط خود تعامل می‌کند. در حالی که حیوانات، و به ویژه انسان‌ها، ممکن است با حیوانات دیگر ارتباط برقرار کنند، این امر از طریق همان رابط کنترل حسی-حرکتی دیگر رخ می‌دهد نه یک کانال ممتاز.

مدت‌هاست که تشخیص داده شده است که LLM ها ممکن است اقداماتی را در دنیای دیجیتال نیز فراخوانی کنند، به عنوان مثال با فراخوانی API ها (برای مثال، [43] را ببینید). در ابتدا، این قابلیت‌ها عمدتاً از مثال‌های انسانی استفاده از ابزار ناشی می‌شد، نه از تجربه عامل. با این حال، قابلیت‌های کدنویسی و استفاده از ابزار به طور فزاینده‌ای بر بازخورد اجرایی [17، 7، 12] بنا شده‌اند، جایی که عامل واقعاً کد را اجرا می‌کند و آنچه را که اتفاق می‌افتد مشاهده می‌کند. اخیراً، موج جدیدی از عامل‌های نمونه اولیه شروع به تعامل با رایانه‌ها به شیوه‌ای حتی عمومی‌تر کرده‌اند، با استفاده از همان رابطی که انسان‌ها برای کار با رایانه استفاده می‌کنند [3، 15، 24]. این تغییرات، گذار از ارتباطات منحصراً ممتاز انسانی به تعاملات بسیار خودمختارتر را نوید می‌دهد که در آن عامل قادر است به طور مستقل در جهان عمل کند. چنین عامل‌هایی قادر خواهند بود فعالانه جهان را کاوش کنند، با محیط‌های در حال تغییر سازگار شوند و استراتژی‌هایی را کشف کنند که ممکن است هرگز به ذهن انسان خطور نکند.

این تعاملات غنی‌تر وسیله‌ای برای درک و کنترل خودمختار دنیای دیجیتال فراهم می‌کند. عامل ممکن است از اقدامات و مشاهدات ‘کاربرپسند’ مانند رابط‌های کاربری استفاده کند که به طور طبیعی ارتباط و همکاری با کاربر را تسهیل می‌کند. عامل همچنین ممکن است اقدامات ‘ماشین‌پسند’ انجام دهد که کد را اجرا کرده و API ها را فراخوانی می‌کند، و به عامل اجازه می‌دهد تا به طور خودمختار در راستای اهداف خود عمل کند. در عصر تجربه، عامل‌ها همچنین از طریق رابط‌های دیجیتال با دنیای واقعی تعامل خواهند کرد. به عنوان مثال، یک عامل علمی می‌تواند حسگرهای محیطی را پایش کند، یک تلسکوپ را از راه دور کنترل کند، یا یک بازوی رباتیک را در آزمایشگاه برای انجام خودمختار آزمایش‌ها کنترل کند.

پاداش‌ها (Rewards)

چه می‌شد اگر عامل‌های تجربی می‌توانستند از رویدادها و سیگنال‌های خارجی یاد بگیرند، و نه فقط از ترجیحات انسانی؟

LLM های انسان‌محور معمولاً برای پاداش‌های مبتنی بر پیش‌داوری انسانی (human prejudgement) بهینه‌سازی می‌شوند: یک متخصص عمل عامل را مشاهده می‌کند و تصمیم می‌گیرد که آیا این یک عمل خوب است، یا بهترین عمل عامل را از بین چندین گزینه انتخاب می‌کند. به عنوان مثال، یک متخصص ممکن است توصیه یک عامل سلامت، تدریس یک دستیار آموزشی، یا آزمایش پیشنهادی یک عامل دانشمند را قضاوت کند. این واقعیت که این پاداش‌ها یا ترجیحات توسط انسان‌ها در غیاب پیامدهای آنها تعیین می‌شوند، به جای اندازه‌گیری تأثیر آن اقدامات بر محیط، به این معنی است که آنها مستقیماً در واقعیت جهان ریشه ندارند (not directly grounded in the reality of the world).

اتکا به پیش‌داوری انسانی به این روش معمولاً منجر به یک سقف غیرقابل نفوذ در عملکرد عامل می‌شود: عامل نمی‌تواند استراتژی‌های بهتری را کشف کند که توسط ارزیاب انسانی دست کم گرفته شده‌اند. برای کشف ایده‌های جدیدی که بسیار فراتر از دانش موجود انسانی هستند، در عوض استفاده از پاداش‌های ریشه‌دار (grounded rewards) ضروری است: سیگنال‌هایی که از خود محیط ناشی می‌شوند. به عنوان مثال، یک دستیار سلامت می‌تواند اهداف سلامتی کاربر را در یک پاداش مبتنی بر ترکیبی از سیگنال‌هایی مانند ضربان قلب در حالت استراحت، مدت زمان خواب و سطح فعالیت او پایه‌ریزی کند (ground)، در حالی که یک دستیار آموزشی می‌تواند از نتایج امتحانات برای ارائه یک پاداش ریشه‌دار برای یادگیری زبان استفاده کند. به طور مشابه، یک عامل علمی با هدف کاهش گرمایش جهانی ممکن است از پاداشی مبتنی بر مشاهدات تجربی سطوح دی‌اکسید کربن استفاده کند، در حالی که هدف کشف یک ماده قوی‌تر ممکن است در ترکیبی از اندازه‌گیری‌های یک شبیه‌ساز مواد، مانند استحکام کششی یا مدول یانگ، ریشه داشته باشد.

پاداش‌های ریشه‌دار ممکن است از انسان‌هایی که بخشی از محیط عامل هستند ناشی شوند. به عنوان مثال، یک کاربر انسانی می‌تواند گزارش دهد که آیا کیک را خوشمزه یافته است، چقدر پس از ورزش خسته است، یا سطح درد ناشی از سردرد، که یک عامل دستیار را قادر می‌سازد دستور پخت بهتری ارائه دهد، پیشنهادات تناسب اندام خود را اصلاح کند، یا داروی توصیه شده خود را بهبود بخشد. چنین پاداش‌هایی پیامد اقدامات عامل را در محیط آنها اندازه‌گیری می‌کنند و در نهایت باید منجر به کمک بهتری نسبت به یک متخصص انسانی شوند که یک دستور پخت کیک، برنامه ورزشی یا برنامه درمانی پیشنهادی را پیش‌داوری می‌کند.2

پاداش‌ها از کجا می‌آیند، اگر از داده‌های انسانی نباشند؟ هنگامی که عامل‌ها از طریق فضاهای اقدام و مشاهده غنی (به بالا مراجعه کنید) به جهان متصل می‌شوند، کمبودی در سیگنال‌های ریشه‌دار برای فراهم کردن مبنایی برای پاداش وجود نخواهد داشت. در واقع، جهان مملو از کمیت‌هایی مانند هزینه، نرخ خطا، گرسنگی، بهره‌وری، معیارهای سلامتی، معیارهای آب و هوایی، سود، فروش، نتایج امتحانات، موفقیت، بازدید، بازده، سهام، لایک‌ها، درآمد، لذت/درد، شاخص‌های اقتصادی، دقت، قدرت، فاصله، سرعت، کارایی یا مصرف انرژی است. علاوه بر این، سیگنال‌های بی‌شمار دیگری وجود دارند که از وقوع رویدادهای خاص، یا از ویژگی‌های مشتق شده از توالی‌های خام مشاهدات و اقدامات ناشی می‌شوند.

اصولاً می‌توان انواع مختلفی از عامل‌های متمایز ایجاد کرد که هر کدام برای یک سیگنال ریشه‌دار به عنوان پاداش خود بهینه‌سازی می‌کنند. این استدلال وجود دارد که حتی یک سیگنال پاداش واحد، که با اثربخشی زیاد بهینه‌سازی شود، ممکن است برای القای هوش با قابلیت گسترده کافی باشد [34].3 این به این دلیل است که دستیابی به یک هدف ساده در یک محیط پیچیده ممکن است اغلب مستلزم تسلط بر طیف گسترده‌ای از مهارت‌ها باشد.

با این حال، پیگیری یک سیگنال پاداش واحد در ظاهر به نظر نمی‌رسد که الزامات یک هوش مصنوعی همه‌منظوره را که بتواند به طور قابل اعتمادی به سمت رفتارهای دلخواه کاربر هدایت شود، برآورده کند. آیا بهینه‌سازی خودمختار سیگنال‌های پاداش ریشه‌دار و غیرانسانی، بنابراین در تضاد با الزامات سیستم‌های هوش مصنوعی مدرن است؟ ما استدلال می‌کنیم که این لزوماً چنین نیست، با ترسیم یک رویکرد که ممکن است این خواسته‌ها را برآورده کند؛ رویکردهای دیگری نیز ممکن است امکان‌پذیر باشند.

ایده این است که پاداش را به طور انعطاف‌پذیر، بر اساس سیگنال‌های ریشه‌دار، به روشی هدایت‌شده توسط کاربر، تطبیق دهیم. به عنوان مثال، تابع پاداش می‌تواند توسط یک شبکه عصبی تعریف شود که تعاملات عامل با کاربر و محیط را به عنوان ورودی می‌گیرد و یک پاداش اسکالر (scalar reward) را خروجی می‌دهد. این به پاداش اجازه می‌دهد تا سیگنال‌ها را از محیط به روشی که به هدف کاربر بستگی دارد، انتخاب یا ترکیب کند. به عنوان مثال، کاربر ممکن است یک هدف گسترده مانند “بهبود تناسب اندام من” را مشخص کند و تابع پاداش ممکن است تابعی از ضربان قلب، مدت زمان خواب و تعداد قدم‌های کاربر را برگرداند. یا کاربر ممکن است هدفی مانند “به من کمک کن اسپانیایی یاد بگیرم” را مشخص کند و تابع پاداش می‌تواند نتایج امتحان اسپانیایی کاربر را برگرداند.

علاوه بر این، کاربران می‌توانند در طول فرآیند یادگیری بازخورد ارائه دهند، مانند سطح رضایت خود، که می‌تواند برای تنظیم دقیق تابع پاداش استفاده شود. سپس تابع پاداش می‌تواند در طول زمان سازگار شود تا روش انتخاب یا ترکیب سیگنال‌ها را بهبود بخشد و هرگونه عدم همسویی (misalignment) را شناسایی و اصلاح کند. این را می‌توان به عنوان یک فرآیند بهینه‌سازی دو سطحی (bi-level optimization) نیز درک کرد که بازخورد کاربر را به عنوان هدف سطح بالا بهینه می‌کند و سیگنال‌های ریشه‌دار از محیط را در سطح پایین بهینه می‌کند.4 به این ترتیب، مقدار کمی از داده‌های انسانی ممکن است مقدار زیادی از یادگیری خودمختار را تسهیل کند.

برنامه‌ریزی و استدلال (Planning and Reasoning)

آیا عصر تجربه نحوه برنامه‌ریزی و استدلال عامل‌ها را تغییر خواهد داد؟ اخیراً، پیشرفت قابل توجهی با استفاده از LLM هایی که می‌توانند با زبان استدلال کنند یا “فکر کنند” [23، 14، 10]، با دنبال کردن زنجیره‌ای از افکار (chain of thought) قبل از خروجی دادن پاسخ [16]، حاصل شده است. از نظر مفهومی، LLM ها می‌توانند به عنوان یک کامپیوتر جهانی (universal computer) عمل کنند [30]: یک LLM می‌تواند توکن‌ها را به زمینه (context) خود اضافه کند و به آن اجازه دهد الگوریتم‌های دلخواه را قبل از خروجی دادن نتیجه نهایی اجرا کند.

در عصر داده‌های انسانی، این روش‌های استدلال به صراحت برای تقلید از فرآیندهای فکری انسان طراحی شده‌اند. به عنوان مثال، LLM ها برای انتشار زنجیره‌های فکری شبیه به انسان [16]، تقلید از ردپاهای تفکر انسانی [42]، یا تقویت مراحل تفکری که با مثال‌های انسانی مطابقت دارند [18]، پرامپت (prompted) شده‌اند. فرآیند استدلال ممکن است بیشتر تنظیم دقیق شود تا ردپاهای تفکری تولید کند که با پاسخ صحیح، همانطور که توسط متخصصان انسانی تعیین شده است، مطابقت داشته باشد [44].

با این حال، بسیار بعید است که زبان انسان نمونه بهینه یک کامپیوتر جهانی را فراهم کند. مکانیسم‌های کارآمدتری برای تفکر مطمئناً وجود دارند که از زبان‌های غیرانسانی استفاده می‌کنند که ممکن است به عنوان مثال از محاسبات نمادین، توزیع‌شده، پیوسته یا قابل تمایز (differentiable) استفاده کنند. یک سیستم خود-یادگیرنده اصولاً می‌تواند چنین رویکردهایی را با یادگیری نحوه تفکر از تجربه، کشف یا بهبود بخشد. به عنوان مثال، AlphaProof یاد گرفت که قضایای پیچیده را به روشی کاملاً متفاوت از ریاضیدانان انسانی به طور صوری اثبات کند [20].

علاوه بر این، اصل یک کامپیوتر جهانی فقط به محاسبات داخلی عامل می‌پردازد؛ آن را به واقعیت‌های دنیای خارج متصل نمی‌کند. عاملی که برای تقلید از افکار انسانی یا حتی مطابقت با پاسخ‌های متخصص انسانی آموزش دیده است، ممکن است روش‌های فکری نادرستی را که عمیقاً در آن داده‌ها تعبیه شده‌اند، مانند مفروضات ناقص یا سوگیری‌های ذاتی، به ارث ببرد. به عنوان مثال، اگر عاملی برای استدلال با استفاده از افکار انسانی و پاسخ‌های متخصصان از 5000 سال پیش آموزش دیده بود، ممکن بود در مورد یک مسئله فیزیکی بر اساس جاندارپنداری (animism) استدلال کند؛ 1000 سال پیش ممکن بود بر اساس عبارات خداباورانه (theistic) استدلال کند؛ 300 سال پیش ممکن بود بر اساس مکانیک نیوتنی استدلال کند؛ و 50 سال پیش بر اساس مکانیک کوانتومی استدلال کند. پیشرفت فراتر از هر روش تفکر مستلزم تعامل با دنیای واقعی بود: ایجاد فرضیه‌ها، اجرای آزمایش‌ها، مشاهده نتایج و به‌روزرسانی اصول بر اساس آن. به طور مشابه، یک عامل باید در داده‌های دنیای واقعی ریشه داشته باشد تا روش‌های فکری نادرست را کنار بگذارد. این ریشه‌دار بودن (grounding) یک حلقه بازخورد فراهم می‌کند و به عامل اجازه می‌دهد مفروضات به ارث برده خود را در برابر واقعیت آزمایش کند و اصول جدیدی را کشف کند که توسط شیوه‌های غالب فعلی تفکر انسانی محدود نشده‌اند. بدون این ریشه‌دار بودن، یک عامل، هر چقدر هم که پیچیده باشد، به اتاق پژواک (echo chamber) دانش موجود انسانی تبدیل خواهد شد. برای فراتر رفتن از این، عامل‌ها باید فعالانه با جهان درگیر شوند، داده‌های مشاهده‌ای جمع‌آوری کنند و از آن داده‌ها برای اصلاح مکرر درک خود استفاده کنند، که از بسیاری جهات منعکس‌کننده فرآیندی است که پیشرفت علمی بشر را هدایت کرده است.

یک راه ممکن برای ریشه‌دار کردن مستقیم تفکر در دنیای خارج، ساختن یک مدل جهانی (world model) [37] است که پیامدهای اقدامات عامل را بر جهان، از جمله پیش‌بینی پاداش، پیش‌بینی می‌کند. به عنوان مثال، یک دستیار سلامت ممکن است توصیه یک باشگاه ورزشی محلی یا یک پادکست سلامت را در نظر بگیرد. مدل جهانی عامل ممکن است پیش‌بینی کند که چگونه ضربان قلب یا الگوهای خواب کاربر ممکن است متعاقباً پس از این اقدام تغییر کند، و همچنین گفتگوی آینده با کاربر را پیش‌بینی کند. این به عامل اجازه می‌دهد تا مستقیماً بر حسب اقدامات خود و تأثیر علی آنها بر جهان، برنامه‌ریزی کند [36، 29]. همانطور که عامل در طول جریان تجربه خود به تعامل با جهان ادامه می‌دهد، مدل دینامیک آن به طور مداوم برای اصلاح هرگونه خطا در پیش‌بینی‌هایش به‌روز می‌شود. با داشتن یک مدل جهانی، یک عامل ممکن است روش‌های برنامه‌ریزی مقیاس‌پذیر را به کار گیرد که عملکرد پیش‌بینی‌شده عامل را بهبود می‌بخشد.

روش‌های برنامه‌ریزی و استدلال متقابلاً منحصر به فرد نیستند: یک عامل ممکن است از محاسبات داخلی LLM برای انتخاب هر اقدام در طول برنامه‌ریزی، یا برای شبیه‌سازی و ارزیابی پیامدهای آن اقدامات استفاده کند.

چرا اکنون؟ (Why Now?)

یادگیری از تجربه چیز جدیدی نیست. سیستم‌های یادگیری تقویتی قبلاً بر تعداد زیادی از وظایف پیچیده که در یک شبیه‌ساز با یک سیگنال پاداش واضح نشان داده شده بودند، تسلط یافته بودند (تقریباً، “عصر شبیه‌سازی” در شکل 1 را مقایسه کنید). به عنوان مثال، روش‌های RL با عملکرد انسان در بازی‌های تخته‌ای مانند تخته نرد [39]، گو [31]، شطرنج [32]، پوکر [22، 6] و استراتگو [26]؛ بازی‌های ویدیویی مانند آتاری [21]، StarCraft II [40]، Dota 2 [4] و Gran Turismo [41]؛ وظایف دستکاری ماهرانه مانند مکعب روبیک [1]؛ و وظایف مدیریت منابع مانند خنک‌سازی مرکز داده [13] برابری کردند یا از آن فراتر رفتند. علاوه بر این، عامل‌های قدرتمند RL مانند AlphaZero [33] مقیاس‌پذیری چشمگیر و بالقوه نامحدودی را با اندازه شبکه عصبی، کمیت تجربه تعاملی و مدت زمان تفکر نشان دادند. با این حال، عامل‌های مبتنی بر این پارادایم، شکاف بین شبیه‌سازی (مسائل بسته با پاداش‌های واحد و دقیقاً تعریف شده) و واقعیت (مسائل باز با کثرت پاداش‌های ظاهراً بد تعریف شده) را پر نکردند.

عصر داده‌های انسانی راه‌حل جذابی ارائه داد. مجموعه‌های عظیم داده‌های انسانی حاوی نمونه‌هایی از زبان طبیعی برای تنوع عظیمی از وظایف هستند. عامل‌هایی که بر روی این داده‌ها آموزش دیده‌اند، در مقایسه با موفقیت‌های محدودتر عصر شبیه‌سازی، به طیف وسیعی از شایستگی‌ها دست یافتند. در نتیجه، روش‌شناسی RL تجربی تا حد زیادی به نفع عامل‌های همه‌منظوره‌تر کنار گذاشته شد و منجر به گذار گسترده به هوش مصنوعی انسان‌محور شد.

با این حال، چیزی در این گذار از دست رفت: توانایی عامل برای کشف دانش خود. به عنوان مثال، AlphaZero استراتژی‌های اساساً جدیدی برای شطرنج و گو کشف کرد و نحوه بازی انسان‌ها در این بازی‌ها را تغییر داد [28، 45]. عصر تجربه این توانایی را با سطح کلیت وظیفه (task-generality) که در عصر داده‌های انسانی به دست آمد، آشتی خواهد داد. این امر، همانطور که در بالا ذکر شد، زمانی امکان‌پذیر خواهد شد که عامل‌ها قادر به عمل و مشاهده خودمختار در جریان‌های تجربه دنیای واقعی [11] باشند و پاداش‌ها بتوانند به طور انعطاف‌پذیر به هر ترکیبی از سیگنال‌های فراوان ریشه‌دار و دنیای واقعی متصل شوند. ظهور عامل‌های خودمختار که با فضاهای اقدام پیچیده و دنیای واقعی [3، 15، 24] تعامل می‌کنند، در کنار روش‌های قدرتمند RL که می‌توانند مسائل باز را در فضاهای استدلال غنی [20، 10] حل کنند، نشان می‌دهد که گذار به عصر تجربه قریب‌الوقوع است.

تصویر ۱ شکل 1: طرح کلی گاه‌شماری پارادایم‌های غالب هوش مصنوعی. محور y نسبت کل تلاش و محاسبات میدانی را که بر RL متمرکز شده است، نشان می‌دهد

  • محور افقی (Year): سال (2014 تا 2024)
  • محور عمودی چپ (Attention on Reinforcement Learning): توجه به یادگیری تقویتی
  • محور عمودی راست (superhuman intelligence): هوش فرابشری
  • دوره‌ها: Era of Simulation (عصر شبیه‌سازی)، Era of Human Data (عصر داده‌های انسانی)، Era of Experience (عصر تجربه)

روش‌های یادگیری تقویتی (Reinforcement Learning Methods)

یادگیری تقویتی (RL) تاریخچه‌ای غنی دارد که عمیقاً در یادگیری خودمختار ریشه دارد، جایی که عامل‌ها از طریق تعامل مستقیم با محیط خود برای خودشان یاد می‌گیرند. تحقیقات اولیه RL مجموعه‌ای از مفاهیم و الگوریتم‌های قدرتمند را به همراه داشت. به عنوان مثال، یادگیری تفاوت زمانی (temporal difference learning) [35] عامل‌ها را قادر ساخت تا پاداش‌های آتی را تخمین بزنند، که منجر به پیشرفت‌هایی مانند عملکرد فرابشری در تخته نرد [39] شد. تکنیک‌های اکتشاف (Exploration)، که توسط خوش‌بینی یا کنجکاوی هدایت می‌شوند، برای کمک به عامل‌ها در کشف رفتارهای خلاقانه جدید و جلوگیری از گیر افتادن در روال‌های نامطلوب توسعه یافتند [2]. روش‌هایی مانند الگوریتم Dyna به عامل‌ها امکان ساخت و یادگیری از مدل‌های جهان خود را داد و به آنها اجازه داد تا در مورد اقدامات آتی برنامه‌ریزی و استدلال کنند [36، 29]. مفاهیمی مانند گزینه‌ها (options) و یادگیری درون/بین گزینه‌ها (inter/intra-option learning) انتزاع زمانی (temporal abstraction) را تسهیل کردند و عامل‌ها را قادر ساختند تا در مقیاس‌های زمانی طولانی‌تر استدلال کنند و وظایف پیچیده را به اهداف فرعی قابل مدیریت تقسیم کنند [38].

با این حال، ظهور LLM های انسان‌محور، تمرکز را از یادگیری خودمختار به سمت بهره‌برداری از دانش انسانی تغییر داد. تکنیک‌هایی مانند RLHF (یادگیری تقویتی از بازخورد انسانی) [9، 25] و روش‌هایی برای همسو کردن مدل‌های زبانی با استدلال انسانی [44] فوق‌العاده مؤثر بودند و پیشرفت سریعی را در قابلیت‌های هوش مصنوعی به ارمغان آوردند. این رویکردها، اگرچه قدرتمند هستند، اغلب مفاهیم اصلی RL را دور می‌زدند: RLHF با فراخوانی متخصصان انسانی به جای مقادیر تخمین‌زده شده توسط ماشین، نیاز به توابع ارزش (value functions) را کنار گذاشت، پیش‌فرض‌های قوی (strong priors) از داده‌های انسانی اتکا به اکتشاف را کاهش داد، و استدلال بر اساس اصطلاحات انسان‌محور نیاز به مدل‌های جهانی و انتزاع زمانی را کاهش داد.

با این حال، می‌توان استدلال کرد که تغییر پارادایم، کودک را با آب حمام بیرون انداخته است (throw out the baby with the bathwater). در حالی که RL انسان‌محور گستره بی‌سابقه‌ای از رفتارها را امکان‌پذیر کرده است، همچنین سقف جدیدی را بر عملکرد عامل تحمیل کرده است: عامل‌ها نمی‌توانند فراتر از دانش موجود انسانی بروند. علاوه بر این، عصر داده‌های انسانی عمدتاً بر روش‌های RL متمرکز بوده است که برای قسمت‌های کوتاه تعامل غیر ریشه‌دار (ungrounded) و انسانی طراحی شده‌اند و برای جریان‌های طولانی تعامل ریشه‌دار (grounded) و خودمختار مناسب نیستند.

عصر تجربه فرصتی برای بازبینی و بهبود مفاهیم کلاسیک RL فراهم می‌کند. این عصر راه‌های جدیدی برای تفکر در مورد توابع پاداش که به طور انعطاف‌پذیر در داده‌های مشاهده‌ای ریشه دارند، به ارمغان خواهد آورد. توابع ارزش و روش‌های تخمین آنها از جریان‌های طولانی با دنباله‌های هنوز ناقص را بازبینی خواهد کرد. روش‌های اصولی و در عین حال عملی برای اکتشاف در دنیای واقعی را به ارمغان خواهد آورد که رفتارهای جدیدی را کشف می‌کنند که به طور رادیکال با پیش‌فرض‌های انسانی متفاوت هستند. رویکردهای بدیع به مدل‌های جهانی توسعه خواهند یافت که پیچیدگی‌های تعاملات ریشه‌دار را ثبت می‌کنند. روش‌های جدید برای انتزاع زمانی به عامل‌ها اجازه می‌دهد تا بر اساس تجربه، در افق‌های زمانی طولانی‌تر استدلال کنند. با بنا نهادن بر پایه‌های RL و تطبیق اصول اصلی آن با چالش‌های این عصر جدید، می‌توانیم پتانسیل کامل یادگیری خودمختار را باز کنیم و راه را برای هوش واقعاً فرابشری هموار کنیم.

پیامدها (Consequences)

ظهور عصر تجربه، جایی که عامل‌های هوش مصنوعی از تعاملات خود با جهان یاد می‌گیرند، نویدبخش آینده‌ای عمیقاً متفاوت از هر چیزی است که قبلاً دیده‌ایم. این پارادایم جدید، در حالی که پتانسیل عظیمی را ارائه می‌دهد، خطرات و چالش‌های مهمی را نیز به همراه دارد که نیازمند بررسی دقیق هستند، از جمله موارد زیر اما نه محدود به آنها. از جنبه مثبت، یادگیری تجربی قابلیت‌های بی‌سابقه‌ای را باز خواهد کرد. در زندگی روزمره، دستیارهای شخصی‌سازی شده از جریان‌های پیوسته تجربه برای سازگاری با نیازهای سلامتی، آموزشی یا حرفه‌ای افراد به سمت اهداف بلندمدت در طول ماه‌ها یا سال‌ها استفاده خواهند کرد. شاید متحول‌کننده‌ترین مورد، تسریع کشف علمی باشد. عامل‌های هوش مصنوعی به طور خودمختار آزمایش‌هایی را در زمینه‌هایی مانند علم مواد، پزشکی یا طراحی سخت‌افزار طراحی و اجرا خواهند کرد. با یادگیری مداوم از نتایج آزمایش‌های خود، این عامل‌ها می‌توانند به سرعت مرزهای جدید دانش را کاوش کنند و منجر به توسعه مواد، داروها و فناوری‌های بدیع با سرعتی بی‌سابقه شوند.

با این حال، این عصر جدید چالش‌های مهم و بدیعی را نیز به همراه دارد. در حالی که اتوماسیون قابلیت‌های انسانی نویدبخش افزایش بهره‌وری است، این بهبودها همچنین می‌تواند منجر به جابجایی شغلی شود. عامل‌ها حتی ممکن است قادر به نشان دادن قابلیت‌هایی باشند که قبلاً قلمرو انحصاری بشریت محسوب می‌شد، مانند حل مسئله بلندمدت، نوآوری و درک عمیق از پیامدهای دنیای واقعی.

علاوه بر این، در حالی که نگرانی‌های عمومی در مورد سوء استفاده بالقوه از هر هوش مصنوعی وجود دارد، خطرات بیشتری ممکن است از عامل‌هایی ناشی شود که می‌توانند به طور خودمختار با جهان در دوره‌های زمانی طولانی برای دستیابی به اهداف بلندمدت تعامل کنند. به طور پیش‌فرض، این امر فرصت‌های کمتری را برای انسان‌ها برای مداخله و میانجی‌گری در اقدامات عامل فراهم می‌کند و بنابراین نیازمند سطح بالایی از اعتماد و مسئولیت‌پذیری است. دور شدن از داده‌های انسانی و شیوه‌های تفکر انسانی نیز ممکن است تفسیر سیستم‌های هوش مصنوعی آینده را دشوارتر کند. با این حال، ضمن اذعان به اینکه یادگیری تجربی برخی خطرات ایمنی را افزایش می‌دهد و تحقیقات بیشتری قطعاً برای اطمینان از گذار ایمن به عصر تجربه مورد نیاز است، باید همچنین تشخیص دهیم که ممکن است برخی مزایای ایمنی مهم را نیز فراهم کند.

اولاً، یک عامل تجربی از محیطی که در آن قرار دارد آگاه است و رفتار آن می‌تواند در طول زمان با تغییرات آن محیط سازگار شود. هر سیستم از پیش برنامه‌ریزی شده، از جمله یک سیستم هوش مصنوعی ثابت، می‌تواند از زمینه محیطی خود بی‌اطلاع باشد و با دنیای در حال تغییری که در آن مستقر شده است، ناسازگار شود. به عنوان مثال، یک قطعه سخت‌افزاری حیاتی ممکن است دچار نقص شود، یک بیماری همه‌گیر ممکن است باعث تغییر سریع اجتماعی شود، یا یک کشف علمی جدید ممکن است باعث آبشاری از تحولات سریع فناوری شود. در مقابل، یک عامل تجربی می‌تواند سخت‌افزار معیوب را مشاهده کرده و یاد بگیرد که آن را دور بزند، با تغییرات سریع اجتماعی سازگار شود، یا علم و فناوری جدید را بپذیرد و بر آن بنا نهد. شاید حتی مهم‌تر از آن، عامل بتواند تشخیص دهد که چه زمانی رفتارش باعث نگرانی، نارضایتی یا پریشانی انسان می‌شود و به طور تطبیقی رفتار خود را برای جلوگیری از این پیامدهای منفی اصلاح کند.

ثانیاً، تابع پاداش عامل ممکن است خود از طریق تجربه تطبیق داده شود، به عنوان مثال با استفاده از بهینه‌سازی دو سطحی که قبلاً توضیح داده شد (به بخش پاداش‌ها مراجعه کنید). نکته مهم این است که این بدان معنی است که توابع پاداش نامناسب (misaligned) اغلب می‌توانند به تدریج در طول زمان با آزمون و خطا اصلاح شوند. به عنوان مثال، به جای بهینه‌سازی کورکورانه یک سیگنال، مانند حداکثر کردن گیره‌های کاغذ [5]، تابع پاداش می‌تواند بر اساس نشانه‌های نگرانی انسانی، قبل از اینکه تولید گیره کاغذ تمام منابع زمین را مصرف کند، اصلاح شود. این مشابه روشی است که انسان‌ها برای یکدیگر اهداف تعیین می‌کنند و سپس اگر مشاهده کنند که افراد سیستم را بازی می‌دهند (gaming the system)، رفاه بلندمدت را نادیده می‌گیرند یا باعث پیامدهای منفی ناخواسته می‌شوند، آن اهداف را تطبیق می‌دهند؛ اگرچه مانند هدف‌گذاری انسانی، هیچ تضمینی برای همسویی کامل وجود ندارد.

در نهایت، پیشرفت‌هایی که به تجربه فیزیکی متکی هستند، ذاتاً با زمانی که برای اجرای اقدامات در دنیای واقعی و مشاهده پیامدهای آنها لازم است، محدود می‌شوند. به عنوان مثال، توسعه یک داروی جدید، حتی با طراحی به کمک هوش مصنوعی، هنوز به آزمایش‌های دنیای واقعی نیاز دارد که نمی‌توان یک شبه آنها را تکمیل کرد. این ممکن است یک ترمز طبیعی بر سرعت بهبود بالقوه خودکار هوش مصنوعی ایجاد کند.

نتیجه‌گیری (Conclusion)

عصر تجربه نقطه عطفی در تکامل هوش مصنوعی است. با بنا نهادن بر پایه‌های قوی امروزی، اما فراتر رفتن از محدودیت‌های داده‌های مشتق شده از انسان، عامل‌ها به طور فزاینده‌ای از تعاملات خود با جهان یاد خواهند گرفت. عامل‌ها به طور خودمختار از طریق مشاهدات و اقدامات غنی با محیط‌ها تعامل خواهند کرد. آنها در طول جریان‌های مادام‌العمر تجربه به سازگاری ادامه خواهند داد. اهداف آنها به سمت هر ترکیبی از سیگنال‌های ریشه‌دار قابل هدایت خواهد بود. علاوه بر این، عامل‌ها از استدلال قدرتمند غیرانسانی استفاده خواهند کرد و برنامه‌هایی را خواهند ساخت که در پیامدهای اقدامات عامل بر محیط آن ریشه دارند. در نهایت، داده‌های تجربی از مقیاس و کیفیت داده‌های تولید شده توسط انسان پیشی خواهند گرفت. این تغییر پارادایم، همراه با پیشرفت‌های الگوریتمی در RL، در بسیاری از حوزه‌ها قابلیت‌های جدیدی را باز خواهد کرد که از قابلیت‌های هر انسانی فراتر می‌رود.

تقدیر و تشکر (Acknowledgements)

نویسندگان مایلند از نظرات و بحث‌های مفید توماس دگریس، روهین شاه، تام شاول و هادو ون هاسلت قدردانی کنند.

رفرنس‌ها

[1]
I. Akkaya, M. Andrychowicz, M. Chociej, M. Litwin, B. McGrew, A. Petron, A. Paino, M. Plappert, G. Powell, R. Ribas, J. Schneider, N. Tezak, J. Tworek, P. Welinder, L. Weng, Q. Yuan, W. Zaremba, and L. Zhang. Solving Rubik’s cube with a robot hand, 2019.
[2]
S. Amin, M. Gomrokchi, H. Satija, H. van Hoof, and D. Precup. A survey of exploration methods in reinforcement learning, 2021.
[3]
Anthropic. Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku. https://www.anthropic.com/news/3-5-models-and-computer-use, 2024.
[4]
C. Berner, G. Brockman, B. Chan, V. Cheung, P. Debiak, C. Dennison, D. Farhi, Q. Fischer, S. Hashme, C. Hesse, R. Jozefowicz, S. Gray, C. Olsson, J. Pachocki, M. Petrov, H. P. d. O. Pinto, J. Raiman, T. Salimans, J. Schlatter, J. Schneider, S. Sidor, I. Sutskever, J. Tang, F. Wolski, and S. Zhang. Dota 2 with large scale deep reinforcement learning, 2019.
[5]
N. Bostrom. Ethical issues in advanced artificial intelligence. https://nickbostrom.com/ethics/ai, 2003.
[6]
N. Brown and T. Sandholm. Superhuman AI for heads-up no-limit poker: Libratus beats top professionals. Science, 359(6374):418–424, 2018.
[7]
X. Chen, M. Lin, N. Scharli, and D. Zhou. Teaching large language models to self-debug, 2023.
[8]
N. Chentanez, A. Barto, and S. Singh. Intrinsically motivated reinforcement learning. In L. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems, volume 17. MIT Press, 2004.
[9]
P. F. Christiano, J. Leike, T. Brown, M. Martic, S. Legg, and D. Amodei. Deep reinforcement learning from human preferences. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30. Curran Associates, Inc., 2017.
[10]
DeepSeek AI. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.
[11]
M. Elsayed, G. Vasan, and A. R. Mahmood. Streaming deep reinforcement learning finally works, 2024.
[12]
J. Gehring, K. Zheng, J. Copet, V. Mella, Q. Carbonneaux, T. Cohen, and G. Synnaeve. Rlef: Grounding code llms in execution feedback with reinforcement learning, 2025.
[13]
Google DeepMind. Deepmind AI reduces google data centre cooling bill by 40%. https://deepmind.google/discover/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-by-40/, 2016.
[14]
Google DeepMind. Gemini: Flash thinking. https://deepmind.google/technologies/gemini/flash-thinking/, 2024.
[15]
Google DeepMind. Project Mariner. https://deepmind.google/technologies/project-mariner, 2024.
[16]
T. Kojima, S. S. Gu, M. Reid, Y. Matsuo, and Y. Iwasawa. Large language models are zero-shot reasoners. In S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, and A. Oh, editors, Advances in Neural Information Processing Systems, volume 35, pages 22199–22213. Curran Associates, Inc., 2022.
[17]
H. Le, Y. Wang, A. D. Gotmare, S. Savarese, and S. C. H. Hoi. CodeRL: Mastering code generation through pretrained models and deep reinforcement learning, 2022.
[18]
H. Lightman, V. Kosaraju, Y. Burda, H. Edwards, B. Baker, T. Lee, J. Leike, J. Schulman, I. Sutskever, and K. Cobbe. Let’s verify step by step, 2023.
[19]
H. Mahdavi, A. Hashemi, M. Daliri, P. Mohammadipour, A. Farhadi, S. Malek, Y. Yazdanifard, A. Khasahmadi, and V. Honavar. Brains vs. bytes: Evaluating llm proficiency in olympiad mathematics, 2025.
[20]
H. Masoom, A. Huang, M. Z. Horvath, T. Zahavy, V. Veeriah, E. Wieser, J. Yung, L. Yu, Y. Schroecker, J. Schrittwieser, O. Bertolli, B. Ibarz, E. Lockhart, E. Hughes, M. Rowland, G. Margand, A. Davies, D. Zheng, I. Beloshapka, I. von Glehn, Y. Li, F. Pedregosa, A. Velingker, G. Zuˇ ziˇ c, O. Nash, B. Mehta, P. Lezeau, S. Mercuri, L. Wu, C. Soenne, T. Murrills, L. Massacci, A. Yang, A. Mandhane, T. Eccles, E. Aygun, Z. Gong, R. Evans, S. Mokra, A. Barekatain, W. Shang, H. Openshaw, F. Gimeno, D. Silver, and P. Kohli. AI achieves silver-medal standard solving International Mathematical Olympiad problems. https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/, 2024.
[21]
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
[22]
M. Moravck, M. Schmid, N. Burch, V. Lisy, D. Morrill, N. Bard, T. Davis, K. Waugh, M. Johanson, and M. Bowling. Deepstack: Expert-level artificial intelligence in heads-up no-limit poker. Science, 356(6337):508–513, 2017.
[23]
OpenAI. Openai o1 mini: Advancing cost-efficient reasoning. https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/, 2024.
[24]
OpenAI. Introducing Operator. https://openai.com/index/introducing-operator, 2025.
[25]
L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, J. Schulman, J. Hilton, F. Kelton, L. Miller, M. Simens, A. Askell, P. Welinder, P. Christiano, J. Leike, and R. Lowe. Training language models to follow instructions with human feedback, 2022.
[26]
J. Perolat, B. D. Vylder, D. Hennes, E. Tarassov, F. Strub, V. de Boer, P. Muller, J. T. Connor, N. Burch, T. Anthony, S. McAleer, R. Elie, S. H. Cen, Z. Wang, A. Gruslys, A. Malysheva, M. Khan, S. Ozair, F. Timbers, T. Pohlen, T. Eccles, M. Rowland, M. Lanctot, J.-B. Lespiau, B. Piot, S. Omidshafiei, E. Lockhart, L. Sifre, N. Beauguerlange, R. Munos, D. Silver, S. Singh, D. Hassabis, and K. Tuyls. Mastering the game of Stratego with model-free multiagent reinforcement learning. Science, 378(6623):990–996, 2022.
[27]
I. Petrov, J. Dekoninck, L. Baltadzhiev, M. Drencheva, K. Minchev, M. Balunovic, N. Jovanovic, and M. Vechev. Proof or bluff? evaluating llms on 2025 usa math olympiad, 2025.
[28]
M. Sadler and N. Regan. Game Changer. New in Chess, 2019.
[29]
J. Schrittwieser, I. Antonoglou, T. Hubert, K. Simonyan, L. Sifre, S. Schmitt, A. Guez, E. Lockhart, D. Hassabis, T. Graepel, T. P. Lillicrap, and D. Silver. Mastering Atari, Go, chess and shogi by planning with a learned model. Nature, 588:604 – 609, 2019.
[30]
D. Schurmanns. Memory augmented large language models are computationally universal. arXiv preprint arXiv:2501.12948, 2023.
[31]
D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, and D. Hassabis. Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587):484–489, 2016.
[32]
D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, M. Lanctot, L. Sifre, D. Kumaran, T. Graepel, T. Lillicrap, K. Simonyan, and D. Hassabis. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419):1140–1144, 2018.
[33]
D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, Y. Chen, T. Lillicrap, F. Hui, L. Sifre, G. van den Driessche, T. Grapel, and D. Hassabis. Mastering the game of go without human knowledge. Nature, 550(7676):354–359, 2017.
[34]
D. Silver, S. Singh, D. Precup, and R. S. Sutton. Reward is enough. Artificial Intelligence, 299:103535, 2021.
[35]
R. S. Sutton. Learning to predict by the methods of temporal differences. Machine Learning, 3:9–44, 1988.
[36]
R. S. Sutton. Integrated architectures for learning, planning, and reacting based on approximating dynamic programming. In Proceedings of the Seventh International Conference on Machine Learning, pages 216–224. Morgan Kaufmann, 1990.
[37]
R. S. Sutton and A. G. Barto. Reinforcement Learning: An Introduction. The MIT Press, second edition, 2018.
[38]
R. S. Sutton, D. Precup, and S. Singh. Between mdps and semi-mdps: A framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 112(1-2):181–211, 1999.
[39]
G. Tesauro. TD-Gammon, a self-teaching backgammon program, achieves master-level play. Neural Computation, 6(2):215–219, 1994.
[40]
O. Vinyals, I. Babuschkin, W. M. Czarnecki, M. Mathieu, A. Dudzik, J. Chung, D. Choi, R. Powell, T. Ewalds, P. Georgiev, J. Oh, D. Horgan, M. Kroiss, I. Danihelka, A. Huang, L. Sifre, T. Cai, J. P. Agapiou, M. Jaderberg, A. S. Vezhnevets, R. Leblond, T. Pohlen, V. Dalibard, D. Budden, Y. Sulsky, J. Molloy, T. L. Paine, C. Gulcehre, Z. Wang, T. Pfaff, Y. Wu, R. Ring, D. Yogatama, D. Wunsch, K. McKinney, O. Smith, T. Schaul, T. P. Lillicrap, K. Kavukcuoglu, D. Hassabis, C. Apps, and D. Silver. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575:350 – 354, 2019.
[41]
P. R. Wurman, S. Barrett, K. Kawamoto, J. MacGlashan, K. Subramanian, T. J. Walsh, R. Capobianco, A. Devlic, F. Eckert, F. Fuchs, L. Gilpin, P. Khandelwal, V. Kompella, H. Lin, P. MacAlpine, D. Oller, T. Seno, C. Sherstan, M. D. Thomure, H. Aghabozorgi, L. Barrett, R. Douglas, D. Whitehead, P. Durr, P. Stone, M. Spranger, and H. Kitano. Outracing champion Gran Turismo drivers with deep reinforcement learning. Nature, 602(7896):223–228, 2022.
[42]
M. S. Yang, D. Schuurmans, P. Abbeel, and O. Nachum. Chain of thought imitation with procedure cloning. In S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, and A. Oh, editors, Advances in Neural Information Processing Systems, volume 35, pages 36366–36381. Curran Associates, Inc., 2022.
[43]
S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, and Y. Cao. React: Synergizing reasoning and acting in large language models. In 11th International Conference on Learning Representations, 2023.
[44]
E. Zelikman, J. M. Mu, N. D. Goodman, and G. Poesia. Star: Bootstrapping reasoning with reasoning. Advances in Neural Information Processing Systems, 35:24170–24184, 2022.
[45]
Y. Zhou. Rethinking Opening Strategy: AlphaGo’s Impact on Pro Play. CreateSpace Independent, 2018.

پاورقی‌ها

  1. یک الگوریتم RL الگوریتمی است که یاد می‌گیرد با آزمون و خطا به هدفی دست یابد، یعنی رفتار خود را از تجربه تعامل با محیطش تطبیق می‌دهد. تطبیق ممکن است به هر وسیله‌ای اتفاق بیفتد، به عنوان مثال به‌روزرسانی وزن‌های یک شبکه عصبی، یا تطبیق در زمینه (in-context) بر اساس بازخورد از محیط. ↩︎

  2. تجربه و داده‌های انسانی دقیقاً متضاد نیستند. به عنوان مثال، یک سگ کاملاً از تجربه یاد می‌گیرد، اما تعامل انسانی بخشی از تجربه آن است. ↩︎

  3. فرضیه “پاداش کافی است” (reward-is-enough) نشان می‌دهد که هوش و توانایی‌های مرتبط با آن، می‌توانند به طور طبیعی از حداکثرسازی پاداش پدیدار شوند. این ممکن است شامل محیط‌هایی حاوی تعامل انسانی و پاداش‌های مبتنی بر بازخورد انسانی باشد. ↩︎

  4. در این مورد، همچنین می‌توان بازخورد انسانی ریشه‌دار را به عنوان یک تابع پاداش واحد در نظر گرفت که هدف کلی عامل را تشکیل می‌دهد، که با ساخت و بهینه‌سازی یک تابع پاداش ذاتی [8] مبتنی بر بازخورد غنی و ریشه‌دار، حداکثر می‌شود. ↩︎

این پست تحت مجوز CC BY 4.0 توسط نویسنده منتشر شده است.