автордың кітабын онлайн тегін оқу Реальность на кону: Как игры объясняют человеческую природу
Следующему поколению — и особенно моему сыну Киллиану, племянницам Фионе и Кире и племяннику Ронану. Если игра — это машина творения, мне не терпится увидеть, какие новые миры вы создадите
Часть I
Как познать непознанное
1
Игра творения
«Лила» — это игра [1] творения. Для пробужденного сознания вся вселенная с ее радостями и печалями, наслаждениями и страданиями представляется божественной игрой, забавой или постановкой. Это пьеса, в которой единое Сознание играет все роли.
Кендра Кроссен-Берроуз
Давно забытая игра ритмомахия («бой чисел») когда-то была самой популярной образовательной технологией средневековой Европы. Она оставалась обязательной частью монастырской учебной программы почти 500 лет. Овидий восхвалял ее как «лист, цветок и плод Арифметики [2], ее славу, хвалу и честь». Томас Мор изображал добродетельных жителей своей Утопии играющими в ритмомахию вместо «гибельных» [1] игр вроде костей. Элита играла в нее отчасти для демонстрации своей учености. Церковные деятели верили, что игра не только обучает, но и просвещает: она учит игроков всеохватной гармонии мироздания и даже укрощает буйные нравы. Ритмомахия — «истинное пиршество для ума» — без слов открывала ученикам божественные истины через красоту игры [3].
Также известная как «Игра философов», ритмомахия была игрой на захват фишек противника, родственной шахматам. Два игрока передвигали черные и белые фигуры разной формы по расчерченной на клетки доске в соответствии с особыми для каждой формы правилами. В отличие от шахмат, на фигурах были выгравированы цифры, призванные выражать идеи из теории чисел. Игрок мог взять фигуру соперника, только если числа на вступивших в бой фигурах находились в определенном геометрическом соотношении. Победа одерживалась, когда три или четыре фигуры выстраивались на стороне противника в «гармонию», то есть в геометрическую прогрессию.
Традиционно создание этой игры приписывали древнегреческому философу Пифагору, жившему в VI в. до н.э., хотя первые письменные упоминания о ней датируются лишь 1030 г. н.э. Тем не менее она явно отражала его учение. Ритмомахия считалась вершиной квадривиума — системы высшего образования, воплощающей пифагорейские идеалы поклонения числам. Квадривиум включал арифметику (чистые числа), геометрию (числа в пространстве), музыку (числа во времени) и астрономию (числа в пространстве и времени). В ритмомахии числа и формы двигались по доске в особом танце, складываясь в пространственные узоры, меняющиеся во времени. Эти идеи, какими бы безобидными они ни казались, заложили основу для одного из самых абсурдных утаиваний в истории науки.
Хотя ни одно из сочинений Пифагора до нас не дошло, его влияние на европейскую мысль было огромным. Родившись в Греции, он, по слухам, провел 20 лет, обучаясь у религиозных мистиков в Египте, прежде чем основать свою секту в греческой колонии Кротон. Его учение было аскетичным: он проповедовал вегетарианство и воздержание в эпоху морального упадка и растущей политической нестабильности. Его последователи совместно владели всем имуществом и сообща принимали пищу. Пифагор запрещал есть бобы из-за их сходства с человеческими зародышами, поскольку опасался, что там могут скрываться души людей. Но в первую очередь его учение обожествляло числа: они являлись для него строительными блоками всего мироздания. Числа стояли выше богов — они были их первопричиной.
«Все есть число», — провозглашал Пифагор. Однако не все числа были в его глазах равны. Центральное место в его космологии занимала идея гармонии. Он обнаружил, что высота музыкального тона зависит от длины колеблющейся струны, а гармония возникает, когда длины тронутых струн точно кратны друг другу. Поэтому он считал пропорции священными, веря, что они выражают гармонию Вселенной. Он поклонялся тому, что теперь называют рациональными числами, — целым числам (таким как 1, 2, 3) и их соотношениям (вроде одной трети или пяти шестых). Эти фундаментальные элементы, считал он, составляют основу всех явлений во Вселенной.
За два десятилетия своего пребывания в Кротоне его растущая община приобрела заметное политическое влияние. В конце концов местные правители сочли странного вегетарианца угрозой своей власти. Они надоумили разъяренную толпу изгнать общину, спалив ее здания дотла. Легенды по-разному описывают финал жизни Пифагора: изгнание, гибель в огне или самоубийство. Одна из версий гласит, что он спасался бегством, но остановился перед полем бобов, не желая топтать священное растение, и в итоге был настигнут и казнен преследователями. Несмотря на эту неудачу, его секта просуществовала еще 300 лет, а его идеи господствовали в европейской философии и образовании почти два тысячелетия.
Догматизм — враг интеллектуального прогресса. К сожалению, преданность Пифагора рациональным числам привела к научному подлогу. Считается, что один из его учеников, Гиппас, случайно открыл иррациональные числа в V в. до н.э. Если рациональные числа можно выразить как соотношение двух чисел, то иррациональные нельзя. Рациональные числа могут быть определены совершенно точно: одна вторая равна 0,5. Одна треть — это 0,3333…, где тройка повторяется бесконечно. Мы заведомо знаем, что ее семимиллиардный знак — тройка. Квадратный корень из двух, напротив, иррационален. Он равен 1,41421356237… — десятичной дроби без конца или повторяющихся цифр. Иррациональные числа невозможно определить точно. Чтобы узнать семимиллиардный знак квадратного корня из двух, его нужно вычислить. Гиппас осознал, что иррациональные числа — это «алогос» (греч. ἄλογος), то есть «невыразимое». Их существование прямо противоречило пифагорейской доктрине, согласно которой все явления состоят из целых чисел и их соотношений. Они разрушали всю ту определенность и постижимость, которые, по убеждению Пифагора, числа придают Вселенной. Вскоре после сообщения о своем открытии Гиппас бесследно исчез; по некоторым сведениям, его утопили в море. Согласно легенде, секта оправдывала его убийство как жертвоприношение Посейдону, что ставило это деяние вне правовой юрисдикции.
Некоторые историки-медиевисты винят квадривиум в том, что он задержал развитие европейской науки на сотни лет. Его упор на гармонию ослеплял ученых, мешая им замечать фундаментальные достижения, например открытие иррациональных чисел или небесной механики. К XVII в. квадривиум был уже почти забыт, а математические методы, пришедшие из Персии и Индии, привели к прорывам в исчислении и теории вероятностей. Ритмомахию постигла та же участь. Гармонии, которые Пифагор и его последователи считали основой мироздания, оказались хрупким идеалом. Планеты движутся по эллиптическим, а не круговым орбитам, бросая вызов моделям вселенской упорядоченности. Иррациональные числа не просто существуют — размер их множества настолько велик, что оно полностью затмевает множество рациональных чисел. Если записать все рациональные и иррациональные числа на листках бумаги и бросить их в гигантскую шляпу, шанс вытащить рациональное число просто ничтожен — в математической вселенной они встречаются исчезающе редко.
Игры — это своего рода неистинная истина. То, что последовательно и согласовано в игре, необязательно отражает какие-либо факты, касающиеся реальности. Тем не менее игры все чаще используются как модели нашего мира. Игры для нас — это способ научиться анализировать поведение объектов в системах с четко определенными правилами. В лучшем случае игры позволяли нам глубже понять математику. Но в то же самое время идеологи использовали игры, чтобы сглаживать острые углы реальности.
Справедливости ради, сама игра никогда не является проблемой; проблема в догме, которой она служит. Мыслителей сдерживал принцип гармонии, а не ритмомахия. Ритмомахия была просто его представлением, запечатлевающим этот эстетический идеал в сознании многих поколений ученых. Игра вознаграждает игроков за принятие ее установок. Пацифист не сможет пройти Call of Duty, отказываясь стрелять в виртуальных противников; социалист не победит в «Монополии», не усвоив капиталистические замашки. Точно так же ритмомахия соблазняла своих игроков красотой пифагорейских идеалов. Игры больше чем модели мира; это модели, которые поощряют нашу в них веру. Они могут влиять на наше восприятие реальности — будь то к лучшему или к худшему. Таким образом, игры также обнажают убеждения и привычки играющих. Изучая наши взаимоотношения с играми на протяжении истории, мы можем лучше понять представления людей далекого прошлого и яснее увидеть свои собственные.
Игры древнее письменности. Го, шахматы, нарды и манкала — это живые ископаемые; они пережили империи и покорили многие культуры. Им нипочем даже лингвистические преграды: в игре мы можем взаимодействовать с сознанием другого человека независимо от его языка. Можно представить себе таверну в Древней Месопотамии, где собрались купцы и путешественники из дальних краев — неспособные объясниться на словах, но все же проводящие вечера за настольной игрой. На протяжении всей истории мигранты берегли свои игры как культурное наследие, сохраняя их на протяжении тысячелетий. Сегодня через игры себя определяют целые субкультуры, охватывающие многие континенты и разные поколения. Игры никуда не деваются, потому что задействуют универсальную систему обучения, присущую всем людям. Игры — продукт одновременно культуры и биологии, стимул, который мозг постепенно выработал для получения дармового удовольствия. Хотя игры часто сбрасывают со счетов как «баловство», они владеют человеческим вниманием на протяжении тысячелетий.
Люди настолько заворожены играми, что регулярно используют их как средство от тревог тяжелых времен. В своем описании Греко-персидских войн Геродот утверждал, что игры спасли жителей Лидии в период лишений. Лидийцы, писал он, были во многом похожи на греков. Они первыми начали чеканить монету и, по их собственному мнению, изобрели несколько игр, ныне распространенных повсеместно. Где-то во II тысячелетии до н.э. их поразил многолетний голод, но они нашли утешение в игре:
Потом, когда голод не прекращался [4], они стали измышлять средства против него, причем каждый придумывал свое особое. Тогда-то, говорят они, и были изобретены игры в кубы, в кости, в мяч и другие, кроме шахматной игры; изобретение шахмат лидяне себе не приписывают. Изобретения эти служили для них средством против голода: один день они играли непрерывно, чтобы не думать о пище, на другой день ели и оставляли игру. Таким образом они жили восемнадцать лет [2].
Хотя лидийцы едва ли изобрели перечисленные тут игры (кости точно существовали задолго до того), вполне можно вообразить, что они действительно искали в играх убежища в периоды нехватки пищи. Игры захватывающи по своей природе. История полна рассказов о знаменитых людях, погубленных страстью к играм или ставкам. Даже в наше время ежегодно фиксируется несколько случаев смерти во время игры — обычно от истощения, хотя некоторых и убивают в пылу соперничества [5]. Я упоминаю этот факт не для того, чтобы очернить игры, но для того, чтобы показать их силу. Тысячелетиями игры завораживали людей. Сегодня они, можно сказать, стали мощнейшим каналом распространения культуры. Они представляют собой сверхсильный стимул, настоящую психотропную технологию, поскольку с течением времени оказались приспособлены для максимального воздействия на систему вознаграждения нашего мозга. Изучая то, что люди любят, мы лучше понимаем людей. Более того — мы лучше понимаем само понимание: игры сильно повлияли на то, как мы накапливаем знания и осмысляем неизвестное.
Одна из трудностей при обсуждении игр — их гибкость как метафоры. Является ли «игра в понарошку» игрой? А экзамен? А головоломка? Существуют игры без игроков, массовые многопользовательские онлайн-игры, игры с отрицательной, нулевой или положительной суммой. Чтобы избежать пространных классификаций, я грубо определю игру как систему, наделенную некой целью. В условиях частичной неопределенности (будь то результат броска кости или выбора соперником своей стратегии) игроки принимают решения, стремясь достичь этой цели. Игра — это всегда столкновение с неизвестным и освоение способов его преодоления. «Развлечение — это просто другое слово для обучения» [6], — пишет гейм-дизайнер Раф Костер. Кости и шахматы имеют мало общего, за исключением того, что в обоих случаях игроки пытаются предсказать развитие событий. В азартных играх они стремятся предугадать поведение среды, а в шахматах — действия противника. Игра может выглядеть как аукцион (с целью приобрести желанный товар по разумной цене), социальные сети (с целью привлечь внимание) или SimCity (с целью построить в цифровом пространстве устойчиво развивающийся мегаполис).
Случай занимает центральное место во многих играх, потому что случайность — это основополагающий поисковый алгоритм природы. Случайные мутации движут вперед эволюцию. Современные научные эксперименты задействуют рандомизацию, чтобы исключить влияние личных предпочтений и предрассудков ученых. Специалисты по машинному обучению применяют в своих моделях случайность, чтобы выталкивать систему из локальных минимумов и тщательнее исследовать пространство решений. Случайность же лежит в основе нашего древнего стремления играть. Задолго до людей и даже до млекопитающих это стремление появилось еще у самых первых животных.
Игра распространила природную стратегию случайного поиска на сферу поведения. Она сыграла ключевую роль в возникновении интеллекта. Эволюция относительно медленно реагирует на перемены в окружающей среде. Инновации распространяются лишь с той скоростью, с которой генетические мутации могут охватить всю популяцию. Возникновение нервной системы позволило животным быстро реагировать на изменения внешних условий, например мигрировать при смене климата или учиться избегать представителей ядовитого инвазивного вида. Однако жестко запрограммированные рефлексы могут быть неадаптивными: вспомните, как многие кошки абсурдно бурно реагируют на огурцы из-за врожденного страха перед змеями. Игра разделяет поведение и автоматические рефлексы, обеспечивая ему гибкость. Она привносит в сферу опыта случайность, создавая безопасную платформу для испытания неизвестного. Игра открывает животным новые горизонты, позволяя им сформировать арсенал адаптивных и надежных поведенческих программ. Играя, животные в случайном поиске вырабатывают целый спектр стратегий: если выполняется условие А, попробуй действие Б; если условие В, попробуй Г, а затем Д. Вместо негибкого ответа врожденного рефлекса игра позволяет исследовать набор вариантов, часть из которых оказываются более адаптивными, чем другие. Это настоящее горнило изобретательности — система обучения, подражающая гению эволюции. В естественном отборе мутации, ведущие к появлению особей, тела которых соответствуют требованиям среды, вознаграждаются выживанием. В игре закрепляются те модели поведения, которые верно предвосхищают эти требования. Игра для интеллекта — это то же, что мутация для эволюции.
Этим же объясняется и то, почему игра так часто предполагает потерю контроля. Выдры скатываются с грязевых склонов, птицы парят на воздушных потоках, дети кубарем валяются в пылу борьбы. Игра — это тренировка навыка обращения с неожиданным. Играющие животные намеренно попадают в безопасные неприятности, что помогает им научиться избегать настоящих угроз. Игровое поведение позволяет нашему мозгу строить более надежные модели мира, извлекая уроки из опыта, который иначе был бы нам недоступен [7]. Оно также представляет собой способ налаживания и проверки социальных связей. Игра — это деятельность, которая превращает неукрощенную реальность в нечто постижимое.
Если животным игровое поведение позволяет исследовать возможности своего тела, то людям игры помогают раскрывать потенциал своего разума. Тысячелетиями игры помогали оттачивать человеческую способность к логическому мышлению и интерактивному принятию решений. Первые свидетельства существования игровых досок относятся к периоду около 10 000 лет назад — эпохе, когда только начиналось одомашнивание кошек и зарождалось земледелие. В неолитических жилищах Ближнего Востока часто попадаются известняковые доски с рядами углублений, вероятно использовавшиеся для счетной игры, похожей на манкалу [8]. Возможно, эта игра помогала игрокам постигать основы математики. Перемещая камешки ради забавы, они постепенно осваивали абстрактную идею, которую мы теперь называем числами.
Помимо удовольствия, которое они нам приносят, игры поменяли наш образ мышления. Они служат умственной тренировкой, позволяя в безопасных условиях развивать стратегический подход, арифметические навыки и умение моделировать психические состояния других людей. Шахматы, го и подобные им игры совершенствуют социальное и стратегическое мышление. Языковые и интеллектуальные игры (такие как викторины, «Эрудит» и каламбуры) улучшают память и грамотность. Азартные игры тренируют способность просчитывать и вероятностно оценивать ситуацию. Китайские граверы IX в. н.э. создали первые игральные карты, положив начало играм с неполной информацией. Не видя карт соперника, игроки должны рассуждать о психологии и намерениях оппонентов — такие игры оттачивают наше умение понимать друг друга. Как отмечает исследователь искусственного интеллекта Джулиан Тогелиус, игры подобны оттискам разума. Каждая соответствует определенной когнитивной способности, а новые возникают по мере выявления неизученных функций и областей применения нашего разума. Игры вроде Pokémon Go напирают на нашу страсть к коллекционированию, а тетрис — на потребность в упорядочивании. Игровой дизайн — это отрасль когнитивной науки. Сами игры, по словам гейм-дизайнера Фрэнка Ланца, напоминают «любительскую нейробиологию, небольшие дозы цифровых препаратов, позволяющие ставить эксперименты над собственным мозгом» [9]. В ходе игры мы яснее видим себя — свои предубеждения, слабости и сильные стороны.
В жизни мы часто усваиваем правила работы мира, наблюдая за последствиями своих действий. Например, прикоснувшись к горячей плите, мы узнаем, что это больно, и впредь избегаем чего-то подобного. Мы выводим правила («Не трогай горячее») из последствий («Ой, больно!»). В играх последствия определяются правилами. Игроки должны наперед рассуждать о том, что вытекает из их решений. Чтобы предугадать результат своего хода, шахматисту необходимо знать правила взаимодействия фигур. Игры учат нас осознанно анализировать причинно-следственные связи, что является ключевым навыком для жизни в сложных обществах, регулируемых правилами.
На самом деле, как мы снова и снова будем убеждаться в этой книге, игры лежат в центре нашего представления о самом процессе понимания. Покойный физик Ричард Фейнман развивал эту мысль в своем знаменитом курсе лекций, прочитанном им в Калифорнийском технологическом институте в начале 1960-х гг. «Что значит "понять" что-либо?» [3] — обращался он к переполненной аудитории. Мы можем сказать, что понимаем систему, если знаем управляющие ею правила:
Представьте себе, что сложный строй движущихся объектов, который и есть мир, — это что-то вроде гигантских шахмат, в которые играют боги, а мы следим за их игрой. В чем правила игры, мы не знаем; все, что нам разрешили, — это наблюдать за игрой. Конечно, если посмотреть подольше, то кое-какие правила можно ухватить. Под основными физическими воззрениями, под фундаментальной физикой мы понимаем правила игры. Но, даже зная все правила, можно не понять какого-то хода просто из-за его сложности или ограниченности нашего ума. Тот, кто играет в шахматы, знает, что правила выучить легко, а вот понять ход игрока или выбрать наилучший ход порой очень трудно… Приходится поэтому ограничиваться самыми основными правилами. Когда мы разбираемся в них, то уже считаем, что «поняли» мир [10].
Правила системы (или игры) — это ее наиболее емкое представление. Мы никогда не сможем рассмотреть каждый возможный в той или иной игре ход. Огромное пространство всех номинально допустимых партий в го (от 10800 до гуголплекса, то есть 10^(10100)) возникает всего из трех фундаментальных правил, действующих на доске 19 × 19. Как только мы усваиваем правила достаточно хорошо, чтобы предсказывать или объяснять отдельные ходы, мы можем утверждать, что понимаем игру, даже не проработав все ее возможные исходы. Как мы увидим дальше, предсказания — основная валюта мозга. Мы испытываем удовлетворение, сформировав предсказательную модель мира. Однако знание правил системы не всегда позволяет предсказать результат их применения. На основе обманчиво простых правил иногда возникает невероятно сложная динамика. Игровые модели могут создавать иллюзию, что мы понимаем систему лучше, чем на самом деле, — достаточно вспомнить об одержимости Пифагора рациональными числами, которая мешала ему разглядеть всю сложность окружающей реальности.
Игры всегда с нами, поскольку они представляют собой модель того, как работает наш разум. Они отросток системы обучения, которая сыграла ключевую роль в эволюции интеллекта. Игровой процесс служит инструментом, с помощью которого мозг генерирует данные для собственного обучения, чтобы построить более точные модели мира и улучшить тем самым свои прогнозы. Вероятно, отчасти поэтому игры традиционно ассоциировались с гаданием: на протяжении истории люди интуитивно чувствовали их связь со знанием будущего. Карты, кости и жребии издавна помогали принимать решения — и эта привычка, как мы увидим, позволяла снижать предвзятость человеческого выбора. Идея правил и их последствий лежит в основе того, что мы воспринимаем как «понимание». Все это не случайно. Игры не только изобретение; они еще и инстинкт.
Игры были мощным генератором знаний. Хотя ритмомахия и оказалась перегружена догмами пифагорейства, другие игры становились источником глубоких математических озарений. Так возникли теория вероятностей и современная экономическая мысль, а также новые представления в области моральной философии и искусственного интеллекта. По контрасту с тем, как пифагорейцы утаивали иррациональные числа, математик Джон Конвей, размышляя над эндшпилями в го, открыл в 1974 г. огромную вселенную чисел, известных сегодня как сюрреальные. Они оказались самым большим массивом бесконечности, обнаруженным за целое столетие. Конвей был потрясен масштабами своего открытия. Неделю за неделей он пребывал в ступоре, словно наткнувшись на новый континент.
Однако по своей сути игры остаются математическими объектами. Мы можем использовать их для получения знаний о смоделированных мирах, но эти знания не всегда применимы к реальности. Упорядоченная случайность игральных костей — неудачная модель для необузданной случайности реального мира. Это несоответствие стало одной из причин мирового финансового кризиса 2008 г., когда трейдеры не смогли адекватно оценить все риски, связанные со сделанными ими ставками. Теория игр, некогда являвшаяся малоизвестным разделом чистой математики, ныне служит основой для современной экономики, несмотря на то что плохо описывает поведение настоящих людей. Это не помешало компаниям и научным институтам использовать теорию игр при разработке экономических и политических систем, определяющих нашу повседневную жизнь.
Особенно осторожными следует быть, задействуя игровую оптику для понимания людей, потому что метафоры, посредством которых мы себя описываем, имеют огромное значение. Защищая свои спорные воззрения на человеческое поведение, психолог XX в. Б. Ф. Скиннер заявлял, что «ни одна теория не меняет того, что объясняет; человек остается таким же, каким был» [11]. Опровержение этого утверждения — центральный посыл моей книги. Оно безусловно верно в таких областях, как физика: атомы благополучно пережили тысячелетия господства наших ранних и глубоко неверных идей об их устройстве. Орбита электрона полностью определяется действующими на него силами притяжения и отталкивания, никак не завися от наших моделей. Но люди не являются пассивными физическими объектами. В отличие от атомов, люди учатся. Они независимые агенты, принимающие решения на основе своих представлений о мире и его устройстве, а также о самих себе. Как писал инженер Эдсгер Дейкстра, «инструменты, которые мы используем, оказывают мощное (и лукавое!) воздействие на наши мыслительные модели, а следовательно, и на наши мыслительные способности» [12].
На уровне отдельной личности человек, который считает людей жестокими и тупыми, принимает в жизни другие решения, чем тот, кто верит в мягкость и щедрость человеческой природы. Такие представления влияют на его политические предпочтения, приоритеты и предрассудки. На уровне всего общества ошибочная модель человеческой природы, воплощенная на практике в экономической сфере, способна исказить наше поведение и кардинально поменять наш жизненный опыт. Игра поощряет в игроках принятие заложенных в ней установок. Ее правила определяют, должны ли игроки сотрудничать или соперничать, играть честно или жульничать. Теоретики и разработчики игр все в большей мере задают устройство общественных структур, в рамках которых мы сосуществуем, и поощряют нас за принятие их представлений о человеческой природе в играх, от участия в которых невозможно уклониться. Поэтому сейчас нам как никогда важно разобраться, как игры заняли господствующее положение в современном мышлении, и попробовать отыскать средства освободить сознание от их диктата.
[3] Здесь и далее пер. под ред. Я. А. Смородинского.
[2] Пер. Ф. Г. Мищенко.
[1] Пер. Ф. А. Петровского. — Здесь и далее примечания редактора, если не указано иное.
[11] Skinner, Beyond Freedom and Dignity, 215.
[10] Feynman, Leighton, and Sands, Feynman Lectures on Physics.
[12] Dijkstra, Selected Writings on Computing, 129.
[9] Anderson, "Just One More Game…" 28.
[4] Herodotus, Herodotus, 43.
[3] Alan of Lille, Anticlaudianus, 379–80.
[2] Moyer, Philosophers' Game, 39.
[1] Burroughs, Selections from the Gospel of Sri Ramakrishna, 130.
[8] Rollefson, "Neolithic Game Board from 'Ain Ghazal," 1.
[7] Spinka, Newberry, and Bekoff, "Mammalian Play," 141–68; and Groos, Play of Animals, 141–68.
[6] Koster, Theory of Fun for Game Design, 46.
[5] Kuperczko et al., "Sudden Gamer Death," 824.
2
Как устроены небеса
Приобретать знания чрезвычайно приятно не только философам, но также и всем другим [4] [1].
Аристотель
В начале XX в. по планете прокатилась эпидемия, усугубленная бурными перемещениями армий по Европе в ходе Первой мировой войны. Науке ранее неизвестная, она получила народное название «сонная болезнь». Люди по всему миру впадали в летаргию, причем иногда мгновенно. Британский врач вспоминал о своем первом случае: здоровая девушка, возвращавшаяся пешком с концерта, внезапно согнулась пополам и рухнула на землю [2]. Уже через полчаса сон стал настолько глубоким, что ее невозможно было потревожить; через двенадцать дней она умерла.
Энцефалит летаргический (так эта болезнь известна сегодня) не имеет четкой клинической картины. Его изменчивая природа отражается в разнообразии симптомов. При самой распространенной форме заболевший испытывает непреодолимую потребность спать, хотя даже в этом псевдосне он смутно осознает происходящее вокруг. Некоторые пациенты выздоравливают. У других развивается хроническая форма болезни с пестрым набором симптомов: эйфория, повышенное либидо, «чрезмерное» пристрастие к каламбурам, тремор, мышечная ригидность, галлюцинации и склонность к самоповреждению. Восьмилетняя девочка вырвала себе все зубы и выдавила оба глаза [3]. Семнадцатилетним юношей овладела одержимость отталкивающими запахами — он совал нос в подмышечные впадины, искал фекалии и стаскивал себе в комнату мусор [4]. Некоторые пациенты постепенно впадали в паралич или кому, а то и умирали. Больные десятилетиями чахли в лечебницах — неподвижные, как статуи, с каменными лицами, впавшие в вечный сон. Причина этой болезни остается неизвестной до сих пор, но со временем врачи обнаружили, что ее симптомы можно смягчить с помощью едва известного тогда химического вещества, которое теперь называют дофамином.
Нейромедиатор дофамин имеет чуть не самую неустоявшуюся репутацию среди всех химических соединений. Во многом это свидетельствует в его пользу: он попросту слишком много умеет. Сегодня его часто ошибочно описывают как биологическую основу гедонизма — «молекулу удовольствия». Однако многие десятилетия после его открытия ученые не придавали ему особого значения. Впервые его получили в 1910 г. как промежуточный продукт в синтезе адреналина, который тогда использовали как лекарство от астмы [5]. Позже дофамин обнаруживали то тут, то там в различных тканях организма — и все же считали его не более чем «перевалочным пунктом» на пути к веществам поважнее, вроде того же адреналина. Вскоре это представление оказалось перевернутым традиционной аюрведической медициной.
В Индии гипертонию, лихорадки и психические расстройства веками лечили с помощью цветущего кустарника сарпагандхи. Махатма Ганди, страдавший от повышенного давления, каждый день добавлял в чай по шесть капель настойки сарпагандхи [6]. В начале 1950-х гг. сарпагандху «открыл» американский врач Роберт Уилкинс, хотя индийские ученые к тому моменту проводили ее клинические испытания уже более десяти лет [7]. Химики выделили ее активное соединение — резерпин, который стал популярным антипсихотиком и средством от давления. Иногда его использовали и как транквилизатор для животных: в больших дозах резерпин вызывал у них кататонический ступор. Никто, впрочем, не понимал, как именно.
В 1957 г. шведский исследователь Арвид Карлссон и его коллеги вводили резерпин мышам [8]. Обнаружилось, что препарат снижает в организме животных уровень нескольких химических веществ, включая дофамин и продукты его метаболизма, например норадреналин. Норадреналин был в то время известен как вещество, побуждающее организм к действию. Ученые, соответственно, предположили, что введение норадреналина кататоническим животным восстановит их способность двигаться. Однако этого не произошло — зато инъекция L-диоксифенилаланина (предшественника дофамина) дала ожидаемый эффект. В некоторых случаях у животных даже развивалась гиперактивность. Это открытие — наряду с тем фактом, что в том же 1957 г. Кэтрин Монтегю обнаружила дофамин в тканях мозга, — окончательно подтвердило роль этого соединения как нейромедиатора и позже принесло Карлссону Нобелевскую премию [9]. Представление, что нейроны могут общаться друг с другом путем объемной нейротрансмиссии, то есть выделяя в среду химические вещества, тогда еще вызывало недоумение. В то время более привычной формой межнейронной коммуникации казалась электрическая передача импульсов между отдельными клетками. Здесь же единственное сообщение, закодированное в концентрации дофамина, разом передавалось целым участкам мозга. Но в чем заключался его смысл?
Венский невролог Олег Горникевич обратил внимание на то, что последствия снижения уровня дофамина у животных напоминают симптомы распространенного нейродегенеративного заболевания — болезни Паркинсона [10]. Впервые ее описал в 1817 г. хирург Джеймс Паркинсон, чьи пациенты демонстрировали «непроизвольные дрожательные движения со снижением мышечной силы в членах в состоянии покоя и даже с поддержкой; склонность наклонять туловище вперед и переходить с шага на бег при сохранных интеллекте и чувствах» [11]. Паркинсон, страстный коллекционер окаменелостей и натуралист, назвал этот недуг новым «видом болезненности», который он, подобно ботанику, охарактеризовавшему неизвестный ранее цветок, выделил из хаоса неврологических симптомов.
Хотя паркинсонизм чаще всего встречается у пожилых пациентов, его часто наблюдали и у людей с хронической формой сонной болезни. В период после первоначальной вспышки этого заболевания лечебные учреждения заполняли пациенты с состояниями, выглядевшими как кататонические. В 1960-х гг., спустя более чем 30 лет после эпидемии, Горникевич начал собирать образцы мозга недавно умерших пациентов. Он обнаружил, что в мозговых тканях пациентов с паркинсонизмом сильно понижен уровень дофамина. Что, если симптомы паркинсонизма можно обратить вспять с помощью L-диоксифенилаланина, подобно тому как Карлссон приводил в чувство кататонических мышей? Не теряя времени, Горникевич передал весь свой запас этого препарата коллеге, руководившему одним из венских домов престарелых. Медперсонал вводил L-диоксифенилаланин пациентам с болезнью Паркинсона, и результаты выглядели настоящим чудом: люди, десятилетиями находившиеся в неподвижности из-за «сонной болезни», вставали и начинали ходить, обретая прежний голос и прежнюю личность.
Такая заместительная терапия стала стандартным методом лечения пациентов с болезнью Паркинсона и остается им по сей день. К сожалению, это не панацея — со временем ее эффективность снижается. В своей пионерской работе «Пробуждения» невролог Оливер Сакс описал кратковременное, но яркое преображение пациентов с летаргическим энцефалитом, сравнив их с «потухшими вулканами», которые внезапно «начали извергаться» [5] [12]. Этот впечатляющий успех вытолкнул дофамин на авансцену науки, сделав его одним из наиболее изучаемых нейромедиаторов. С тех пор ученые обнаружили дофамин практически у всех животных, имеющих нервную систему, что свидетельствует о его эволюционной древности — он задействован в движении как плоского червя или светлячка, так и камбалы или сокола [13]. Казалось, все это окончательно закрепило за дофамином роль нейромедиатора, ответственного за движение, но природа никогда не бывает такой простой.
_ _ _ _
Едва задумавшись о возможности существования компьютера, люди начали задаваться вопросом, может ли он мыслить. Первый в мире программист Ада Лавлейс раньше всех осознала, что «аналитическая машина» (так Чарльз Бэббидж назвал свой протокомпьютер) способна на большее, чем просто оперировать числами. Лавлейс предположила, что однажды машина сможет сочинять музыку, доказывать математические теоремы и играть в игры. Однако, утверждала Лавлейс, машина способна лишь выполнять инструкции и «не претендует на то, чтобы создавать что-то действительно новое [14]. Машина может выполнить все то, что мы умеем ей предписать» [6]. Столетием позже Алан Тьюринг, чьи открытия привели к созданию более мощных и гибких компьютеров, верил, что эти машины способны на гораздо большее. Отвечая на «возражение леди Лавлейс», он писал: «Более удачный вариант этого возражения состоит в утверждении, что машина никогда не может ничем поразить человека… Лично меня машины удивляют очень часто» [15]. Тьюринг предсказывал, что компьютеры смогут создавать новое знание и понимание. Но сначала нам нужно было научить их учиться.
Тьюринг ожидал, что создать машину, воспроизводящую всю сложность мышления и объем знаний взрослого человека, будет чрезвычайно трудно. Ее интеллект можно будет просто приписать ее изобретателям — она, мол, не «создает что-то действительно новое», как и утверждала Лавлейс. «Почему бы нам, вместо того чтобы пытаться создать программу, имитирующую ум взрослого, не попытаться создать программу, которая бы имитировала ум ребенка? — спрашивал Тьюринг. — Ведь, если ум ребенка получает соответствующее воспитание, он становится умом взрослого человека» [16]. Он представлял, что такого компьютерного «ребенка», подобно реальным детям, можно будет воспитывать с помощью наказаний и поощрений. Это требовало решения двух отдельных задач: во-первых, создания компьютерной программы, реконструирующей способность ребенка к обучению, а во-вторых — разработки для нее процесса воспитания. Сегодня мы назвали бы решение первой задачи «алгоритмом обучения», а решение второй — «обучающими данными».
Тьюринг предположил, что настольные игры станут идеальной тренировочной площадкой для воспитания этих компьютеров-детей. Игры — это миниатюрные миры, абстрактные представления взаимодействия, и их дискретная природа делает их прекрасно подходящими для компьютеров. В таких играх, как шахматы и шашки, несколько простых правил приводят к кампаниям астрономической сложности. Издавна считалось, что овладение играми демонстрирует интеллект игроков. Путь игрока от новичка до мастера удобно оценивается и отслеживается с помощью показателей вроде рейтинга. Таким образом, игры могли служить и схемой тренировки для обучающихся агентов, и критерием для количественной оценки их интеллекта. Структурированные игры стандартизируют диапазон возможностей игроков, уравнивая условия. Игры навязывают симметрию. Игроки действуют друг против друга ради общей для обоих цели — победы. Им даются одинаковые фигуры, и они связаны одними и теми же правилами. Чтобы измерить время, мы используем часы; чтобы измерить пространство — линейку. Игры начали в итоге использоваться как мерило интеллекта. Они представляют собой древнюю форму риторики — спор не словами, а решениями, действиями, парируемыми во времени и пространстве.
Джон Маккарти, исследователь, придумавший термин «искусственный интеллект», также дал одно из самых живучих его определений [7]. «Интеллект, — писал он, — это вычислительный компонент способности достигать своих целей в мире» [17]. Мы можем оценивать интеллект машины в беседе, как во время «Игры в имитацию» Тьюринга, где печатающие друг другу сообщения игроки — как компьютерные программы, так и реальные люди — стараются убедить судью-человека в том, что они люди. Или же мы можем называть обладающей интеллектом программу, способную обыграть человека в шахматы.
Тьюринг, по его собственному признанию, был посредственным шахматистом. Он строил мечты о создании шахматного искусственного интеллекта в беседах со своим любимым партнером по шахматам и коллегой Дональдом Мики, который тоже играл неважно. И Тьюринг, и Мики во время Второй мировой войны работали в Блетчли-парке, где разрабатывали методы взлома военных шифров стран «оси» [18]. Мики попал в Блетчли-парк почти случайно, записавшись на курс криптографии в надежде делать «что-то неясное, но романтичное» для победы в войне [19]. Сегодня мы знаем, что его исследования сыграли огромную роль в успехе союзников: идеи Мики помогли взломать шифр «Лоренц» и значительно усовершенствовать компьютер Colossus II [20]. Благодаря ему сообщения, на расшифровку которых раньше уходили дни, стали обрабатываться за считаные часы, что позволяло союзным войскам избегать засад и предугадывать маневры противника.
Мики был очарован концепцией Тьюринга. «Я решил посвятить свою жизнь искусственному интеллекту, как только это станет практически осуществимым», — писал он [21]. Но реальные компьютерные технологии в тот период катастрофически отставали от амбиций ученых. К тому же вычислительные машины были невероятно дорогими и редко встречались за пределами военных учреждений. После окончания войны Мики, вдохновленный своей детской любовью к мышам, вернулся в академическую среду и переключил внимание на генетику. Он был посредственным биологом; больше всего он поспособствовал исследованиям своей жены Энн Макларен, чья работа открыла дорогу к экстракорпоральному оплодотворению. Тем не менее, несмотря на отсутствие доступа к компьютерам, Мики никогда не оставлял мечту об искусственном интеллекте.
В 1961 г. Мики заключил пари с неким коллегой, который скептически оценивал способность машин к обучению. Выиграть спор ему помогли триста с лишним спичечных коробков и пригоршня цветных стеклянных бусин. Он создал обучающуюся систему, которая могла играть в крестики-нолики, и назвал ее MENACE (Matchbox Educable Noughts and Crosses Engine — «Обучаемый механизм для крестиков-ноликов на основе спичечных коробков», аббревиатура совпадает с англ. Menace — «угроза») [22]. Каждый спичечный коробок соответствовал одному из состояний поля для игры в крестики-нолики, причем эти коробки были разложены по стопкам, соответствовавшим тому или иному по счету ходу для всех возможных расположений крестиков и ноликов. Бусины, которых всего имелось девять цветов, указывали на все возможные из текущего состояния последующие ходы. Изначально Мики поместил в каждый спичечный коробок равное количество цветных бусин. На каждом ходу он наугад вытягивал из соответствующего коробка одну бусину, что определяло следующий ход MENACE и новое состояние игрового поля. Цвет стеклянной бусины, вытянутой из следующего коробка, определял следующий ход, и так далее. Коробки оставлялись открытыми, фиксируя тем самым сделанные ходы. Если MENACE в конце игры проигрывала, Мики не возвращал бусины в открытые коробки, уменьшая вероятность того, что машина повторит такие ходы в будущем. Если игра заканчивалась вничью, он добавлял по одной дополнительной бусине соответствующего цвета в каждый спичечный коробок. Если же игра завершалась победой MENACE, он клал в каждый коробок по три такие бусины. Система, таким образом, обучалась посредством подкрепления: Мики поощрял правильные ходы и наказывал за неправильные.
Сначала MENACE играла ужасно. «Случайные партии выглядят крайне глупо, в чем легко убедиться, понаблюдав за парой туров», — писал Мики [23]. Но за сотни игр цветные бусины перераспределились внутри коробков так, что выигрышные ходы стали более вероятными, а проигрышные — менее вероятными, словно углубляя колеи на пути, ведущем к победе. В конце концов MENACE научилась играть в крестики-нолики просто идеально. Бездумная система достигла уровня мастера исключительно методом проб и ошибок.
Мики черпал вдохновение в теории обучения методом проб и ошибок, которая находилась в центре внимания психологической науки в первые десятилетия XX в. Психолог Эдвард Торндайк стремился понять загадку «животной глупости» — как поведение, кажущееся нам разумным и целенаправленным, возникает из самых простых ассоциаций [24]. Он сажал в ящик с секретом несколько кошек, а снаружи, вне их досягаемости, клал кусочки рыбы. В ящике имелась дверца, которая открывалась, только если одно из животных нажимало на особый рычаг. Как только случайное нажатие на рычаг приводило к первому открыванию дверцы и получению лакомства, животные быстро усваивали, что в последующих испытаниях они могут выбираться из ящика, снова нажав на рычаг. Торндайк назвал это «законом эффекта»: поведение, которое приводит к приятному результату, будет отбираться и повторяться, тогда как поведение, которое приводит к результату неприятному, подавляется [25]. Это немного походило на эволюцию, в ходе которой генетические варианты, обеспечивающие бо́льшую приспособленность, вознаграждаются выживанием в популяции. При обучении методом проб и ошибок «выживает» случайное действие, приводящее к награде. Вместо того чтобы фиксироваться в последовательности ДНК, оно сохраняется в памяти. Сила его ассоциации с наградой определяет, с какой вероятностью это действие будет воспроизведено в будущем. В случае MENACE победа в партии в крестики-нолики обеспечивала выживание ходов, которые привели к успеху. Победа «размножала» выигрышные ходы, тогда как поражение удаляло копии проигрышных ходов из набора доступных системе действий.
Позже Мики применил схожие методы обучения к шахматным эндшпилям. Он часто повторял высказывание, приписываемое советскому математику Александру Кронроду: для изучения искусственного интеллекта шахматы — то же, что дрозофила для генетики [26]. Подобно тому как исследования простого генома дрозофилы, состоящего всего из четырех хромосом, проложили дорогу к пониманию более сложной генетики человека, заявлял Мики, «изучение шахмат предварит развитие инженерии знаний и когнитивной инженерии будущего» [27].
Тем временем в США инженер Артур Сэмюэл работал над программой, которая cмогла бы играть в шашки. Изначально он задумал этот проект как эффектный трюк, чтобы выбить финансирование для завершения работы над компьютером, который он проектировал, но вышло так, что шашечная программа стала главным направлением его исследований на следующие 30 лет. Сэмюэл был не особенно сильным шашистом, и первые версии его системы работали лишь настолько хорошо, насколько он мог их запрограммировать. Чтобы создать машину, способную превзойти его собственные ограниченные таланты, он взялся за воплощение мечты Тьюринга о программе, которая могла бы обучаться сама, — и заодно популяризировал в 1959 г. термин «машинное обучение».
К концу 1950-х гг. Сэмюэл натолкнулся на стратегию игровой тренировки, которая станет основной для всей сферы разработки ИИ, — самоигру (англ. self-play). При таком подходе программа тренируется в игре против собственных копий. Эти копии корректируют свои параметры после каждой партии, чтобы повысить долю побед. Самоигра оказалась столь эффективной отчасти потому, что игроки лучше всего учатся у примерно равных соперников. Когда программа играет с собственной копией, ей всегда противостоит тот, кто играет на ее же уровне. Если свести ее с куда более сильным игроком, она может так ничему и не научиться, поскольку ее будут постоянно громить. Слабый соперник тоже не годится: победы будут даваться слишком легко — и у программы не появится стимула к совершенствованию.
Однако обучение посредством самоигры требует очень много времени, а учитывая тогдашнюю редкость компьютеров, это была роскошь, доступная лишь немногим исследователям. К тому моменту Сэмюэл работал в компании IBM, руководство которой не разделяло его энтузиазма по поводу шашек. Каждую ночь, пока коллеги спали по домам, а корпоративные компьютеры простаивали, Сэмюэл пробирался в лабораторию, чтобы с полуночи до семи утра тренировать свою программу. К 1956 г. она играла достаточно хорошо, чтобы соперничать с начинающими игроками. Впечатленный успехом, достигнутым Сэмюэлом исподтишка, президент IBM организовал публичную демонстрацию программы, и акции компании в одночасье подскочили на 15 долларов.
_ _ _ _
Параллельно с попытками специалистов по информатике создать мыслящие машины, нейробиологи старались разобраться в биологических основах интеллекта. В 1980-е гг. молодой врач по имени Вольфрам Шульц организовал собственную лабораторию, занимавшуюся болезнью Паркинсона. Он планировал фиксировать электрическую активность дофаминовых нейронов, чтобы лучше понять ту роль, которую они играют в управлении движением. Хотя дофаминовые нейроны составляют менее 1% всех нейронов мозга, их относительно легко обнаружить и изучать, поскольку они сосредоточены в нескольких расположенных рядом областях среднего мозга. Шульц и его коллеги имплантировали электроды в мозг макак и замеряли активность дофаминовых нейронов, пока животные выполняли простые двигательные задачи [28]. Исходя из данных об участии этих нейронов в процессе движения, можно было ожидать, что они будут активироваться всякий раз, когда подопытные макаки меняют положение. Вместо этого они срабатывали в те моменты, когда животным давали награду.
Это было не совсем неожиданно. Да, дофамин как-то задействован в движении, но для чего в конечном итоге нужно движение, как не для стремления к награде и избегания наказания? Биологи фрагмент за фрагментом составляли целостное представление об этой ориентирующей системе. Ученые XIX в., очарованные недавно открытым электричеством и смутно осознававшие его роль в нервной деятельности, вживляли стимулирующие электроды в мозг людей и животных, руководствуясь скорее энтузиазмом, чем разумом. В первой половине XX в. нейрохирург Уайлдер Пенфилд усовершенствовал эту методику и использовал ее для создания функциональной карты мозга. Он характеризовал участки мозга в соответствии с эффектами от их стимуляции: зрительная кора, например, была помечена им как «свет и тени». Стимуляция области, которую он называл «памятью», погружала подопытного в воспоминания настолько яркие, что казалось, будто они разворачиваются в настоящем. Префронтальная кора, задействованная в принятии решений, стала «тишиной», поскольку ее стимуляция прерывала внутренние монологи пациентов. «Всю мою научную жизнь, — писал Пенфилд, — меня занимал главный вопрос, который веками не давал покоя и ученым, и философам: едины ли разум и тело?» Создавалось впечатление — почти чересчур удобное, — будто психические функции можно напрямую сопоставить с конкретными областями мозга [29].
За этим последовала целая волна экспериментов со стимуляцией, связывающих области мозга с вызываемым ими поведением. Стимуляция где-то в глубине мозга крыс делала их агрессивными. Стимуляция другой области вызывала у них страх, и эти крысы избегали возвращаться в те места, где получили разряд. В 1953 г., во время своей первой операции по вживлению крысе электрода, молодой ученый по имени Джеймс Олдс сделал случайное открытие. Он удачно промахнулся на долю миллиметра, и вместо страха разряд, казалось, вызвал у крысы чувство удовлетворения [30]. Животное снова и снова возвращалось в то место, где получило разряд, вместо того чтобы его избегать. Как в игре «Горячо-холодно», крысу можно было «притянуть» к любой точке, посылая электрический стимул после каждого движения в нужном направлении [31].
Олдс быстро соорудил систему с рычагом, которая позволяла животному самостоятельно вызывать стимуляцию. Крыса с вживленным в мозг электродом непрерывно нажимала на этот рычаг. Последующие исследования показали, что крысы предпочитали такую стимуляцию еде, воде и даже спариванию. Они нажимали на рычаг, даже если это сопровождалось болезненным ударом тока. Подобно наркоманам, животные нажимали на рычаг целыми днями, день за днем, часто до изнеможения, конвульсий, а иногда и смерти. Таким образом гибли крысы, кошки, обезьяны и даже один дельфин. Эти результаты вызвали бурный интерес средств массовой информации, а футурологи предсказывали, что все наши устремления и желания скоро заменит электрофизиологическое удовлетворение. Писатель-фантаст Айзек Азимов заключал: «Очевидно, все желанные вещи в жизни желанны лишь постольку, поскольку они стимулируют центр удовольствия. Прямая его стимуляция делает все остальное ненужным» [32].
Позднее было обнаружено, что стимуляция этой области вызывает выброс дофамина [33]. На смену репутации дофамина как «молекулы движения» вскоре пришло его новое амплуа — «молекулы удовольствия». Однако эта ассоциация всегда была сомнительной. Люди с вживленными в аналогичную область мозга электродами не испытывали при разряде никакого удовольствия. Ощущение больше походило на непреодолимое желание. Испытуемые сообщали, что потребность нажимать на рычаг напоминала порыв почесать зудящее место. Не имея возможности поговорить с животными, мы не можем сказать, ощущают ли они то, что мы называем наградой, как нечто приятное. Скорее, награда закрепляет поведение, которое к ней приводит, в соответствии с «законом эффекта» Торндайка. Дофамин — это не мера удовольствия. Он больше напоминает «молекулу мотивации», побуждающую организм действовать для достижения желаемого.
Новые данные Шульца усложнили эту картину. Его группа подтвердила, что дофаминовые нейроны активируются при получении награды — но только если животное ее не ожидало. Ученые обучили обезьян тому, чтобы после светового сигнала нажимать на рычаг для получения награды в виде сока. Необученные животные поначалу действовали хаотично. Они беспорядочно нажимали на рычаг, и иногда это поведение подкреплялось соком, так как случайно приходилось на нужный момент. У этих необученных обезьян при получении награды активировались дофаминовые нейроны. Но как только животные усваивали связь между световым сигналом и наградой, эти нейроны переставали реагировать на сок. Вместо этого они активировались в ответ на предшествующий световой сигнал. Еще показательнее было то, что, если свет зажигался, но награда не поступала, активность нейронов снижалась. Они сигнализировали об ожиданиях. Эти нейроны отслеживали не движение и не награду как таковые — они отслеживали представления. Они даже реагировали, когда ожидаемое событие не происходило, будто выражая удивление.
Психологи уже знали, что удивление играет ключевую роль в обучении. Животные не всегда учатся с помощью простого повторения и вознаграждения. Удивление указывает на то, что ученику еще есть чему учиться, то есть способность удивления привлекать внимание способствует обучению [34]. Даже младенцы дольше смотрят на неожиданные стимулы, например на видео с мячом, катящимся в гору. Удивление возникает, когда реальность расходится с ожиданиями, и мозг использует это как сигнал к обучению. Именно поэтому в программах для изучения иностранных языков часто встречаются юмористические фразы с неожиданными ассоциациями — «Почему банан мокрый?» или «Мои лошади коллекционируют зубы». Когда преподаватели используют элемент неожиданности, ученики лучше запоминают материал.
Данные Шульца перекликались с результатами классических психологических исследований, например экспериментов Павлова на собаках, у которых слюноотделение начиналось уже при звуке колокольчика, сигнализирующего о скором появлении еды. Десятилетия спустя психолог Б. Ф. Скиннер пошел по этому пути дальше, назвав поведенческую обратную связь «подкреплением». Отрицательные подкрепления (например, поток воздуха в морду) подавляли определенное поведение, а положительные (например, еда) его закрепляли. Скиннер считал, что эта простая дихотомия — привлекательность желаемого и избегание нежелательного — составляет основу любого разумного поведения. Таким образом он надеялся свести сложность поведения животных к некому подобию физики, где все определяется притяжением к награде и отталкиванием от наказания. Скиннер полагал, что с помощью подкреплений животных можно, по сути, запрограммировать на любое поведение. Он также считал, что это в равной степени верно и для людей. Он писал: «Главный вопрос состоит не в том, могут ли машины мыслить, а в том, могут ли мыслить люди. Тайна, окружающая мыслящую машину, уже окружает и мыслящего человека» [35].
Многие исследователи середины XX в. верили, что эти открытия проложат путь к логично устроенной утопии «психоцивилизованного» общества [36]. Страх и агрессия будут укрощены, а удовольствие усилено. Поведением людей можно будет рационально управлять. «Ошибочно полагать, будто вся проблема состоит в том, как освободить человека, — утверждал Скиннер. — Проблема в том, как усовершенствовать способы контроля над ним» [37]. Вдохновленный этой идеей, психиатр Роберт Хит попробовал менять поведение пациентов методами крайне неэтичными даже по меркам своего времени. В 1972 г. Хит заявил, что «переделал» гея в гетеросексуала, стимулируя дофаминовые нейроны пациента во время его полового акта с проституткой [38]. Идеи Скиннера десятилетиями доминировали в психологии. Людей рассматривали как пассивные объекты, движимые наградой и наказанием и лучше всего управляемые с помощью мягкого подталкивания. Позже его философия сильно повлияла на экономическую науку, где специалисты называют такие способы подкрепления «стимулами».
_ _ _ _
В 1970-е гг. студенты могли получить практический опыт работы с компьютерами лишь в нескольких американских университетах, и Стэнфорд, где учился Ричард Саттон, был одним из них. Отдельной специализации по ИИ еще не существовало, поэтому он изучал психологию, параллельно осваивая программирование. Саттона поражало, как мало внимания исследователи ИИ уделяли психологии. Очевидно же, что ИИ должен создаваться по образцу реального мозга: «Неужели никто не изучал то, как это делают животные и люди, ведь это совершенно логичный подход?» В то время игровые ИИ-системы не имели ничего общего с человеческим интеллектом [39]. Они строились на негибких, избыточно заточенных под свои задачи уравнениях — уязвимых, как панды, способные питаться одним лишь бамбуком.
На третьем курсе Саттон обнаружил малоизвестный и сугубо теоретический отчет сотрудника исследовательского центра ВВС США Гарри Клопфа «Функции мозга и адаптивные системы: гетеростатическая теория» (Brain Function and Adaptive Systems: A Heterostatic Theory) [40]. Если гомеостат (например, домашний термостат) поддерживает текущее состояние системы, то гетеростат предназначен для максимизации определенного ее показателя. Клопф считал, что о нейронах (а также организмах, их группах и даже целых обществах) следует думать как о желающих чего-то, как будто они имеют цели и действуют так, чтобы максимизировать будущее вознаграждение. Хотя не все идеи Клопфа выдержали проверку временем, его основной тезис заключался в том, что обучение по своей природе гедонистично.
В его отчете проводилось очень многое проясняющее различие: интеллект нельзя смоделировать с помощью пассивной программы, которая просто выдает ответы «да» или «нет», классифицируя изображения кошек или автомобилей. Интеллект активно действует в своем мире и целеустремленно меняет его, следуя вдоль вектора, направленного от наказания к награде. Интеллект желает. Саттон решил пойти в аспирантуру в лабораторию исследователя ИИ Эндрю Барто, который разделял его стремление создавать системы, обучающиеся подобно живым существам. Вдохновленные идеями Клопфа, они потратили несколько лет на формализацию принципов работы написанной Сэмюэлом самообучающейся шашечной программы, создав элегантную концепцию, известную сегодня как обучение с подкреплением. Ее суть проста: действия, ведущие к награде, закрепляются, а бесполезные отбрасываются. Вторя экспериментам психологов прошлого, Саттон и Барто стали первопроходцами в разработке систем, которые методом проб и ошибок учатся проявлять поведение, максимизирующее вознаграждение. Настольные игры идеально подходили для этого, поскольку по определению имели четкую цель — победу.
Основная сложность при создании обучающихся систем с подкреплением известна как проблема распределения заслуг. В жизни вознаграждения случаются редко. Можно создать программу для игры в шашки, которая «желает» добиться победы. Но результат партии становится известен только в конце, после длинной цепочки ходов. Как программа может определить, все ли приведшие к победе ходы одинаково хороши, или был некий решающий ход, который заслуживает особого признания? Непонятно, как связать такую отложенную обратную связь с действиями, совершенными много шагов назад. Победы и поражения просто-напросто слишком редки, чтобы служить надежными сигналами при обучении.
Чтобы решить эту проблему, Саттон и Барто предложили использовать обучающий сигнал, который можно обновлять на каждом ходу: прогноз самого алгоритма о вероятности своей победы. Система, перед которой стоит задача достичь цели, должна научиться предсказывать, насколько ее решения приближают или отдаляют выполнение этой задачи. Саттон и Барто создали алгоритм, который делает прогнозы о последствиях своих действий, а затем сравнивает их с реальностью для их улучшения. Этот метод они назвали обучением на временны́х разностях. Например, в шашках программа анализирует все возможные при этой позиции ходы и оценивает вероятность победы после каждого. Допустим, она выбирает ход с прогнозом успеха в 90%. Через несколько ходов ситуация ухудшается, и эта оценка падает до 50%. Где-то по пути прогноз оказался неверным. Этот сигнал — его называют «ошибкой предсказания награды» — действует как удивление. Он указывает на пробел в знаниях, заставляя систему скорректировать первоначальные предположения, чтобы они лучше соответствовали реальности. Саттон описывал это как «догадку на основе догадки» [41]. В конечном итоге система проверяет точность своих предсказаний, когда выигрывает или проигрывает партию. Она снова и снова играет сама с собой, постоянно улучшая свои прогнозы, чтобы принимать решения, которые надежно ведут к победе.
В начале 1990-х гг. в области обучения с подкреплением был достигнут заметный прогресс: инженер Джеральд Тесауро создал программу для игры в нарды, успешно обучавшуюся с помощью метода временны́х разностей. Хотя нарды и не обладают таким культурным престижем, как шахматы, компьютерным программам было чрезвычайно трудно их освоить. К 1990 г. шахматные и шашечные программы уже приближались к уровню лучших игроков-людей, но их успех обеспечивался в основном «методом грубой силы» — опиравшимся на огромные вычислительные мощности перебором всех возможных вариантов на десятки ходов вперед. Однако не все игры в равной степени поддаются такому подходу. В шашках коэффициент ветвления — среднее число возможных ходов при каждой позиции — равен трем. Просчет наперед лавинообразно превращается в гигантское вычисление, поскольку каждый из этих трех ходов порождает еще три возможности — и так далее. В шахматах коэффициент ветвления имеет более проблематичное значение 35. Популярные уже как минимум пять тысячелетий нарды сочетают удачу и стратегию. Два игрока размещают на противоположных концах доски по 15 фишек, которые должны поменяться местами, двигаясь в соответствии с выпадающими на костях числами. Здесь коэффициент ветвления достигает примерно 400, так что прогнозирование даже на несколько ходов вперед быстро становится непосильной задачей [42].
Тесауро назвал свою программу TD-Gammon — в честь метода временны́х разностей (temporal difference) [43]. Вслед за Сэмюэлом с его шашечной программой он ставил TD-Gammon играть против собственных копий, что позволяло ей накапливать огромный опыт в ходе самоигры. Как и в случае с MENACE, первые партии TD-Gammon были ужасны, а победы одерживались лишь случайно. Программа еще ничему не научилась, так что ее прогнозы были чистой воды догадками. После нескольких десятков партий ее ходы начали напоминать простейшие стратегии при стандартном подходе к игре. После 300 000 партий она играла на уровне лучших уже существующих программ. Это особенно впечатляло, поскольку TD-Gammon не получила в явной форме никаких экспертных представлений о нардах. Другие ведущие программы были обучены копировать стратегии мастеров-людей и запрограммированы с помощью сложных уравнений, выражающих правила игры и встречающиеся в ней закономерности. TD-Gammon же выстраивала свою систему представлений исключительно на собственном опыте. После миллионов партий программа играла наравне с лучшими игроками-людьми. Анализируя ее стиль, специалисты обнаруживали неортодоксальные стратегии, бросавшие вызов любым традиционным подходам. Тесауро отмечал, что ее необычная манера игры «в некоторых случаях привела к серьезному пересмотру позиционного мышления ведущих игроков» [44]. Например, TD-Gammon использовала дебютную стратегию, превосходившую так называемый «захват пунктов», которое тогда считалось почти обязательным. Впоследствии забивание практически исчезло с турниров. Мечта Тьюринга осуществилась: самостоятельно освоившая нарды программа открыла новые глубины древней игры ее мастерам.
Вдохновленная достижениями психологии, TD-Gammon научилась играть лучше большинства людей. Но училась ли она так, как учатся люди? Теоретики нейронауки Питер Дайан, Рид Монтегю и Терри Сейновски обнаружили неожиданную аналогию: странные закономерности срабатывания дофаминовых нейронов, зафиксированные в лаборатории Шульца, в точности напоминали сигнал ошибки предсказания в системах типа TD-Gammon. Сейновски связался с Шульцем, и их ставшие теперь классическими совместные работы позволяют предположить, что дофамин сообщает в мозге об ошибке предсказания награды [45].
Эта элегантная концепция объясняла изначально сбивавшие с толку результаты Шульца [46]. Хотя дофамин выполняет в мозге множество функций, новые работы предполагали, что он действует как компонент обучающего алгоритма. Подобно методу временны́х разностей, дофаминовая система выражает то, в какой степени организм ожидает получения награды. Активность дофаминовых нейронов показывает, получило ли животное бо́льшую или меньшую награду, чем оно прогнозировало. Для нейронауки столь четкое соответствие теории и экспериментальных данных — огромная редкость. Мозг создает некую внутреннюю модель мира и регистрирует отклонения реальности от ее предсказаний. Как выразился нейробиолог Роберт Сапольски, дофамин «обслуживает скорее ожидание награды, чем саму награду» [8] [47].
Дофамин играет в интеллекте ключевую роль. Он отвечает за поведение, направленное на поиск вознаграждения, у большинства подвижных животных, причем его концентрация в мозге выше у более разумных видов, таких как приматы и люди [48]. Однако тут следует сделать определенные оговорки. Приведенное мною описание — не только грубое упрощение наших знаний о дофаминовых нейронах, но и лишь малая часть того, что нам еще предстоит о них узнать. Не все дофаминовые нейроны сигнализируют об одном и том же. Некоторые отслеживают размер и ценность ожидаемого вознаграждения, но другие, судя по всему, срабатывают в зависимости от движений животного, его мотивации, тяжести наказания, ощущения неопределенности или сенсорных предсказаний. К тому же высвобождение дофамина влияет на нейроны-мишени очень многими способами. Говорить о дофамине как об однородном сигнале неправильно — хотя я и впредь буду допускать эту ошибку ради простоты изложения. Алгоритм обучения с подкреплением может быть очень разным, и мы не знаем точно, какая его версия (если вообще какая-либо) реализована в реальном мозге. И конечно же, эта история не сводится к дофамину. Дофаминовая система лишь один из компонентов гигантской и запутанной обучающейся сети, включающей разнообразные группы нейронов, химические вещества и рецепторы по всему организму. Петли обратной связи, напоминающие змею, кусающую себя за хвост, затрудняют интерпретацию любого нейронного сигнала. Однако несмотря на все это, обучение с подкреплением послужило очень полезной моделью для изучения одной из потенциальных функций дофамина в мозге.
В этой интерпретации процесс планирования можно рассматривать как запуск мозгом обучения с подкреплением на основе воображаемого опыта, полученного в рамках его внутренней модели мира. «Обучение и планирование, — пишет Саттон, — по сути одно и то же: в первом случае обрабатывается реальный опыт, а во втором — симулированный, полученный из предсказательной модели мира» [49]. Схожим образом это может объяснять и феномен сожаления, который можно рассматривать как форму обучения. Воспоминания — это данные, на которых мозг может тренироваться снова и снова. Внутренние сожаления —увязывание прошлых ошибок с негативными последствиями, проявившимися гораздо позднее. Хотя сожаление обычно считают эмоцией, его, возможно, правильнее рассматривать как вычислительный метод. Однако этот процесс может стать и патологическим, как, например, у пациентов с посттравматическим стрессовым расстройством.
Объясняет этот подход и разнообразные амплуа дофамина в психических заболеваниях. Снижающая уровень дофамина сарпагандха веками использовалась в аюрведической медицине для лечения шизофрении. Позже клинические исследования подтвердили, что подавляющие выработку дофамина препараты ослабляют галлюцинации. Как и в случае со многими другими нейротропными средствами, их начали повсеместно применять, не разобравшись точно в механизме действия. Но модель обучения с подкреплением дает подсказку и тут: возможно, галлюцинации возникают, когда дофаминовая система предсказаний выходит из-под контроля и внутренняя модель мира становится в мозге настолько влиятельной, что заглушает реальность [50].
Сравните мозг взрослого человека и мозг младенца. Психолог Элисон Гопник утверждает: у младенцев почти нет жизненного опыта, поэтому их внутренние модели мира только формируются [51]. Им все кажется ошибкой предсказания — ведь предсказывать им пока нечем. Почти любой опыт становится для них чистым удивлением, поэтому они стремятся исследовать все подряд. Гопник называет это «фонарным сознанием» детей — их внимание, подобно свету уличного фонаря, равномерно освещает все вокруг. Для взрослых же, напротив, характерно «прожекторное сознание», сфокусированное на текущей задаче.
Эта модель работы дофамина позволяет сделать несколько важных выводов о биологическом интеллекте. Первый из них состоит в том, что дофаминовая система обеспечивает перепрограммируемость ценностей. Произвольный сигнал, предсказывающий награду (например, звонок как сообщение о скором кормлении), сам становится наградой. Этим сигналом может быть что угодно. Для лабораторных животных он может принимать форму вспышки света, указывающей на поступление порции сока. Для людей это может быть хороший балл на экзамене, важном для поступления в университет, падение температуры, указывающее на то, что ребенок выздоравливает от лихорадки, высокая сумма очков в игре или кусочек цветной бумаги, призванный выражать абстракцию, которую мы называем деньгами. Короче говоря, именно так работает экономика, так работает религия и так вообще возникли эти абстрактные системы.
Игры — прекрасный тому пример. Ради участия в игре люди могут принимать коллективно воображенные системы ценностей и отказываться от них: собирать звезды в Super Mario Brothers, оружие в Skyrim или рецепты в Animal Crossing. Деньги из «Монополии» — классический случай иллюзорной ценности. Но для охваченных игровым азартом детей эти бумажки — огромная ценность, по крайней мере до тех пор, пока конец партии не лишает их силы. Это кажущееся поначалу банальным наблюдение сообщает нам нечто глубокое о человеческом разуме: мозг может научиться воспринимать определенные идеи как вознаграждение. И хотя эти ценности представляют собой лишь плод воображения, они все же очень реальны. Играя в «Монополию», люди регулярно предают родственников и друзей из-за своей временной жажды наживы, которая мгновенно исчезает с окончанием игры. Да и грань между «реальными» (фиатными) и «воображаемыми» (внутриигровыми) деньгами тоже условна. Геймеры (люди с неконтролируе
