Воля сверхразума - ортогональность мотивированности и интеллекта

рейтинг: 0+x

Глава 1. Ортогональность мотивированности и интеллекта

1.1. Уйти от антропоцентризма

Если мы попытаемся представить пространство всевозможных разумных сущностей - то всему множеству человеческих разумов там будет отведена маленькая и узкая область. Персональные отличия между скажем Анной Арендт и Бенни Хиллом нам могут показаться огромными - но это лишь потому, что наша шкала суждений калибрована на существующем человеческом материале. В широком пространстве всех логически допустимых возможностей эти две личности почти неотличимы. По крайней мере в терминах нейронной архитектуры они почти одинаковы. Представьте их мозги, лежащие бок о бок в спокойствии. Отличие между ними будут выглядеть незначительными, и наверняка вы посчитаете их идентичными; вы наверняка даже не сможете определить, где чей мозг. И если вы попытаетесь детально изучить их строение под микроскопом, ощущение их почти полной схожести лишь возрастёт: вы увидите одинаковую слоистую структуру их коры, сделанную из нейронов одного типа, да и обволакивающая их межнейронная жидкость будет иметь тот же состав1.

Нам хорошо известно, что наивный наблюдатель склонен антропоморфизировать свойства неодушевлённых систем. Мы, например, можем сказать: "Этот торговый автомат долго думал над моим горячим шоколадом". Это может привести к недооцениванию когнитивной сложности систем, которые естественны для человека - таких, как управление движением и сенсорное восприятие - или это же может привести к приписыванию значительной степени осознанности и разумности очень глупым системам вроде чат-ботов - таких как Weizenbaum ELIZA (Weizenbaum, 1976) Более того, существует тенденция антропоморфизировать мотивации разумных систем - в то время как нет основания приписывать их схожие с человеком побуждения и желания (близкий пример - "Моя машина не хочет ездить этим утром"). Елиезер Юдовски предоставляет хорошую иллюстрацию этого феномена:

Пример из дешёвой научной фантастики - на обложке журнала изображено разумное инопланетное чудовище — космический термит - который держит привлекательную женщину в рваном платье. Кажется, художник уверен, что нечеловекоподобный пришелец с совершенно другой эволюционной историей найдёт человеческих женщин привлекательными… А может, иллюстратор и не задавался вопросом — а должен ли вообще гигантский термит считать человеческих женщин красивыми. Скорее всего, художник просто посчитал женщину в рваном платье самой по себе сексуальной, инстинктивно приписав ей подобное свойство. Те, кто делают подобную ошибку, не задумываются о природе разума насекомого: их внимание целиком остаётся сосредоточенным на рваном платье женщины. А если бы платье не было разорванным, женщина была бы менее сексуальной - но ведь гигантскому термиту все равно - (Юдовски, 2008).

Мотивации искусственного интеллекта могут оказаться куда менее похожими на человеческие, чем мотивации космического пришельца. Внеземные (допустим, что они существуют) биологические существа развились в процессе эволюции - и потому можно ожидать, что в их мотивациях есть нечто общее. Например, для нас не будет сюрпризом обнаружить, что какой-то наугад выбранный разумный пришелец имеет побуждения, связанные с тем, чтобы добывать или избегать определённой пищи, температурных условий, иметь доступ к воздуху, получать энергию, остерегаться телесных повреждений, болезней и хищников. Также он будет иметь стремления, связанные с размножением и защитой потомства. Член общества разумных существ также будет наделён мотивациями, связанными с кооперацией и конкуренцией: например, он может показывать групповую лояльность, зависть к халявщикам, и даже иметь концепции репутации и приличия.

Но компьютерный разум вовсе не обязан как-то интересоваться чем-то подобным. Вообще. Так, можно представить себе искусственный интеллект, главной целью которого является подсчёт количества песчинок на берегах острова Боракай, или высчитывание как можно большего количества десятичных цифр числа $\pi$. Или он будет стремиться сделать как можно больше скрепок для бумаги. Более того, легче создать ИИ с простыми целями вроде этих - чем сделать ИИ с набором ценностей и с психологией, которые бы чем-то походили на человеческие.

1.2. Тезис ортогональности.

Ради наших целей под "интеллектом" можно понимать возможность агента к инструментальным рассуждениям (подробнее - позже). Разумная деятельность сводится к поиску оптимальных способов и путей к достижению какой-либо цели. Разумность и набор целей вместе с мотивированностью в этом смысле могут быть рассмотрены как пара осей на плоскости, а конкретные точки этой плоскости представляют конкретных разумных агентов с определёнными характеристиками. Все точки такой плоскости представляют логически всевозможных разумных агентов - впрочем, для реальных агентов должны быть некоторые ограничения. По всей видимости, например, очень глупой системе невозможно иметь очень сложную мотивацию — хотя бы потому, что подобная мотивация предъявляет значительные требования к ресурсам памяти. Вообще, чтобы некий агент имел определённый набор мотиваций, этот набор должен быть функционально интегрирован в его систему принятия решений, что опять предъявляет определённые требования к вычислительным мощностям - и, по всей видимости, к самому интеллекту агента. Что касается разумных существ, которые могут изменять сами себя - то определённые ограничения должны иметься и для них - так, например, умное существо, желающее стать глупым долго умным не пробудет. Но в целом, эти ограничения не затмевают основную идею, которую можно выразить так:

Тезис ортогональности:
Разумность и мотивированность - это два ортогональных параметра, которые для разумных агентов могут свободно принимать самые разные значения. Другими словами, высокий или низкий уровень разумности в принципе может сочетаться с самыми разными целями и самой разной силой воли.

Для примера можно вспомнить теорию мотиваций Юма. Девид Юм полагал, что одни лишь убеждения (то есть - уверенность в том, что некое деяние желанно) не могут побудить человека к действию; от человека требуется некоторый уровень мотивированности к некоторой деятельности2. Это послужит ответом на одно из распространённых возражений против ортогонального тезиса - что, дескать, достаточно большой уровень интеллекта непременно приведёт к приобретению определённых убеждений, и что эти убеждения непременно повлекут за собой некоторые побуждения к определённым действиям. Мы - вслед за Девидом Юмом - отвечаем "нет": убеждения отдельно - а мотивации отдельно.

Несмотря на то, что в поддержку ортогонального тезиса легко привлечь теорию мотиваций Юма, мы не будем основываться на ней. В частности, мы не будем настаивать, что убеждения сами по себе никогда не могут породить определённые действия. Можно предположить, что достаточно умный агент может быть мотивирован выполнять определённый план действий при условии, что у него есть определённые желания достаточно большой силы. Ещё один способ, при котором ортогональный тезис останется верным - даже если теория мотиваций Юма не верна - так это если приобретение достаточно высокого уровня интеллекта вовсе не обязательно приводит к приобретению тех убеждений, которые сами по себе будут мотивировать на определённые действия. Третий способ, по которому тезис ортогональности может оказаться верным даже если теория Юма окажется ложной - это если окажется возможным создать когнитивную систему (или, говоря более обще, "оптимизационный процесс"), управляемый развитым разумом, но имеющий столь чуждое людям строение, что в нём не будет функциональных аналогий того, что люди называют "убеждениями" и "желаниями" - но при этом устройство этой системы позволит ей стремиться достичь любую заданную конечную цель.

Ортогональный тезис - в том виде, в котором он сформулирован здесь - критикует связь между мотивированностью и разумностью - а точнее сказать, между мотивированностью и рациональностью (или между мотивированностью и рассудком). Здесь стоит обратить внимание, что многие мыслители используют слово "рациональный" в смысле "нормально мыслящий" - в то время как у нас здесь оно будет использоваться в смысле "способный к логической обработке информации". Например, в "Причины и Персоналии" Дерек Парфит соглашается с тем, что базовые предпочтения некоторой системы могут быть иррациональны - и делает это он на примере, называемом "Безразличие ко следующему вторнику":

Представим себе некоторого гедониста, который усердно беспокоится о своих будущих ощущениях. За одним исключением, он в равной мере беспокоится обо всех моментах будущего. И исключение это связанно со следующим вторником. Так, каждый вторник он проявляет обыкновенную заботу в отношении всего, что с ним может случиться. Но он никогда не заботится о том, какое страдание или какое удовольствие будет ожидать его в следующий вторник… Это его безразличие - просто голый факт. И когда он планирует своё будущее, то непременно предпочитает великое страдание на следующий вторник самому маленькому неудовольствию в любой другой день3. (Парфит, 1984)

Так, некий агент оказывается равнодушен к собственным страданиям, коль скоро они выпадают на следующий вторник. Для наших целей, мы не должны принимать позицию Парфита о том, что это иррационально - постольку, поскольку мы допускаем, что подобное поведение не обязательно свидетельствует о глупости агента. Под "интеллектом" здесь мы имеем в виду нечто вроде инструментальной рациональности - умения предвидеть, планировать и вообще рассуждать. Воображаемый агент Парфита, проявляющий "безразличие ко следующему вторнику" может демонстрировать безупречную инструментальную рациональность, и, как следствие, быть весьма интеллектуальным даже если ему будет недоставать "здравого смысла", чего мы могли бы потребовать от полностью здравомыслящего агента. Следовательно, этот пример не подрывает ортогональный тезис.

Продолжая рассуждения - даже если есть некоторые объективные нравственные факты, которые могут постигнуть полностью рациональные агенты - и даже если эти нравственные факты будут сами по себе как-то мотивировать тех, кто их узнаёт, поступать целиком в соответствии с ними - даже это ещё не будет подрывать тезис ортогональности. Тезис может оставаться верным, если некий агент может иметь безупречную инструментальную рациональность - но так, что ему будет недоставать рационального целеполагания или каких-то других способностей к рациональному мышлению, которые необходимы для познания объективных нравственных фактов. Или наоборот - какой-то агент может оказаться разумным, или даже сверхразумным, но при этом не владеть в достаточной мере инструментальной рациональностью.

Одной из причин, по которой мы фокусируем своё внимание на интеллекте - или инструментальной рациональности — это то, что оно представляет собой наиболее значимое понятие, когда мы пытаемся выяснить - как будут себя вести различные виды систем. Например, по разным причинам могут оказаться важными такие вопросы - будет ли их поведение считаться рациональны или нравственно приемлемым с человеческой точки зрения. Также, подобные вопросы не должны заслонять возможности того, что могут появиться некоторые когнитивные системы, которые не будут удовлетворять каким-то критериям разумности - но которые тем не менее окажутся очень сильными и смогут оказать серьёзное влияние на мир4.

1.3. Прогнозирование мотиваций и поведения сверхразума

Ортогональный тезис предполагает, что синтетические разумы могут иметь абсолютно неантропоморфные цели - цели, которые будут для нас очень странными, например - подсчёт песчинок на морском берегу или изготовление как можно большего количества бумажных скрепок. Это справедливо даже - а точнее сказать, в первую очередь - в отношении искусственных агентов, которые могут быть очень разумными или даже сверхразумными. Но чего нельзя вывести из ортогонального тезиса - так это прогнозов о том, что именно будут делать конкретные агенты. Предсказуемость становится особенно важной, если человек желает создать систему, целью которой является достижение конкретных результатов - и чем мощнее ИИ, тем важнее его предсказуемость. Сверхразумные агенты могут оказаться очень сильными - и потому необходимо разработать методы анализа и предсказания их поведения. Тем не менее, несмотря на то, что интеллектуальность системы и её цели - есть параметры независимые - задача предсказания поведения системы не обязана оказаться неразрешимой, причём не только для гипотетических сверхразумов, чьи когнитивные способности и доступные им ресурсы помогут им разобраться в вопросах, недоступных для человека.

Имеется по крайней мере три направления, по которым можно подойти к проблеме прогнозирования мотиваций сверхразумных сущностей:

Предсказуемость через компетенцию создателей

Если мы можем предположить, что создатели сверхразумного агента успешно внедрили в него систему целей так, что тот стабильно им следует - тогда мы можем делать прогнозы с учётом того, что агент будет стремиться к поставленным перед ним целям. Чем более разумна некая сущность, тем большую когнитивную находчивость она будет проявлять в попытке достичь своей цели. Таким образом, перед тем, как агент будет создан, мы уже можем предсказать немного о его поведении - при условии, что мы знаем, кто его создал и какие цели они пытались этим достичь.

Предсказуемость через наследование

Если цифровой разум создан по шаблону человеческого разума (что может например иметь место в случае цифровой достаточно точной эмуляции мозга) - то в этом случае цифровой разум унаследует шаблоны поведения человека5. И он может сохранить некоторые из этих мотиваций даже после того, как его когнитивные способности впоследствии будут усилены до сверхразумного уровня. Подобные рассуждения требуют осторожности. Цели и ценности агента могут запросто испортиться во время процесса загрузки или во время его последующей эксплуатации и усиления - всё зависит от того, как будет проводиться сама процедура.

Предсказуемость по конвергенции инструментальной логичности

Даже без детального знания конечных целей агента, мы можем сделать кое-какие выводы о более непосредственных целях этой системы, которые могут возникнуть в самых разных ситуациях для широкого диапазона окончательных целей. Этот способ предсказания поведения агента становится тем более действенным, чем с более разумным агентом мы имеем дело - ибо чем разумнее агент, тем с большей вероятностью его действия будут подчиняться инструментальной логике - и тем скорее он будет действовать теми способами, которыми ему будет легче достичь своих целей.

Следующий раздел посвящён этому способу предсказания поведения — в нём будет рассмотрено то, что называется "тезис инструментальной конвергенции". Этот второй тезис дополняет тезис ортогональности.




Пока не указано иное, содержимое этой страницы распространяется по лицензии Creative Commons Attribution-ShareAlike 3.0 License