Модели возникновения целенаправленного адаптивного поведения

Мы уже говорили об адаптивном поведении, о создании искусственного интеллекта (ИИ) на базе понимания мышления живых организмов.

Но как возникает адаптивное поведение? Почему поведение целенаправленно?

Учёные, как всегда, изучают вопрос, систематизируют информацию и создают модели. В данном случае модели эволюционного возникновения целенаправленного адаптивного поведения.

Для начала взгляните на рис. 1:

Рис. 1. Процесс когнитивной эволюции [1].

Согласны с тем, что и исследования когнитивной эволюции могут стать научной основой для разработок ИИ?

Рассмотрим основные идеи формирования ИИ на базе изучения адаптивного поведения.

Мотивация в формировании адаптивного поведения. Модель «Кузнечик» [2].

Основные положения в модели:

  • имеется популяция агентов (искусственных организмов), имеющих потребность энергии и потребность размножения;
  • популяция эволюционирует в одномерной клеточной среде, в клетках может вырастать трава (пища агентов);
  • каждый агент имеет внутренний энергетический ресурс, который пополняется при съедании травы и уменьшается при выполнении каких-либо действий (уменьшение ресурса до нуля приводит к смерти агента);
  • агенты могут скрещиваться, рождая новых агентов;
  • потребности характеризуется количественно мотивациями;
  • поведение агента управляется однослойной нейронной сетью;
  • действия агента: “отдыхать”, двигаться (на одну клетку) вправо или влево, прыгать через несколько клеток, питаться, скрещиваться;
  • веса синапсов нейронной сети, управляющей поведением агента, составляют геном агента.

При чём тут ИИ?

Модель исследовалась путём компьютерного моделирования эволюции популяции агентов. Нейронная сеть агентов исходной популяции определяла некоторые простые изначальные инстинкты, обеспечивающие питание и размножение агентов. Затем наблюдалось, как в процессе эволюции изменялись нейронная сеть агентов и определяемое ей поведение агентов.

Что удалось узнать?

Мотивация играет ключевую роль в эволюционном процессе. Управление поведением агента без мотиваций можно рассматривать как набор простых инстинктов. Управление же поведением агента с мотивацией – как иерархическую систему управления из двух уровней: простых инстинктов и метауровня, обусловленного мотивациями.

Возникновение иерархии целей [3].

Логичным продолжением предыдущей модели является исследование возникновения иерархии целей.

При чём тут ИИ?

Поскольку имеет место эволюционный процесс, здесь учёные используют однослойную нейронную сеть, оптимизируемую эволюционным методом.

Что удалось узнать?

Углубляясь в предыдущие исследования, удалось выяснить, что управление поведением агента с мотивацией является естественной иерархической структурой целей и подцелей.

Схема адаптивного критика [1].

Понятие “критик” ввел Бернард Видроу в 1973. Он и его коллеги применили метод критиков к простой карточной игре и показали, что обучение с критиком позволяет найти оптимальную стратегию игры путём проб и ошибок, без использования учителя.

При чём здесь ИИ?

Критик – блок системы управления, который оценивает качество ее работы.

Что удалось узнать?

Критики – ветвь обучения с подкреплением, один из методов приближенного динамического программирования.

Обучение с подкреплением – процесс, в ходе которого анимат (автономный агент, поведение которого должно следовать принципам поведения животных) получает награду, которую суммирует. В процессе обучения анимат формирует так называемую политику, определяющую выбор (детерминированный или вероятностный) действия в зависимости от ситуации.

Проект «Мозг анимата» [4].

Исследования различных моделей привело к необходимости создания целой платформы для их систематического изучения.

При чём тут ИИ?

Изначально платформа основывалась на нейронных сетях, обучаемых методом обратного распространения ошибки. Такие нейронные сети обеспечивали прогнозы результатов действий.

Иначе говоря, рассматривается простая формализация функциональной системы на основе нейросетевых адаптивных критиков.

Что удалось сделать?

Система моделирует такие особенности биологического прототипа, как принятие решения, прогноз результата действий, коррекцию прогноза путём обучения в соответствующих нейронных сетях.

Такая платформа имеет большой потенциал исследования, и нам остаётся либо присоединиться к исследованиям, либо следить за результатами исследований.

Интерес представляют и прочие работы. Так, например, модели поискового поведения, которые мы рассмотрим в следующем обзоре.

Литература:

  1. Редько В. Г. Модели адаптивного поведения–задел исследований когнитивной эволюции. – 2006.
  2. Бурцев М. С., Гусарев Р. В., Редько В. Г. Исследование механизмов целенаправленного адаптивного управления //Изв. РАН. Теория и системы управления. – 2002. – №. 6. – С. 55-62.
  3. Бурцев М. С. Модель эволюционного возникновения целенаправленного адаптивного поведения. 2. Исследование развития иерархии целей //Препринты Института прикладной математики им. МВ Келдыша РАН. – 2002. – №. 0. – С. 69–1.
  4. Редько В. Г. Модели адаптивного поведения-биологически инспирированный подход к искусственному интеллекту //Искусственный интеллект и принятие решений. – 2008. – №. 2. – С. 11-23.