Какое из приведенных действий будет соответствовать стратегии исследования в игре в лабиринт, если известно, что ход вперед/назад/налево в среднем приносит выигрыш 0.9/0.2/0.1, а ход направо еще никогда не выполнялся?
Выберите один ответ:
Другие предметы Университет Стратегии принятия решений в условиях неопределенности машинное обучение стратегия исследования игра в лабиринт оптимизация хода выигрыш в игре выбор направления принятие решений алгоритмы обучения Новый
Для решения этой задачи необходимо проанализировать средние выигрыши, которые приносят различные действия в игре в лабиринт. Давайте рассмотрим каждое из предложенных действий и их ожидаемую полезность:
Теперь давайте сравним эти значения. Мы видим, что:
Согласно стратегии исследования, мы должны выбирать действия, которые могут привести к наибольшему ожидаемому выигрышу. В данном случае действие "Направо" является неопределенным, и мы не можем оценить его потенциальную полезность. Однако, если мы рассматриваем уже известные значения, то действие "Вперед" с выигрышем 0.9 является наиболее предпочтительным.
Таким образом, наилучшим выбором будет:
Вперед