Чтобы понять, чем отличается стохастический градиентный спуск от обычного градиентного спуска, давайте рассмотрим основные аспекты каждого из методов.
Обычный градиентный спуск:
- В этом методе мы вычисляем градиент функции потерь на всей обучающей выборке.
- После этого мы обновляем параметры модели, используя этот градиент.
- Процесс повторяется до тех пор, пока не будет достигнута сходимость.
Стохастический градиентный спуск (SGD):
- Вместо того чтобы использовать всю выборку, на каждой итерации мы выбираем одну случайную точку из обучающей выборки.
- Градиент вычисляется только на основе этой одной точки, и параметры модели обновляются немедленно.
- Это позволяет быстрее обновлять параметры, но может привести к более шумным обновлениям.
Теперь давайте разберем предложенные варианты ответов:
- Мы используем случайный выбор шага градиентного спуска - это не совсем правильно, так как стохастический градиентный спуск использует случайный выбор данных, а не шага.
- Мы выбираем каждую n-ю точку (настраиваемый параметр), чтобы не застревать в локальных минимумах - это также не верно, так как стохастический градиентный спуск выбирает случайные точки, а не фиксированные n-ые.
- Просматриваем выборку в случайном порядке, чаще обновляем вектор параметров - это правильное описание стохастического градиентного спуска, так как он действительно обновляет параметры чаще, используя случайные выборки.
- Нет правильного ответа - это не верно, так как один из вариантов действительно правильный.
Таким образом, правильный ответ на вопрос - Просматриваем выборку в случайном порядке, чаще обновляем вектор параметров.