С чем связана сложность использования классической кросс-энтропии при обучении языковой модели на длинном контексте? Значения для всех слагаемых суммы, кроме одного, равны О. Получаемые значения становятся слишком маленькими. RNN должна пройтись по в...

                                                                vpurdy

                                                        2025-05-26 08:13:20

С чем связана сложность использования классической кросс-энтропии при обучении языковой модели на длинном контексте? 
 Значения для всех слагаемых суммы, кроме одного, равны О. 
 Получаемые значения становятся слишком маленькими. 
 RNN должна пройтись по всем токенам п раз и столько раз посчитать loss. 
 Нейросеть слишком долго обучается и поэтому увеличивается риск затухания градиента.

                                                    Другие предметы
                                                    Колледж
                                                                                                            Обучение нейронных сетей
                                                                                                                                                                классическая кросс-энтропия
                                                                                                            обучение языковой модели
                                                                                                            длинный контекст
                                                                                                            сложности обучения
                                                                                                            затухание градиента
                                                                                                            RNN
                                                                                                            токены
                                                                                                            значения loss
                                                                                                            нейросеть
                                                                                                            анализ данных
                                                                                                            колледж

Похожие вопросы