Мы решаем задачу классификации тональности текста. Чтобы оценить точность работы алгоритма, используем метрику ROC-AUC. После обучения алгоритма мы решили проверить качество векторизации слов. Мы хотим оценить реальное количество похожих слов среди тех, что алгоритм выдаёт как наиболее похожие по косинусному расстоянию. Какие intrinsic-метрики подойдут для этого?
Accuracy
Average Precision at K (ap@K)
R2 Score
Log Loss
Другие предметыКолледжМетрики оценки качества моделей машинного обученияанализ данныхколледжклассификация тональностиалгоритмROC-AUCвекторизация словкосинусное расстояниеintrinsic-метрикиAccuracyAverage PrecisionR2 ScoreLog Loss
Для оценки качества векторизации слов и определения реального количества похожих слов среди тех, что алгоритм выдает как наиболее похожие по косинусному расстоянию, вам подойдут следующие метрики:
Теперь рассмотрим, почему другие метрики не подходят:
Таким образом, для вашей задачи наиболее подходящей метрикой будет Average Precision at K (ap@K), так как она позволяет оценить, насколько эффективно алгоритм находит наиболее релевантные слова в заданном количестве результатов.