Пусть дана фраза:
Быль не сказка: из неё слово не выкинешь
Выполните токенизацию и лемматизацию указанной фразы, удалите небуквенные токены. Удалите стоп-слова из полученной фразы, учитывая, что
Список стоп слов = {и, в, во, не, что, он, на, я, из, с, со, как, а, то, все, она}.
Введите полученные биграммы (все буквы строчные) через точку с запятой (составляющие биграмм отделите пробелами).
Другие предметыУниверситетТокенизация и лемматизация текстатокенизациялемматизацияобработка текстовбиграммыстоп-словауниверситетанализ текстаобработка данныхтекстовая аналитикаосновы обработки текстов
Для выполнения поставленной задачи мы пройдем через несколько шагов: токенизация, лемматизация, удаление небуквенных токенов, а затем удаление стоп-слов. Давайте разберем каждый шаг подробнее.
Шаг 1: ТокенизацияТокенизация — это процесс разбивки текста на отдельные слова или токены. Для нашей фразы "Быль не сказка: из неё слово не выкинешь" мы можем разбить ее на следующие токены:
Лемматизация — это процесс приведения слов к их начальной форме (лемме). Применяя лемматизацию к нашим токенам, мы получаем:
В нашем случае все токены являются буквенными, кроме слова "сказка:", которое содержит двоеточие. Мы удаляем его:
Теперь мы удалим стоп-слова из нашего списка. Стоп-слова, указанные в задаче: {и, в, во, не, что, он, на, я, из, с, со, как, а, то, все, она}.
Удаляем токены, которые встречаются в списке стоп-слов:
Теперь мы можем сформировать биграммы из оставшихся токенов. Биграммы — это пары соседних слов. Мы берем оставшиеся слова и формируем из них биграммы:
Теперь мы запишем биграммы через точку с запятой, используя строчные буквы:
быль сказка; сказка неё; неё слово; слово выкинуть