nltk
Остановить слова
Поиск…
Вступление
Стоп слова - это слова, которые в основном используются в качестве наполнителей и вряд ли имеют какой-либо полезный смысл. Мы должны избегать того, чтобы эти слова занимали место в базе данных или занимали ценное время обработки. Мы можем легко составить список слов, которые будут использоваться в качестве стоп-слов, а затем отфильтровать эти слова из данных, которые мы хотим обработать.
Фильтрация стоп-слов
У NLTK по умолчанию есть куча слов, которые он считает стоп-словами. Доступ к нему возможен через корпус NLTK:
from nltk.corpus import stopwords
Чтобы проверить список слов остановки, сохраненных для английского языка:
stop_words = set(stopwords.words("english"))
print(stop_words)
Пример для включения стоп-логов, установленных для удаления стоп-слов из заданного текста:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]
filtered_sentence = []
for w in word_tokens:
if w not in stop_words:
filtered_sentence.append(w)
print(word_tokens)
print(filtered_sentence)
Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow