nltk
Zatrzymaj słowa
Szukaj…
Wprowadzenie
Słowa zatrzymane to słowa, które są najczęściej używane jako wypełniacze i prawie nie mają żadnego przydatnego znaczenia. Powinniśmy unikać tych słów zajmujących miejsce w bazie danych lub zajmujących cenny czas przetwarzania. Możemy łatwo stworzyć listę słów, które będą używane jako słowa stop, a następnie odfiltrować te słowa z danych, które chcemy przetworzyć.
Filtrowanie słów stop
NLTK ma domyślnie kilka słów, które uważa za słowa stop. Dostęp do niego można uzyskać za pomocą korpusu NLTK za pomocą:
from nltk.corpus import stopwords
Aby sprawdzić listę słów kluczowych zapisanych dla języka angielskiego:
stop_words = set(stopwords.words("english"))
print(stop_words)
Przykład włączenia zestawu stop_words w celu usunięcia słów stop z danego tekstu:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]
filtered_sentence = []
for w in word_tokens:
if w not in stop_words:
filtered_sentence.append(w)
print(word_tokens)
print(filtered_sentence)
Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow