nltk
Para las palabras
Buscar..
Introducción
Las palabras de parada son las que se utilizan principalmente como rellenos y casi no tienen un significado útil. Debemos evitar que estas palabras ocupen espacio en la base de datos o que requieran un tiempo de procesamiento valioso. Podemos hacer fácilmente una lista de palabras para ser utilizadas como palabras vacías y luego filtrar estas palabras de los datos que queremos procesar.
Filtrar las palabras de parada
NLTK tiene por defecto un grupo de palabras que considera palabras vacías. Se puede acceder a través del corpus NLTK con:
from nltk.corpus import stopwords
Para consultar la lista de palabras vacías almacenadas para el idioma inglés:
stop_words = set(stopwords.words("english"))
print(stop_words)
Ejemplo para incorporar el conjunto de palabras de parada para eliminar las palabras de parada de un texto dado:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]
filtered_sentence = []
for w in word_tokens:
if w not in stop_words:
filtered_sentence.append(w)
print(word_tokens)
print(filtered_sentence)
Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow