nltk => Para las palabras

Introducción

Las palabras de parada son las que se utilizan principalmente como rellenos y casi no tienen un significado útil. Debemos evitar que estas palabras ocupen espacio en la base de datos o que requieran un tiempo de procesamiento valioso. Podemos hacer fácilmente una lista de palabras para ser utilizadas como palabras vacías y luego filtrar estas palabras de los datos que queremos procesar.

Filtrar las palabras de parada

NLTK tiene por defecto un grupo de palabras que considera palabras vacías. Se puede acceder a través del corpus NLTK con:

from nltk.corpus import stopwords

Para consultar la lista de palabras vacías almacenadas para el idioma inglés:

stop_words = set(stopwords.words("english"))
print(stop_words)

Ejemplo para incorporar el conjunto de palabras de parada para eliminar las palabras de parada de un texto dado:

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]

filtered_sentence = []

for w in word_tokens:
    if w not in stop_words:
        filtered_sentence.append(w)
    
print(word_tokens)
print(filtered_sentence)

Modified text is an extract of the original Stack Overflow Documentation

Licenciado bajo CC BY-SA 3.0

No afiliado a Stack Overflow

nltk
Para las palabras

Buscar..

Introducción

Filtrar las palabras de parada