nltk => Tagging POS

introduzione

Parte del tagging del parlato crea tuple di parole e parti del discorso. Etichette le parole in una frase come nomi, aggettivi, verbi, ecc. Può anche etichettare per tempo e altro. Questi tag significano qualunque cosa intendessero nei tuoi dati di allenamento originali. Sei libero di inventare i tuoi tag nei tuoi dati di allenamento, purché tu sia coerente nel loro utilizzo. Generalmente i dati di formazione richiedono molto lavoro per creare un corpus preesistente. Questi di solito usano la Penn Treebank e il Brown Corpus.

Osservazioni

Punti importanti da notare

La parola variabile è una lista di token.
Anche se l'elemento i nella parola elenco è un token, la codifica di un singolo token codificherà ogni lettera della parola.
nltk.tag.pos_tag_ accetta a
- elenco di token - quindi separare e tag i suoi elementi o
- elenco di stringa
Non puoi ottenere il tag per una parola, ma puoi metterlo in una lista.
Tag POS

Esempio di base

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)

Modified text is an extract of the original Stack Overflow Documentation

Autorizzato sotto CC BY-SA 3.0

Non affiliato con Stack Overflow

nltk
Tagging POS

Ricerca…

introduzione

Osservazioni

Punti importanti da notare

Esempio di base