nltk
Tagging POS
Ricerca…
introduzione
Parte del tagging del parlato crea tuple di parole e parti del discorso. Etichette le parole in una frase come nomi, aggettivi, verbi, ecc. Può anche etichettare per tempo e altro. Questi tag significano qualunque cosa intendessero nei tuoi dati di allenamento originali. Sei libero di inventare i tuoi tag nei tuoi dati di allenamento, purché tu sia coerente nel loro utilizzo. Generalmente i dati di formazione richiedono molto lavoro per creare un corpus preesistente. Questi di solito usano la Penn Treebank e il Brown Corpus.
Osservazioni
Punti importanti da notare
- La parola variabile è una lista di token.
- Anche se l'elemento i nella parola elenco è un token, la codifica di un singolo token codificherà ogni lettera della parola.
- nltk.tag.pos_tag_ accetta a
- elenco di token - quindi separare e tag i suoi elementi o
- elenco di stringa
- Non puoi ottenere il tag per una parola, ma puoi metterlo in una lista.
- Tag POS
Esempio di base
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)
Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow