Ricerca…


introduzione

Parte del tagging del parlato crea tuple di parole e parti del discorso. Etichette le parole in una frase come nomi, aggettivi, verbi, ecc. Può anche etichettare per tempo e altro. Questi tag significano qualunque cosa intendessero nei tuoi dati di allenamento originali. Sei libero di inventare i tuoi tag nei tuoi dati di allenamento, purché tu sia coerente nel loro utilizzo. Generalmente i dati di formazione richiedono molto lavoro per creare un corpus preesistente. Questi di solito usano la Penn Treebank e il Brown Corpus.

Osservazioni

Punti importanti da notare

  • La parola variabile è una lista di token.
  • Anche se l'elemento i nella parola elenco è un token, la codifica di un singolo token codificherà ogni lettera della parola.
  • nltk.tag.pos_tag_ accetta a
    • elenco di token - quindi separare e tag i suoi elementi o
    • elenco di stringa
  • Non puoi ottenere il tag per una parola, ma puoi metterlo in una lista.
  • Tag POS

Esempio di base

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)


Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow