nltk
POS-taggning
Sök…
Introduktion
En del av talmärkning skapar ordbitar och delar av talet. Det markerar ord i en mening som substantiv, adjektiv, verb osv. Det kan också märkas med spända och mer. Dessa taggar betyder vad de betydde i dina ursprungliga träningsdata. Du är fri att uppfinna dina egna taggar i dina träningsdata, så länge du är konsekvent i deras användning. Träningsdata kräver vanligtvis mycket arbete att skapa, så ett befintligt korpus används vanligtvis. Dessa använder vanligtvis Penn Treebank och Brown Corpus.
Anmärkningar
Viktiga punkter att notera
- Det variabla ordet är en lista med symboler.
- Trots punkt ii ordlistan är ett tecken kommer märka enda token märka varje bokstav i ordet.
- nltk.tag.pos_tag_ acceptera a
- lista med symboler - sedan separera och tagga dess element eller
- lista över strängar
- Du kan inte få taggen för ett ord, istället kan du lägga den i en lista.
- POS-tagg
Grundläggande exempel
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)
Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow