nltk => POS-taggning

Introduktion

En del av talmärkning skapar ordbitar och delar av talet. Det markerar ord i en mening som substantiv, adjektiv, verb osv. Det kan också märkas med spända och mer. Dessa taggar betyder vad de betydde i dina ursprungliga träningsdata. Du är fri att uppfinna dina egna taggar i dina träningsdata, så länge du är konsekvent i deras användning. Träningsdata kräver vanligtvis mycket arbete att skapa, så ett befintligt korpus används vanligtvis. Dessa använder vanligtvis Penn Treebank och Brown Corpus.

Anmärkningar

Viktiga punkter att notera

Det variabla ordet är en lista med symboler.
Trots punkt ii ordlistan är ett tecken kommer märka enda token märka varje bokstav i ordet.
nltk.tag.pos_tag_ acceptera a
- lista med symboler - sedan separera och tagga dess element eller
- lista över strängar
Du kan inte få taggen för ett ord, istället kan du lägga den i en lista.
POS-tagg

Grundläggande exempel

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)

Modified text is an extract of the original Stack Overflow Documentation

Licensierat under CC BY-SA 3.0

Inte anslutet till Stack Overflow

nltk
POS-taggning

Sök…

Introduktion

Anmärkningar

Viktiga punkter att notera

Grundläggande exempel