Sök…


Introduktion

En del av talmärkning skapar ordbitar och delar av talet. Det markerar ord i en mening som substantiv, adjektiv, verb osv. Det kan också märkas med spända och mer. Dessa taggar betyder vad de betydde i dina ursprungliga träningsdata. Du är fri att uppfinna dina egna taggar i dina träningsdata, så länge du är konsekvent i deras användning. Träningsdata kräver vanligtvis mycket arbete att skapa, så ett befintligt korpus används vanligtvis. Dessa använder vanligtvis Penn Treebank och Brown Corpus.

Anmärkningar

Viktiga punkter att notera

  • Det variabla ordet är en lista med symboler.
  • Trots punkt ii ordlistan är ett tecken kommer märka enda token märka varje bokstav i ordet.
  • nltk.tag.pos_tag_ acceptera a
    • lista med symboler - sedan separera och tagga dess element eller
    • lista över strängar
  • Du kan inte få taggen för ett ord, istället kan du lägga den i en lista.
  • POS-tagg

Grundläggande exempel

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)


Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow