nltk
POS-tagging
Zoeken…
Invoering
Een deel van het taggen van spraak maakt tupels van woorden en delen van spraak. Het labelt woorden in een zin als zelfstandige naamwoorden, bijvoeglijke naamwoorden, werkwoorden, enz. Het kan ook label op tijd, en meer. Deze tags betekenen wat ze ook bedoelden in uw oorspronkelijke trainingsgegevens. U bent vrij om uw eigen tags in uw trainingsgegevens uit te vinden, zolang u consistent bent in het gebruik ervan. Trainingsgegevens vereisen over het algemeen veel werk om te maken, dus een bestaand corpus wordt meestal gebruikt. Deze gebruiken meestal de Penn Treebank en Brown Corpus.
Opmerkingen
Belangrijke aandachtspunten
- Het variabele woord is een lijst met tokens.
- Hoewel punt i in de lijst woord is een token, tagging enkele token zal elke letter van het woord te taggen.
- nltk.tag.pos_tag_ accepteer een
- lijst met tokens - scheid vervolgens en tag de elementen ervan of
- lijst met tekenreeksen
- U kunt de tag niet voor één woord krijgen, maar u kunt deze in een lijst plaatsen.
- POS-tag
Basis voorbeeld
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)
Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow