nltk
Tagowanie POS
Szukaj…
Wprowadzenie
Część tagowania mowy tworzy krotki słów i części mowy. Oznacza słowa w zdaniu jako rzeczowniki, przymiotniki, czasowniki itp. Może również oznaczać według czasu i więcej. Te tagi oznaczają cokolwiek znaczą w Twoich oryginalnych danych treningowych. Możesz dowolnie wymyślać własne tagi w danych treningowych, o ile konsekwentnie je wykorzystujesz. Utworzenie danych treningowych zajmuje zwykle dużo pracy, dlatego zwykle stosuje się wcześniej istniejący korpus. Zwykle używają Penn Treebank i Brown Corpus.
Uwagi
Ważne uwagi do zapamiętania
- Słowo zmienne to lista tokenów.
- Mimo że pozycja i w słowie listy jest tokenem, oznaczenie pojedynczego tokena spowoduje oznaczenie każdej litery tego słowa.
- nltk.tag.pos_tag_ zaakceptuj
- lista tokenów - następnie rozdziel i oznacz jej elementy lub
- lista ciągów znaków
- Nie możesz uzyskać tagu dla jednego słowa, zamiast tego możesz umieścić go na liście.
- Tag POS
Podstawowy przykład
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)
Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow