nltk => Tagowanie POS

Wprowadzenie

Część tagowania mowy tworzy krotki słów i części mowy. Oznacza słowa w zdaniu jako rzeczowniki, przymiotniki, czasowniki itp. Może również oznaczać według czasu i więcej. Te tagi oznaczają cokolwiek znaczą w Twoich oryginalnych danych treningowych. Możesz dowolnie wymyślać własne tagi w danych treningowych, o ile konsekwentnie je wykorzystujesz. Utworzenie danych treningowych zajmuje zwykle dużo pracy, dlatego zwykle stosuje się wcześniej istniejący korpus. Zwykle używają Penn Treebank i Brown Corpus.

Uwagi

Ważne uwagi do zapamiętania

Słowo zmienne to lista tokenów.
Mimo że pozycja i w słowie listy jest tokenem, oznaczenie pojedynczego tokena spowoduje oznaczenie każdej litery tego słowa.
nltk.tag.pos_tag_ zaakceptuj
- lista tokenów - następnie rozdziel i oznacz jej elementy lub
- lista ciągów znaków
Nie możesz uzyskać tagu dla jednego słowa, zamiast tego możesz umieścić go na liście.
Tag POS

Podstawowy przykład

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)

Modified text is an extract of the original Stack Overflow Documentation

Licencjonowany na podstawie CC BY-SA 3.0

Nie związany z Stack Overflow

nltk
Tagowanie POS

Szukaj…

Wprowadzenie

Uwagi

Ważne uwagi do zapamiętania

Podstawowy przykład