Szukaj…


Wprowadzenie

Część tagowania mowy tworzy krotki słów i części mowy. Oznacza słowa w zdaniu jako rzeczowniki, przymiotniki, czasowniki itp. Może również oznaczać według czasu i więcej. Te tagi oznaczają cokolwiek znaczą w Twoich oryginalnych danych treningowych. Możesz dowolnie wymyślać własne tagi w danych treningowych, o ile konsekwentnie je wykorzystujesz. Utworzenie danych treningowych zajmuje zwykle dużo pracy, dlatego zwykle stosuje się wcześniej istniejący korpus. Zwykle używają Penn Treebank i Brown Corpus.

Uwagi

Ważne uwagi do zapamiętania

  • Słowo zmienne to lista tokenów.
  • Mimo że pozycja i w słowie listy jest tokenem, oznaczenie pojedynczego tokena spowoduje oznaczenie każdej litery tego słowa.
  • nltk.tag.pos_tag_ zaakceptuj
    • lista tokenów - następnie rozdziel i oznacz jej elementy lub
    • lista ciągów znaków
  • Nie możesz uzyskać tagu dla jednego słowa, zamiast tego możesz umieścić go na liście.
  • Tag POS

Podstawowy przykład

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)


Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow