Поиск…


Вступление

Часть речевых меток создает кортежи слов и частей речи. Он помещает слова в предложение как существительные, прилагательные, глаголы и т. Д. Он также может быть обозначен временем и т. Д. Эти теги означают, что они имели в виду в ваших исходных данных обучения. Вы можете придумывать свои собственные теги в своих данных обучения, если вы согласны в их использовании. Тренировочные данные обычно требуют много работы для создания, поэтому обычно используется ранее существовавший корпус. Обычно они используют Penn Treebank и Brown Corpus.

замечания

Важные замечания

  • Переменное слово - это список токенов.
  • Несмотря на то, что элемент i в слове list является токеном, тег одного токена будет отмечать каждую букву слова.
  • nltk.tag.pos_tag_ принять
    • список токенов - затем разделить и пометить его элементы или
    • список строк
  • Вы не можете получить тег для одного слова, вместо этого вы можете поместить его в список.
  • Тег POS

Основной пример

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)


Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow