nltk => Маркировка POS

Вступление

Часть речевых меток создает кортежи слов и частей речи. Он помещает слова в предложение как существительные, прилагательные, глаголы и т. Д. Он также может быть обозначен временем и т. Д. Эти теги означают, что они имели в виду в ваших исходных данных обучения. Вы можете придумывать свои собственные теги в своих данных обучения, если вы согласны в их использовании. Тренировочные данные обычно требуют много работы для создания, поэтому обычно используется ранее существовавший корпус. Обычно они используют Penn Treebank и Brown Corpus.

замечания

Важные замечания

Переменное слово - это список токенов.
Несмотря на то, что элемент i в слове list является токеном, тег одного токена будет отмечать каждую букву слова.
nltk.tag.pos_tag_ принять
- список токенов - затем разделить и пометить его элементы или
- список строк
Вы не можете получить тег для одного слова, вместо этого вы можете поместить его в список.
Тег POS

Основной пример

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)

Modified text is an extract of the original Stack Overflow Documentation

Лицензировано согласно CC BY-SA 3.0

Не связан с Stack Overflow

nltk
Маркировка POS

Поиск…

Вступление

замечания

Важные замечания

Основной пример