nltk
Маркировка POS
Поиск…
Вступление
Часть речевых меток создает кортежи слов и частей речи. Он помещает слова в предложение как существительные, прилагательные, глаголы и т. Д. Он также может быть обозначен временем и т. Д. Эти теги означают, что они имели в виду в ваших исходных данных обучения. Вы можете придумывать свои собственные теги в своих данных обучения, если вы согласны в их использовании. Тренировочные данные обычно требуют много работы для создания, поэтому обычно используется ранее существовавший корпус. Обычно они используют Penn Treebank и Brown Corpus.
замечания
Важные замечания
- Переменное слово - это список токенов.
- Несмотря на то, что элемент i в слове list является токеном, тег одного токена будет отмечать каждую букву слова.
- nltk.tag.pos_tag_ принять
- список токенов - затем разделить и пометить его элементы или
- список строк
- Вы не можете получить тег для одного слова, вместо этого вы можете поместить его в список.
- Тег POS
Основной пример
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)
Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow