nltk
POS-Tagging
Suche…
Einführung
Ein Teil der Sprachkennzeichnung erzeugt Tupel von Wörtern und Sprachteilen. Es bezeichnet Wörter in einem Satz als Substantive, Adjektive, Verben usw. Es kann auch nach Zeit usw. etikettieren. Diese Tags bedeuten, was sie in Ihren ursprünglichen Trainingsdaten bedeuten. Es steht Ihnen frei, Ihre eigenen Tags in Ihren Trainingsdaten zu erfinden, solange Sie konsistent sind. Die Erstellung von Schulungsdaten erfordert im Allgemeinen eine Menge Arbeit, daher wird in der Regel ein bereits vorhandener Korpus verwendet. Diese verwenden in der Regel den Penn Treebank und den Brown Corpus.
Bemerkungen
Wichtige Punkte zu beachten
- Das variable Wort ist eine Liste von Token.
- Obwohl item i im Listenwort ein Token ist, werden durch das Markieren eines einzelnen Token alle Buchstaben des Wortes markiert.
- nltk.tag.pos_tag_ akzeptiere a
- Liste der Token - trennen Sie dann die Elemente oder kennzeichnen Sie sie mit Tags
- Liste der Zeichenfolge
- Sie können das Tag nicht für ein Wort erhalten, sondern Sie können es in eine Liste aufnehmen.
- POS-Tag
Basisbeispiel
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)
Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow