Buscar..


Introducción

Parte del etiquetado del habla crea tuplas de palabras y partes del habla. Etiqueta palabras en una oración como sustantivos, adjetivos, verbos, etc. También se puede etiquetar por tiempo, y más. Estas etiquetas significan lo que significaron en tus datos de entrenamiento originales. Usted es libre de inventar sus propias etiquetas en sus datos de entrenamiento, siempre y cuando sea consistente en su uso. Los datos de entrenamiento generalmente requieren mucho trabajo para crear, por lo que normalmente se usa un corpus preexistente. Estos usualmente usan el Penn Treebank y el Brown Corpus.

Observaciones

Puntos importantes a tener en cuenta

  • La palabra variable es una lista de fichas.
  • Aunque el elemento i en la palabra de la lista es un token, el etiquetado de un solo token etiquetará cada letra de la palabra.
  • nltk.tag.pos_tag_ acepta un
    • Lista de tokens : luego separa y etiqueta sus elementos o
    • lista de cuerdas
  • No puede obtener la etiqueta para una palabra, en su lugar, puede ponerla dentro de una lista.
  • Etiqueta POS

Ejemplo básico

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)


Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow