NLTK – Natural Language Toolkit

Vou trabalhar com o Natural Language Toolkit para lematizar palavras e termos em inglês. O pacote NLTK tem que ser instalado. Para isso uso o comando:

pip install -U nltk

Instalei também o Numpy:

pip install -U numpy

Para testar a instalação, entrei no python e digitei import nltk. Depois é necessário importar os dados. O NLTK tem vários corpus de dados. Podemos instalá-los todos, ou selecionar apenas aqueles de que necessitamos. Um dos pacotes é o RSLP (Removedor de Sufixos da Lingua Portuguesa). Eu vou o usar o pacote WordNet. Para isso, entro no Python e digito:

import nltk
nltk.download()

Depois primo a opção d (Download) e escrevo wordnet. Para instalar todos os pacotes, pode escrever-se all. E está concluída a instalação.

Exemplo de uso do lemmatizer:

>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> lmtzr = WordNetLemmatizer()
>>> lmtzr.lemmatize('cars')
u'car'
>>> lmtzr.lemmatize('feet')
u'foot'
>>> lmtzr.lemmatize('fantasized','v')
u'fantasize'
>>> lmtzr.lemmatize('people')
'people'
>>>

Usei como guia, o stackoverflow, How do I do word Stemming or Lemmatization?

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *