Vou trabalhar com o Natural Language Toolkit para lematizar palavras e termos em inglês. O pacote NLTK tem que ser instalado. Para isso uso o comando:
pip install -U nltk
Instalei também o Numpy:
pip install -U numpy
Para testar a instalação, entrei no python e digitei import nltk
. Depois é necessário importar os dados. O NLTK tem vários corpus de dados. Podemos instalá-los todos, ou selecionar apenas aqueles de que necessitamos. Um dos pacotes é o RSLP (Removedor de Sufixos da Lingua Portuguesa). Eu vou o usar o pacote WordNet. Para isso, entro no Python e digito:
import nltk
nltk.download()
Depois primo a opção d (Download) e escrevo wordnet
. Para instalar todos os pacotes, pode escrever-se all
. E está concluída a instalação.
Exemplo de uso do lemmatizer:
>>> from nltk.stem.wordnet import WordNetLemmatizer >>> lmtzr = WordNetLemmatizer() >>> lmtzr.lemmatize('cars') u'car' >>> lmtzr.lemmatize('feet') u'foot' >>> lmtzr.lemmatize('fantasized','v') u'fantasize' >>> lmtzr.lemmatize('people') 'people' >>>
Usei como guia, o stackoverflow, How do I do word Stemming or Lemmatization?