Vou trabalhar com o Natural Language Toolkit para lematizar palavras e termos em inglês. O pacote NLTK tem que ser instalado. Para isso uso o comando:
pip install -U nltk
Instalei também o Numpy:
pip install -U numpy
Para testar a instalação, entrei no python e digitei import nltk. Depois é necessário importar os dados. O NLTK tem vários corpus de dados. Podemos instalá-los todos, ou selecionar apenas aqueles de que necessitamos. Um dos pacotes é o RSLP (Removedor de Sufixos da Lingua Portuguesa). Eu vou o usar o pacote WordNet. Para isso, entro no Python e digito:
import nltk
nltk.download()
Depois primo a opção d (Download) e escrevo wordnet. Para instalar todos os pacotes, pode escrever-se all. E está concluída a instalação.
Exemplo de uso do lemmatizer:
>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> lmtzr = WordNetLemmatizer()
>>> lmtzr.lemmatize('cars')
u'car'
>>> lmtzr.lemmatize('feet')
u'foot'
>>> lmtzr.lemmatize('fantasized','v')
u'fantasize'
>>> lmtzr.lemmatize('people')
'people'
>>>
Usei como guia, o stackoverflow, How do I do word Stemming or Lemmatization?
