Expressões regulares II

Aparentemente, para encontrar hashtags num texto, mesmo que os carateres do texto estejam em Unicode, e considerando apenas carateres de texto, excluindo separadores como os espaços, sinais de pontuação, etc., podemos usar o código do exemplo seguinte:

#!/usr/bin/python
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import re
import collections
line = "#fbf to me in Edinburgh, #fbf Scotland back #aço in November 2007. #cão #brexit #céu Most of you will be too young to remember #this, #brexit #brexit #brexit but back then, the entire UK was part of the European Union. History is fascinating."

p = re.compile(ur'(?i)(?<=\#)\w+',re.U)
r = p.findall(line)
print r

O resultado é:

[u'fbf', u'fbf', u'a\xe7o', u'c\xe3o', u'brexit', u'c\xe9u', u'this', u'brexit', u'brexit', u'brexit']

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *