Aparentemente, para encontrar hashtags num texto, mesmo que os carateres do texto estejam em Unicode, e considerando apenas carateres de texto, excluindo separadores como os espaços, sinais de pontuação, etc., podemos usar o código do exemplo seguinte:
#!/usr/bin/python # -*- coding: utf-8 -*- from __future__ import unicode_literals import re import collections line = "#fbf to me in Edinburgh, #fbf Scotland back #aço in November 2007. #cão #brexit #céu Most of you will be too young to remember #this, #brexit #brexit #brexit but back then, the entire UK was part of the European Union. History is fascinating." p = re.compile(ur'(?i)(?<=\#)\w+',re.U) r = p.findall(line) print r
O resultado é:
[u'fbf', u'fbf', u'a\xe7o', u'c\xe3o', u'brexit', u'c\xe9u', u'this', u'brexit', u'brexit', u'brexit']