python正则表达式提取字符串中的中文 字符串如下 而且是大量

2024-11-02 09:15:38
推荐回答(2个)
回答1:

如果你只是想提取标签里面的内容的话

我建议你使用beautifulsoup4

首先安装

pip install beautifulsoup4

如果是Linux或者Mac OS请在命令前加sudo

然后把字符串放到BeautifulSoup里

最后用get_text输出里面的内容就好

from bs4 import BeautifulSoup
soup = BeautifulSoup(string)
print soup.get_text()

结果就像这样

如果你不想要其中的空格

可以用split分割然后用''.join连接

print ''.join(soup.get_text().split())

结果就像这样

如果还想实现其他更多的功能可以参考文档

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

回答2:

<[^>]*>
替换成空就行了、