from urllib.request import urlopen |
from bs4 import BeautifulSoup |
html = urlopen( 'http://www.pythonscraping.com/pages/warandpeace.html' ) |
bsObj = BeautifulSoup(html) |
nameList = bsObj.findAll( 'span' ,{ 'class' : 'green' }) # 将class是green的整个span标签及内容提取出来, |
for name in nameList: |
# 会把你正在处理的HTML 文档中所有的标签都清除,然后返回 |
# 一个只包含文字的字符串。假如你正在处理一个包含许多超链接、段落和标 |
# 签的大段源代码,那么.get_text() 会把这些超链接、段落和标签都清除掉, |
# 只剩下一串不带标签的文字。 |
print (name.get_text()) |