
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bsObj = BeautifulSoup(html)
nameList = bsObj.findAll('span',{'class':'green'}) # 将class是green的整个span标签及内容提取出来,
for name in nameList:
# 会把你正在处理的HTML 文档中所有的标签都清除,然后返回
# 一个只包含文字的字符串。假如你正在处理一个包含许多超链接、段落和标
# 签的大段源代码,那么.get_text() 会把这些超链接、段落和标签都清除掉,
# 只剩下一串不带标签的文字。
print(name.get_text())


