#引入我们的requests库 |
import requests |
#引入我们的pyquery库 |
from pyquery import PyQuery as pq |
#获取我们的请求头 |
headers = { |
"user-agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.42" |
} |
#获取到我们的百度的链接 |
url = "https://www.baidu.com/" |
#使用我们requests库当中的get当中,我们当中的参数是url和headers |
r = requests.get(url,headers = headers) |
#这一行是用来检查我们的状态码的 |
r.raise_for_status() |
#这一行是用来将我们的文章的语言编码统一 |
r.encoding = r.apparent_encoding |
#让我们的内容等于demo |
demo = r.text |
doc = pq(demo) |
i = 1 #计数用 |
for inf in doc.find( '.title-content-title' ).items(): |
# print(inf) |
d = pq(inf) |
# print(d("a")) |
p = d( "span" ) |
# span标签里面的内容 |
v = p.text() |
# span标签的父亲所有内容 |
w = p.parent() |
# 网站链接 |
q = w.attr.href |
print (q) |
with open ( 'i:/作业.txt' , 'a' , encoding = r.apparent_encoding) as f: |
f.write( str (i) + '.' ) |
f.write(v) |
f.write(q) |
f.write( '\n' ) # 写入 |
i + = 1 |