用户注册



邮箱:

密码:

用户登录


邮箱:

密码:
记住登录一个月忘记密码?

发表随想


还能输入:200字
云代码 - python代码库

python网络数据采集4 根据当前wiki词条打印页面中的其他随机词条链接

2016-07-06 作者: ME80举报

[python]代码库

from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import re
import random

random.seed(datetime.datetime.now()) #
def getLinks(articleUrl):
    html = urlopen('https://en.wikipedia.org'+articleUrl)
    bsObj = BeautifulSoup(html,'html.parser')
    hrefs = bsObj.find('div',{"id":"bodyContent"}).findAll("a",href=re.compile("^(/wiki/)((?!:).)*$")) # 找到id为bodyContent的div的所有href链接
    return hrefs

links = getLinks('/wiki/Kevin_Bacon')
while len(links) > 0:
    newArticle = links[random.randint(0,len(links)-1)].attrs['href'] #从所有href里随机选择一个
    print(newArticle)
    links = getLinks(newArticle) # 从新选择的链接再取查找所有词条链接

[代码运行效果截图]


python网络数据采集4 根据当前wiki词条打印页面中的其他随机词条链接


网友评论    (发表评论)


发表评论:

评论须知:

  • 1、评论每次加2分,每天上限为30;
  • 2、请文明用语,共同创建干净的技术交流环境;
  • 3、若被发现提交非法信息,评论将会被删除,并且给予扣分处理,严重者给予封号处理;
  • 4、请勿发布广告信息或其他无关评论,否则将会删除评论并扣分,严重者给予封号处理。


扫码下载

加载中,请稍后...

输入口令后可复制整站源码

加载中,请稍后...