用户注册

用户登录

发表随想

该用户最新代码

More...

38/60783

爬虫

编程随想

会python真的可以为所欲为 by Python自学0(回) 398天前

这里还有人吗 by mikeKil1(回) 583天前

这里还有人吗 by mikeKil0(回) 583天前

每天面对着电脑屏幕，敲打键盘。我所面对的并不只是代码，而是一种生活方式。 by js特效0(回) 808天前

到处都是羊，不想上班 by Python自学0(回) 888天前

鸽子 by 张书娥0(回) 892天前

云代码 - python代码库

爬虫

2019-05-22 作者：云代码会员举报

[python]代码库

ssjzw.rar(免费下载)[2355 次下载]

# encoding=utf-8
from utils import util, dbmysql
import re, time,datetime,requests
from lxml import etree
 
 
def rule(path,content):
    res=re.findall(path, content)
    if res!=[]:
        response=res[0]
    else:
        response=''
    return response
 
head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36"}
def headers():
    timestamp=int(time.time())
    head_detail={
    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36"
    }
    return head_detail
def ssjzw():
    for page in range(1,100):
        try:
            res = util.get('https://www.ssjzw.com/jzzp/pn{}'.format(page))
            content = res['data'].decode('gb2312','ignore').replace('\n', '').replace('\r', '').replace('\t', '')
            url = re.findall('<li class="tys" style="float:left;width:360px;"><a href="(.*?)" target=', content)
            i=0
            for num in url:
                i+=1
                sql = "select * from ssjzw where url='%s'" % num
                rs = dbmysql.fetchall(sql)
                if len(rs) == 0:
                    try:
                        timestamp=int(time.time())
                        detail =util.get(num,headers=headers())
                        content_detail = detail['data'].decode('gb2312','ignore').replace('\n', '').replace('\r', '').replace('\t', '')
 
                        # 公司匹配
                        company_ture = re.findall('<ul>招聘单位：<a href=.*?target="_blank">(.*?)</a></ul>', content_detail)
                        if company_ture == []:
                            company_2= re.findall('<ul>招聘单位：(.*?)</ul>', content_detail)
                            if company_2 == []:
                                company=''
                            else:
                                company=company_2[0]
                        else:
                            company = company_ture[0]
 
                        area=rule('<ul>兼职地区：<a href=.*?>(.*?)兼职',content_detail)
 
                        phonenum=rule("innerHTML='(.*?)'",content_detail)
                        uploadTime=rule('<ul>更新时间：(.*?)</ul>',content_detail)
 
                        sql2 = "insert into ssjzw (url,company,area,phonenum,uploadTime,insertTime) value ('%s','%s','%s','%s','%s','%s')" % (num,company,area,phonenum,uploadTime,datetime.datetime.now())
                        rs=dbmysql.execute(sql2)
                        if rs==False:
                            print("上上兼职网第{}页第{}条insert失败".format(page,i))
                        print("正在insert上上兼职网第{}页第{}条{}".format(page,i,num))
                        time.sleep(2)
                    except Exception as e:
                        print(num)
                        print(e)
                        continue
                else:
                    print("上上兼职网第{}页第{}条已存在".format(page,i))
                    time.sleep(2)
                    continue
        except Exception as e:
            print(e)
            continue
ssjzw()

[代码运行效果截图]

[源代码打包下载]

ssjzw.rar(免费下载)[2355 次下载]

网友评论 (发表评论)

初级程序员
by: hong 发表于：2019-06-14 12:46:00 顶(13) | 踩(8) 回复
謝謝
回复评论

还能输入：1000字
初级程序员
by: 兴探索发表于：2019-07-28 23:13:55 顶(3) | 踩(4) 回复
感谢分享！
回复评论

还能输入：1000字
初级程序员
by: 云代码会员发表于：2019-08-13 14:03:27 顶(2) | 踩(2) 回复
学习了。
回复评论

还能输入：1000字
初级程序员
by: 齐利奴发表于：2019-10-29 13:45:24 顶(3) | 踩(2) 回复
66666，学习
回复评论

还能输入：1000字
初级程序员
by: 笨鸟也会飞发表于：2019-10-29 19:51:48 顶(9) | 踩(5) 回复
这个具体操作是什么
回复评论

还能输入：1000字
初级程序员
by: 老白发表于：2019-11-04 20:38:38 顶(6) | 踩(4) 回复
谢谢
回复评论

还能输入：1000字
初级程序员
by: 云代码会员发表于：2019-11-12 09:12:59 顶(3) | 踩(3) 回复
求分享一份，没那么多积分啊
回复评论

还能输入：1000字
中级程序员
by: 新人敬华发表于：2019-11-12 16:39:55 顶(3) | 踩(2) 回复
求分享一份，没那么多积分啊
回复评论

还能输入：1000字
中级程序员
by: 菜鸟qing 发表于：2020-01-19 15:22:06 顶(2) | 踩(2) 回复
求分享呀！
回复评论

还能输入：1000字
初级程序员
by: 心海扬帆发表于：2020-04-07 16:11:41 顶(6) | 踩(2) 回复
点击运行，闪退怎么办

回复评论

还能输入：1000字
初级程序员
by: goodluck 发表于：2020-04-19 21:00:59 顶(1) | 踩(0) 回复
666
回复评论

还能输入：1000字
初级程序员
by: goodluck 发表于：2020-04-19 21:01:03 顶(1) | 踩(0) 回复
666
回复评论

还能输入：1000字
初级程序员
by: goodluck 发表于：2020-04-19 21:01:07 顶(1) | 踩(0) 回复
666
回复评论

还能输入：1000字
初级程序员
by: 言冰发表于：2020-11-25 07:58:40 顶(1) | 踩(0) 回复
初学者，观摩！
回复评论

还能输入：1000字
初级程序员
by: 云代码会员发表于：2020-12-19 23:23:42 顶(1) | 踩(0) 回复
666
回复评论

还能输入：1000字
初级程序员
by: o泡果奶发表于：2020-12-20 09:53:17 顶(3) | 踩(2) 回复
报ModuleNotFoundError: No module named 'utils'、是差utils模块吗
回复评论

还能输入：1000字
初级程序员
by: 人头全靠捡发表于：2021-01-24 15:04:08 顶(2) | 踩(1) 回复
没有用
回复评论

还能输入：1000字
初级程序员
by: Rick星星发表于：2021-03-02 19:08:01 顶(0) | 踩(1) 回复
NB，666
回复评论

还能输入：1000字
初级程序员
by: 云代码会员发表于：2021-03-04 15:09:53 顶(0) | 踩(1) 回复
666
回复评论

还能输入：1000字
初级程序员
by: 云码人家发表于：2021-03-10 17:29:30 顶(0) | 踩(1) 回复
学习了
回复评论

还能输入：1000字
初级程序员
by: 五方鬼帝发表于：2021-05-24 00:16:51 顶(0) | 踩(0) 回复
牛
回复评论

还能输入：1000字
初级程序员
by: 太难了发表于：2021-05-26 20:01:27 顶(2) | 踩(0) 回复
怎么转积分呜呜
回复评论

还能输入：1000字
初级程序员
by: 太难了发表于：2021-05-26 20:04:23 顶(0) | 踩(0) 回复
求分享孩子要交作业了
回复评论

还能输入：1000字
初级程序员
by: 太难了发表于：2021-05-26 20:15:58 顶(1) | 踩(0) 回复
乱码是怎么回事啊
回复评论

还能输入：1000字
初级程序员
by: 阿金啊发表于：2021-08-29 19:46:20 顶(0) | 踩(0) 回复
小白观摩
回复评论

还能输入：1000字

共38 条评论 1/2页 1 2 >

发表评论：

评论须知：

1、评论每次加2分，每天上限为30；
2、请文明用语，共同创建干净的技术交流环境；
3、若被发现提交非法信息，评论将会被删除，并且给予扣分处理，严重者给予封号处理；
4、请勿发布广告信息或其他无关评论，否则将会删除评论并扣分，严重者给予封号处理。

用户注册

用户登录

发表随想

该用户最新代码

编程随想

爬虫

[python]代码库

[代码运行效果截图]

[源代码打包下载]

网友评论 (发表评论)

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

回复评论

发表评论：

评论须知：

扫码下载

输入口令后可复制整站源码