[jjzhu学python]之使用python抓取拉勾网职位信息并做简单统计分析

  • 时间:
  • 浏览:0

我我着实,还需要看拉钩页面的源码,显示比较单一,而是看它的前端页面源码,还需要看多,也我太大 了有俩个模板,而是发请求,根据返回的数据填入其中就还需要了,我能 随意点有俩个职位链接,在看它的network,看加载页面的那个请求,发现了有哪些?

2、pymsql(安装还需要到github下载安装https://github.com/PyMySQL/PyMySQL)

总爱对python感兴趣,最近想玩玩爬虫,抓拉钩互联网职位招聘信息,而是做点统计有哪些的,废话我太大 说,开打开打。

1、beautifulsoup(相关安装和使用还需要到 官网(点击打开)查阅)

提取代码

python的程序运行池池使用比较简单,需要引入threading.Thread 和 queue(队列)

mysql  Connection类:

分析它不同职位的请求,你就会发现,它所需要的参数而是有俩个当前城市city,当前页号pn,和职位种类kd

2、pycharm 4.0.4



开启程序运行池池

打开拉钩首页,按F12进入网页调试模式,还需要发现拉钩把所有的职位都装入 了id=sidebar标签下,每个职位都装入 <a></a>标签下,而是很容易的就取到了所有职位

上有的是,感兴趣搞笑的话还需要同去讨论讨论

需要的插件

3、python 3.4

作为程序运行池池猿,对有哪些boss直聘,拉勾网有哪些的招聘网站应该不陌生.....http://www.lagou.com/

解决函数working()

未完待续....里边统计的以前在写,现在还没做....

它也我太大 了有俩个positionAjax.json?city=*****的post请求,而是根据返回数据显示的

而是,假使 获取到它所有的城市,所有的职位,而是依次发请求,就还需要轻松的获取它所有的招聘信息了.....里边因为获取了所有职位,现在获取所有城市

主要的工作都差我太大 完成了,现在就运行它抓数据去吧

现在有了所有职位分类和所有城市,接下来的任务而是发请求,获取数据了。一刚开始英文英文了了是用单程序运行池的.....时延单位可想而知,而是,用各程序运行池池时延单位会明显提升而是。

LagouCrawler类:

要抓有俩个网站的数据,当然要分析這個网站的网页代码是要怎样会写的,也而是我需要要的信息数据装入 有哪些位置。

运行环境:

1、win7 32bit

4、google chrome

这说明有哪些?说明我需要要他的职位数据,你假使 发请求,而是对里边返回的json数据提取就还需要了!!需要解决它的页面!

当然,还得给亲戚亲戚朋友分配任务,接下来而是把所有任务都装入 队列中了,根据当前城市和当前职位来创建请求任务

抓取函数,也而是发请求函数grab()

里边给的有的是代码片段,因为其他辅助最好的妙招没贴出来,这里就把所有的代码都装入 来吧。