技术干货|手把手教你怎样爬虫
发布时间:2020-06-29     作者:     浏览量:372   分享到:

听说过python的人肯定也听说过爬虫,那么今天就跟大家唠一唠这个爬虫。

用 python写爬虫程序现在已经是一种很普遍的现象了,大家都希望以此来从网上爬取一些资料用于数据分析等。

爬虫,第一步就是把目标网址的内容下载下来存储到内存中,但此时它保存的内容只是一堆源代码,那么接下来就要对这些源代码进行解析,再根据自己的需求提取数据,最后将数据保存到文件中。下面给大家简单地举例讲解。

首先找到一个网站,以猫眼电影为例,页面是这样的:

微信图片_20200702161400.png然后我们通过鼠标右键,选择检查来看看它的HTML代码:

微信图片_20200702161408.png

现在大家可以看到,它会自己弹出到我们想要的内容上,那接下来我们只要想办法把需要的数据取出来就可以了。下面正式开始!


01 导包

微信图片_20200702161414.jpg

 给大家简单介绍一下这两个包。它们是写爬虫程序较为常用的两个包, 第一个包的作用是允许用户发送http请求,获取网络URL资源,不需要为添加URL添加查询字串,也不需要对post数据进行表单编码。BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据


02 获取源代码

微信图片_20200702161502.jpg

通过请求网址执行上述代码可以得到源代码,大家可以由下图看到它的部分源代码:

微信图片_20200702161512.jpg


03 解析源代码

微信图片_20200702161521.jpg

可以用第一步导入的BeautifulSoup对第二步获得的源代码进行解析,然后可以通过执行第四步看到解析的结果。那么我们继续:


04 查看获取数据

微信图片_20200702161528.jpg


05 查看部分结果

微信图片_20200702161534.png

这样就完成了。通过这样简单的四步,大家就可以通过爬虫来获取自己需要的数据了!