爬虫又称为网页蜘蛛,是一种程序或脚本。
但重点在于,它能够按照一定的规则,自动获取网页信息。
###爬虫的基本原理——通用框架
1.挑选种子URL;
2.讲这些URL放入带抓取的URL列队;
3.取出带抓取的URL,下载并存储进已下载网页库中。此外,讲这些URL放入带抓取URL列队,进入下一循环。
4.分析已抓取列队中的URL,并且将URL放入带抓取URL列队,从而进去下一循环。
爬虫获取网页信息和人工获取信息,其实原理是一致的。
如我们要获取电影的“评分”信息
人工操作步骤:
1.获取电影信息的网页;
2.定位(找到)要评分信息的位置;
3.复制、保存我们想要的评分数据。
爬虫操作步骤:
1.请求并下载电影页面信息;
2.解析并定位评分信息;
3.保存评分数据。
###爬虫的基本流程
简单来说,我们向服务器发送请求后,会得到返回的页面,通过解析页面后,我们可以抽取我们想要的那部分信息,并存储在指定文档或数据库中,这样,我们想要的信息会被我们“爬”下来了。
python中用于爬虫的包很多,如bs4,urllib,requests等等。这里我们用requests+xpath的方式,因为简单易学,像BeautifulSoup还是有点难的。
下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。
上一篇文章已经讲了安装requests和lxml库:
###一、导入模块
###二、获取豆瓣电影目标网页并解析
爬取豆瓣电影《神秘巨星》上的一些信息,地址
####1.获取电影名称。
获取电影的xpath信息并获得文本
这里的xpath信息要手动获取,获取方式如下:
**1.**如果你是用谷歌浏览器的话,鼠标“右键”–>“检查元素”
2. Ctrl+Shift+C将鼠标定位到标题。
3.“右键”–> “Copy”–> “Copy Xpath”就可以复制xpath
这样,我们就把电影标题的xpath信息复制下来了
放到代码中并打印信息
这样,我们爬取豆瓣电影中《神秘巨星》的“电影名称”信息的代码已经完成了,可以在eclipse中运行代码。
得到如下结果:
OK,迈出了第一步,我们继续抓取导演、主演、评分;
观察上面的代码,发现获取不同主演时,区别只在于“a[x]”中“x”的值不同。实际上,要一次性获取所有主演信息时,用不加数字的“a”即可获取。
如下:
所以我们修改好的完整代码如下:
结果输出:
怎么样,是不是很简单啊。赶快去试试吧——
下一篇文章,我们会爬取豆瓣读书的TOP250条信息:python爬虫实践——爬取豆瓣TOP250条图书信息
与这个又不一样喽——喜欢的关注一下,谢谢。
这里顺便补充点基础知识:
Requests常用的七种方法。
方法说明requests.request()构造一个请求,支撑以下个方法的基础方法requests.get()获取HTML网页的主要方法,对应于HTTP的GETrequests.head获取HTML网页头信息的方法,对应于HTTP的DEADrequests.post()向HTML网页提交POST请求方法,对应于HTTP的POSTrequests.put()向HTML网页提交PUT请求方法,对应于HTTP的PUTrequests.patch()向HTML网页提交局部修改请求,对应于HTTP的PATCHrequests.delete()向HTML网页提交删除请求,对应于HTTP的DELETE
目前,我们只需要掌握最常用的requests.get()方法就好了。
####requests.get()的使用方法
####Repsonse对象的属性:
data.status_code’:http请求的返回状态,200表示连接成功;
data.text:返回对象的文本内容;
data.content:猜测返回对象的二进制形式;
data.encoding:返回对象的编码方式;
data.apparent_encoding:响应内容编码方式。
如需转载,请注明文章出处和来源网址:http://www.divcss5.com/html/h60115.shtml