python爬虫实践精选

　　爬虫又称为网页蜘蛛，是一种程序或脚本。

　　但重点在于，它能够按照一定的规则，自动获取网页信息。

　　###爬虫的基本原理——通用框架

　　1.挑选种子URL；

　　2.讲这些URL放入带抓取的URL列队；

　　3.取出带抓取的URL，下载并存储进已下载网页库中。此外，讲这些URL放入带抓取URL列队，进入下一循环。

　　4.分析已抓取列队中的URL，并且将URL放入带抓取URL列队，从而进去下一循环。

　　爬虫获取网页信息和人工获取信息，其实原理是一致的。

　　如我们要获取电影的“评分”信息

　　人工操作步骤：

　　1.获取电影信息的网页；

　　2.定位（找到）要评分信息的位置；

　　3.复制、保存我们想要的评分数据。

　　爬虫操作步骤：

　　1.请求并下载电影页面信息；

　　2.解析并定位评分信息；

　　3.保存评分数据。

　　###爬虫的基本流程

　　简单来说，我们向服务器发送请求后，会得到返回的页面，通过解析页面后，我们可以抽取我们想要的那部分信息，并存储在指定文档或数据库中，这样，我们想要的信息会被我们“爬”下来了。

　　python中用于爬虫的包很多，如bs4，urllib，requests等等。这里我们用requests+xpath的方式，因为简单易学，像BeautifulSoup还是有点难的。

　　下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。

　　上一篇文章已经讲了安装requests和lxml库：

　　###一、导入模块

　　###二、获取豆瓣电影目标网页并解析

　　爬取豆瓣电影《神秘巨星》上的一些信息，地址

　　####1.获取电影名称。

　　获取电影的xpath信息并获得文本

　　这里的xpath信息要手动获取，获取方式如下：

　　**1.**如果你是用谷歌浏览器的话，鼠标“右键”–>“检查元素”

　　2. Ctrl+Shift+C将鼠标定位到标题。

　　3.“右键”–> “Copy”–> “Copy Xpath”就可以复制xpath

　　这样，我们就把电影标题的xpath信息复制下来了

　　放到代码中并打印信息

　　这样，我们爬取豆瓣电影中《神秘巨星》的“电影名称”信息的代码已经完成了，可以在eclipse中运行代码。

　　得到如下结果：

　　OK，迈出了第一步，我们继续抓取导演、主演、评分；

　　观察上面的代码，发现获取不同主演时，区别只在于“a[x]”中“x”的值不同。实际上，要一次性获取所有主演信息时，用不加数字的“a”即可获取。

　　如下：

　　所以我们修改好的完整代码如下：

　　结果输出：

　　怎么样，是不是很简单啊。赶快去试试吧——

　　下一篇文章，我们会爬取豆瓣读书的TOP250条信息：python爬虫实践——爬取豆瓣TOP250条图书信息

　　与这个又不一样喽——喜欢的关注一下，谢谢。

　　这里顺便补充点基础知识：

　　Requests常用的七种方法。

　　方法说明requests.request()构造一个请求，支撑以下个方法的基础方法requests.get()获取HTML网页的主要方法，对应于HTTP的GETrequests.head获取HTML网页头信息的方法，对应于HTTP的DEADrequests.post()向HTML网页提交POST请求方法，对应于HTTP的POSTrequests.put()向HTML网页提交PUT请求方法，对应于HTTP的PUTrequests.patch()向HTML网页提交局部修改请求，对应于HTTP的PATCHrequests.delete()向HTML网页提交删除请求，对应于HTTP的DELETE

　　目前，我们只需要掌握最常用的requests.get()方法就好了。

　　####requests.get()的使用方法

　　####Repsonse对象的属性：

　　data.status_code’：http请求的返回状态，200表示连接成功；

　　data.text：返回对象的文本内容；

　　data.content：猜测返回对象的二进制形式；

　　data.encoding：返回对象的编码方式；

　　data.apparent_encoding：响应内容编码方式。

如需转载，请注明文章出处和来源网址：http://www.divcss5.com/html/h60115.shtml