欢迎来到DIVCSS5查找CSS资料与学习DIV CSS布局技术!
  爬虫又称为网页蜘蛛,是一种程序或脚本。
 
  但重点在于,它能够按照一定的规则,自动获取网页信息。
 
  ###爬虫的基本原理——通用框架
 
  1.挑选种子URL;
 
  2.讲这些URL放入带抓取的URL列队;
 
  3.取出带抓取的URL,下载并存储进已下载网页库中。此外,讲这些URL放入带抓取URL列队,进入下一循环。
 
  4.分析已抓取列队中的URL,并且将URL放入带抓取URL列队,从而进去下一循环。
 
  爬虫获取网页信息和人工获取信息,其实原理是一致的。
 
  如我们要获取电影的“评分”信息
 
  人工操作步骤:
 
  1.获取电影信息的网页;
 
  2.定位(找到)要评分信息的位置;
 
  3.复制、保存我们想要的评分数据。
 
  爬虫操作步骤:
 
  1.请求并下载电影页面信息;
 
  2.解析并定位评分信息;
 
  3.保存评分数据。
 
  ###爬虫的基本流程
 
  简单来说,我们向服务器发送请求后,会得到返回的页面,通过解析页面后,我们可以抽取我们想要的那部分信息,并存储在指定文档或数据库中,这样,我们想要的信息会被我们“爬”下来了。
 
  python中用于爬虫的包很多,如bs4,urllib,requests等等。这里我们用requests+xpath的方式,因为简单易学,像BeautifulSoup还是有点难的。
 
  下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。
 
  上一篇文章已经讲了安装requests和lxml库:
 
  ###一、导入模块
 
  ###二、获取豆瓣电影目标网页并解析
 
  爬取豆瓣电影《神秘巨星》上的一些信息,地址
 
  ####1.获取电影名称。
 
  获取电影的xpath信息并获得文本
 
  这里的xpath信息要手动获取,获取方式如下:
 
  **1.**如果你是用谷歌浏览器的话,鼠标“右键”–>“检查元素”
 
  2. Ctrl+Shift+C将鼠标定位到标题。
 
  3.“右键”–> “Copy”–> “Copy Xpath”就可以复制xpath
 
  这样,我们就把电影标题的xpath信息复制下来了
 
  放到代码中并打印信息
 
  这样,我们爬取豆瓣电影中《神秘巨星》的“电影名称”信息的代码已经完成了,可以在eclipse中运行代码。
 
  得到如下结果:
 
  OK,迈出了第一步,我们继续抓取导演、主演、评分;
 
  观察上面的代码,发现获取不同主演时,区别只在于“a[x]”中“x”的值不同。实际上,要一次性获取所有主演信息时,用不加数字的“a”即可获取。
 
  如下:
 
  所以我们修改好的完整代码如下:
 
  结果输出:
 
  怎么样,是不是很简单啊。赶快去试试吧——
 
  下一篇文章,我们会爬取豆瓣读书的TOP250条信息:python爬虫实践——爬取豆瓣TOP250条图书信息
 
  与这个又不一样喽——喜欢的关注一下,谢谢。
 
  这里顺便补充点基础知识:
 
  Requests常用的七种方法。
 
  方法说明requests.request()构造一个请求,支撑以下个方法的基础方法requests.get()获取HTML网页的主要方法,对应于HTTP的GETrequests.head获取HTML网页头信息的方法,对应于HTTP的DEADrequests.post()向HTML网页提交POST请求方法,对应于HTTP的POSTrequests.put()向HTML网页提交PUT请求方法,对应于HTTP的PUTrequests.patch()向HTML网页提交局部修改请求,对应于HTTP的PATCHrequests.delete()向HTML网页提交删除请求,对应于HTTP的DELETE
 
  目前,我们只需要掌握最常用的requests.get()方法就好了。
 
  ####requests.get()的使用方法
 
  ####Repsonse对象的属性:
 
  data.status_code’:http请求的返回状态,200表示连接成功;
 
  data.text:返回对象的文本内容;
 
  data.content:猜测返回对象的二进制形式;
 
  data.encoding:返回对象的编码方式;
 
  data.apparent_encoding:响应内容编码方式。

如需转载,请注明文章出处和来源网址:http://www.divcss5.com/html/h60115.shtml