欢迎来到DIVCSS5查找CSS资料与学习DIV CSS布局技术!
  网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
 
  由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
 
  上手容易
 
  免费开源,使用不受限制
 
  解释执行,跨平台不受限制
 
  面向对象
 
  框架和库支持丰富,有大量的历史积累
 
  HTTP = HyperText Transfer Protocol
 
  URI = Uniform Resource Identifier
 
  URL = Uniform Resource Locator
 
  URI和URL的区别:URI强调的是资源,而URL强调的是资源的位置。
 
  常用请求类型
 
  OPTIONS: 返回服务器针对特定资源所支持的http请求方法。HEAD: 向服务器索要与get请求相一致的响应,只不过响应体将不会被返回。(发送请求但是不返回响应)GET: 向特定资源发出请求PUT: 向指定资源位置上传其最新内容POST: 向指定资源提交数据进行处理请求DELETE: 请求服务器删除指定URI所标识的资源PATCH: 用来将局部修改应用于某一资源
 
  (get, post 用的比较多)
 
  HTTP常见状态码
 
  200/OK: 请求成功201/Created: 请求已被实现,且一个新资源已根据请求被建立,URI跟随Location头信息返回。202/Accepted: 服务器已接受请求,但尚未处理。400/Bad Request: 请求无法被服务器理解常见情况:格式错误401/Unauthorized: 当前请求需要用户验证用户名,密码错误403/Forbidden: 服务器已理解请求,但拒绝执行。没有权限等404/Not Found
 
  HTML (Hypertext Markup Language)
 
  推荐教程:HTMLHTML不是编程语言,而是一种标记语言。即HTML使用标记标签来描述网页。标签和元素
 
  DOM文档模型
 
  在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM
 
  就是一个大数组
 
  XML
 
  eXtensible Markup Language
 
  XML 被设计用来传输和存储数据。
 
  HTML 被设计用来显示数据。
 
  Json
 
  语法类似XML,但是更小、更快、更容易解析。对JavaScript特别友好。
 
  MySQL
 
  Windows:
 
  下载免费社区版mysql server。
 
  客户端操作可以使用
 
  MySQLworkbenchLinux(以debian为例):
 
  apt-get install mysql-server mysql-client
 
  登陆mysql: mysql -p hostname -u username -p,然后使用use dbname指定需要操作的数据库
 
  安装phpmyadmin方便在浏览器操作数据库SQLite
 
  本地数据库
 
  Windows直接去下载可执行文件即可使用,Linux下apt-get install sqlite3即可完成安装。
 
  相比mysql更加轻便好用。
 
  大数据情况下效率变差,适合单机小程序。MySQL常用命令
 
  show databases: 显示当前服务器上的数据库
 
  create database dbname: 创建一个新数据库
 
  use dbname: 使用指定的数据库
 
  show tables: 显示当前数据库的所有表
 
  desc tbname: 显示表结构
 
  爬虫工作流程
 
  将种子URL放入队列
 
  从队列中获取URL,抓取内容。
 
  解析抓取内容,将需要进一步抓取的URL放入工作队列,存储解析后的内容抓取策略
 
  深度优先
 
  广度优先
 
  PageRank: 根据PR值对网站进行排序
 
  大站优先策略如何去重
 
  Hash表
 
  bloom过滤器:实际商业大型应用使用bloom过滤器,优点:节省内存爬虫质量标准
 
  -分布式:效率
 
  -可伸缩性
 
  -性能和有效性
 
  -质量
 
  -新鲜性
 
  -更新
 
  -可扩展性
 
  扯得远点
 
  -Map/Reduce背后
 
  -bloom过滤器
 
  Robots规范
 
  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

如需转载,请注明文章出处和来源网址:http://www.divcss5.com/html/h60090.shtml