欢迎来到DIVCSS5查找CSS资料与学习DIV CSS布局技术!
  一、什么是爬虫?
 
  爬虫就是爬取网络数据的“虫子”,简单来讲就是网络数据采集。就像一个探测机器,到各个网站去抓取采集想到的数据,然后再把信息带回来。
 
  二、爬虫的实质是什么?
 
  爬虫的实质就是模拟浏览器的工作原理,通过编程向网络服务器请求数据(HTML表单),然后解析HTML,提取出自己想要的数据。
 
  总结来说,网络爬虫主要分3个大的版块:抓取,分析,存储。
 
  根据url获取HTML数据解析HTML,获取目标信息存储数据重复第一步
 
  了解了爬虫的原理之后,我们再来看看要学习Python爬虫,我们还需要解决哪三个问题?
 
  熟悉Python编程了解HTML学习使用Python爬虫库
 
  1、熟悉Python编程
 
  Python是一种计算机程序设计语言,是面向对象的动态类型语言。其基础语法包括数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理等等。
 
  2、了解HTML
 
  HTML是一种用于创建网页的标记语言。它并不是编程语言,而是一种标记语言 。HTML标记包含标签(及其属性)、基于字符的数据类型、字符引用和实体引用等几个关键部分。可以被浏览器读取,并渲染成我们看到的网页样子。
 
  3、学习使用Python学习库
 
  Python爬虫库有很多,通用的爬虫库主要有以下这些:
 
  其中,requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多,因为是第三方库,所以使用前需要cmd安装,找到python安装路径中的Scripts的路径:
 
  C:\Users\Administrator\AppData\Local\Programs\Python\Python38-32\Scripts
 
  cmd:cd
 
  C:\Users\Administrator\AppData\Local\Programs\Python\Python38-32\Scripts
 
  最后
 
  学习python这项技能,首先要确定自己的兴趣,正所谓“兴趣是最好的老师”,确立目标后,再找到合适的方法,小白也可以实现从零到精通。

如需转载,请注明文章出处和来源网址:http://www.divcss5.com/html/h61685.shtml