0基础小白入门Python，了解Python爬虫3个问题

　　一、什么是爬虫？

　　爬虫就是爬取网络数据的“虫子”，简单来讲就是网络数据采集。就像一个探测机器，到各个网站去抓取采集想到的数据，然后再把信息带回来。

　　二、爬虫的实质是什么？

　　爬虫的实质就是模拟浏览器的工作原理，通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。

　　总结来说，网络爬虫主要分3个大的版块：抓取，分析，存储。

　　根据url获取HTML数据解析HTML，获取目标信息存储数据重复第一步

　　了解了爬虫的原理之后，我们再来看看要学习Python爬虫，我们还需要解决哪三个问题？

　　熟悉Python编程了解HTML学习使用Python爬虫库

　　1、熟悉Python编程

　　Python是一种计算机程序设计语言，是面向对象的动态类型语言。其基础语法包括数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理等等。

　　2、了解HTML

　　HTML是一种用于创建网页的标记语言。它并不是编程语言，而是一种标记语言。HTML标记包含标签（及其属性）、基于字符的数据类型、字符引用和实体引用等几个关键部分。可以被浏览器读取，并渲染成我们看到的网页样子。

　　3、学习使用Python学习库

　　Python爬虫库有很多，通用的爬虫库主要有以下这些：

　　其中，requests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多，因为是第三方库，所以使用前需要cmd安装，找到python安装路径中的Scripts的路径：

　　C:\Users\Administrator\AppData\Local\Programs\Python\Python38-32\Scripts

　　cmd：cd

　　C:\Users\Administrator\AppData\Local\Programs\Python\Python38-32\Scripts

　　最后

　　学习python这项技能，首先要确定自己的兴趣，正所谓“兴趣是最好的老师”，确立目标后，再找到合适的方法，小白也可以实现从零到精通。

如需转载，请注明文章出处和来源网址：http://www.divcss5.com/html/h61685.shtml