欢迎来到DIVCSS5查找CSS资料与学习DIV CSS布局技术!
  在抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式有多种多样,可以使用正则表达式,但是写起来相对比较麻烦。Python有许多强大的解析库,比如lxml,BeautifulSoup、pyquery等。此外,还提供了非常强大的解析方法,如XPath解析和CSS选择器解析等,利用这些库可以高效便捷的从网页中提取信息。
 
  (1)lxml的安装
 
  lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
 
  安装指令:
 
  安装完成之后,在Python命令行下测试:
 
  如果没有报错,则证明库已经安装好了。
 
  (2)Beautiful Soup的安装
 
  Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式。
 
  安装指令:
 
  安装完成之后,可以运行下面代码验证:
 
  运行结果如下:
 
  Hello
 
  如果运行结果一致,则证明安装成功。
 
  注意,这里我们虽然安装的是beautifulsoup4这个包,但是在引入的时候却是bs4.这是因为这个包源代码本身的库文件夹名称就是bs4,所以安装完之后,这个库文件夹就被移入到本机Python3的lib里,所以识别到的库文件名就叫bs4。
 
  (3)pyquery的安装
 
  pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。

如需转载,请注明文章出处和来源网址:http://www.divcss5.com/html/h62234.shtml