一个简单的爬虫介绍

　　在学习了简单的java语法之后，练习使用java做一个简单的爬虫，将一个电影网页的电影介绍爬下来，首先需要了解爬虫是什么！

　　在了解了网络爬虫的概念之后，我们需要知道如何去爬，首先我们需要获取到这些信息，如同我们访问网页请求链接返回我们需要的数据一样，我们需要首先获取到网页的信息，这里我们使用的是jsoup中从一个URL加载一个Document，这里的可以参考jsoup使用手册,事实上我们这里通过jsoup获取到的就是整个网页的源码，同时jsoup有许多处理此源码的方法，在这篇中用的是正则匹配来进行爬虫操作。

　　首先使用Document 的toString方法将Document文档全部转化为字符串，然后使用字符串进行相应的片段匹配。这里要用到了以下的匹配规则：

　　上面是要进行匹配的一些正则及其用处，是一些要进行匹配的规则，接下来我们要对匹配的字符串进行处理，第一个处理就是摘取出匹配的部分，使用Pattern.match(String)进行匹配的查找，得到所有能够匹配的位置（实质上该方法返回值为Boolean类型，表明匹配成功或者匹配失败），然后使用.find()方法判断是否存在匹配的结果，然后依次取该结果，输出，当需要进行替换或者html代码需要进行删除时分别再次使用不同的正则进行匹配替换，最后输出结果，同时，还可利用Java I/O操作，将要输出的内容存成文件，方便下次查看。

如需转载，请注明文章出处和来源网址：http://www.divcss5.com/html/h60071.shtml