CSS论坛's Archiver

紫兰 发表于 2012-9-18 10:55

一个网站的关键词该怎么提取

  大部分的网站以html格式存在,对于索引来说,只须要处理文本信息。因此需要把网页中内容提取出来,再过滤一些脚本如JS等以广告形式存在的内容,同时记录文本的版面格式信息,网页处理主要包括4个方面:关键词的提取,重复,转载的消除,链接分析,和网页重要度计算,关键词是怎么提取的,由于HTML 网页来源多样性,内容比较随意,新人SEO且不讲究规范,工整,包含了许多无关的信息,如广告,导航,版权说明,为了能查询到有用的内容,得从网页源文件中提取出有代表性的内部部分所包含的关键词,中文网页用到了词典和切词软件,不应该在文本中出现在等词,称为停用词,有效词语要保证在200左右。

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.