所谓内容处理,指搜索引擎针对爬虫抓取后的内容进行处理。爬虫爬取到网页信息采集到数据库,然后进行网页处理,再存储到索引库。了解了搜索引擎是如何处理内容的,对后续网页参与排名有着十分重要的意义。
一、判断网页的类型
·网页类型:是网页,还是PDF、Word、Excel等其他特殊文件文档;
·网页属性:是首页,还是专题页、文章、聚合列表页等等;
·网页主体:是文本内容、视频内容、图片内容还是其他内容等。
二、提取网页的文本信息
·主体识别:识别网页的主体部分,并进行提取;
·标签提取:根据TDK、Strong、H标签、a链接内容;
·提取难度:JavaScript、Flash、图片.视频等内容提取。
三、去重页面噪音
·广告剔除:将网页本身的广告、导航、链接、图片、版权信息等进行过滤;
·相关内容:除了主题内容外,相关的一些推荐版位大概率上是不会易除的;
·链接保留:部分链接锚文本在一定概率上也会被保留,取决于相关性.质量程度;
·去停止词:关联到分词,将停止词:的、得、地、啊、呀、呵、哈等无意义词进行剔除;需要注意的是,这个并非严格道守,中间涉及语意理解。
上述就是搜索引擎处理网页信息的流程原理,
搜索引擎优化一直再帮用户更好的理解这些信息内容,尤其是今后的语义方面分析至关重要。