搜索引擎质量的高低很大程度上是取决于搜索结果的网页内容与用户体验。搜索引擎在查找能满足用户需求的网页时,主要考虑两方面:网页和查询的相关性与网页的重要性。网页和查询的相关性是指用户搜索查询与网页内容的内容相似性得分,而网页的重要性通常以链接分析计算方法评定;本文主要简述搜索引擎如何判断网页和查询的相关性?
判断网页内容是否与用户查询的关键词相关,这得看搜索引擎所采用的检索模型。几种常用的检索模型:布尔模型、向量空间模型、概率模型、语言模型及机器学习排序算法。
1.布尔模型
布尔模型简单来说就是在一个网页中是否出现用户所查询的词,是与非,包含于未包含。比如用户搜索的关键词是SEO,希望得到SEO相关的信息,那么当网页内容中出现SEO这个词,就说明该网页与用户查询词相关。布尔模型也是检索模型中最简单的一种,优缺点也很直观。
2.向量空间模型
向量空间模型将查询词和文档中关键词转为特性向量,然后使用余弦公式来计算文档与查询的相似性并排序输出结果。其中主要阐述TF-IDF算法,TF词频和IDF逆文档频率。
TF词频,即一个单词在内容中出现的次数,出现次数较多的词往往能说明该篇内容的主题信息。IDF逆文档频率是一个单词普遍重要性的度量,突显特征词。如果某个网页内容中某个关键词的词频很高,而且这个单词在网页搜索结果中与其他网页内容中很少出现,那么这个关键词的权值会很高。
SEO普遍运用就是关键词密度,但无统一衡量标准,勿拿2%~8%为关键词密度标准。
3.概率模型
概率模型中目前最成功的便是BM25模型,目前大部分商业搜索引擎都采用它作为相关性排序模型。在TF-IDF算法基础上延伸了相关概率后续词一说,比如搜索SEO一词,很大部分可能会搜SEO培训、SEO服务等等。在海量大数据中推导用户查询词与用户后续需求的概率,多维度满足用户需求。目前百度官方可供参考的便是百度指数的相关需求图谱,有些后续词依据,但仅供参考;也不局限于查询词的百度下拉框、相关搜索等后续。
网页是指整体,一个网页中可以划分为不同区域。比如网页标题、描述、网页内容、网页头部底部等等,不同的区域所对应权值不同,常说的网页标题肯定权值不低,标题中包含相关关键词很大程度上就以说明了网页内容的中心思想。基本了解了搜索引擎判断网页和查询的相关性,不用一个劲的堆砌关键词与琢磨关键词密度了。