电话
13363039260
搜索引擎的内容提取工作是如何进行的呢?让我们通过案例来简要说明一下。如果你对搜索引擎的内容提取过程一无所知,阅读完本文后相信你会有所了解。
上述内容是页面的源代码,其中包含大量文本,包括英文字母和中文文本。
这是前端页面,未添加大量CSS样式。通常情况下,页面中会包含大量样式,这会使得前端页面显示更加美观。
那么,百度搜索是如何提取页面内容的呢?简单来说,分为以下几个部分:
1. 页面的标题:水煮鱼的做法。
需要注意的是,这里会进行中文分词,将其分为“水煮鱼”、“做法”和“水煮鱼做法”,进行分词与组合。
2. 正文内容。百度搜索只会提取有意义的词,而过滤掉无意义的词。
有意义的词:鱼/鱼肉片/鱼片/盐/淀粉/大蒜/干辣椒/姜/锅/油/姜/蒜/红辣椒/火锅底料/水/黄豆芽/蔬菜/鱼片,可以看到,这些提取的词基本都是名词。
无意义的词:比如首先/下来/和/然后/最后/即可等等这些。
辅助性的词:比如处理/干净/抓匀/切末/烧热/烧开/自己喜欢/腌制好等等。
可以看到,有意义的词是必不可少的,少了这些词页面内容就不完整了。但无意义的词去掉以后并不会改变页面内容,而辅助性的词则是帮助用户更好地阅读。在通过指纹计算相关性的时候,主要是参考和计算有意义的词。
出现频率较高的词语是:鱼、鱼片,它们的权重会更高,其他词的重要性会根据频率降低。
3. 链接:鱼肉片,搜索引擎会收集这个URL并将其添加到链接数据库中,同时记录锚文本并计算相应的权重值。
以上是百度搜索提取页面内容的简要过程和内容,希望大家可以拓展思考一下文章内容的原创度。
在百度搜索提取内容后,会进行指纹处理。如果两篇文章的指纹特征高度相似,就可以初步判断后面收录的内容是采集的,或者是简单伪原创的。因此,编辑伪原创文章时,仅仅进行简单的段落调换,或者简单地添加一些链接词、语气词等是不足以提升原创度的。
当然,百度搜索真正的提取工作要复杂得多,希望通过本文可以对其有一个初步了解。了解百度搜索提取页面内容的原理和过程,对于提升页面质量有很大的帮助,比如将页面设计得更美观,但若文本内容过少则不可取!本文还可以帮助大家理解外链、投票等,具体内容在此略过。