百度搜索引擎是如何判断一篇文章内容是否为原创的?
摘要:我们在了解百度搜索引擎如何判断文章原创之前,需要了解一个概念,原创可以硬性确定为首次出现在互联网内的内容…
我们在了解百度搜索引擎如何判断文章原创之前,需要了解一个概念,原创可以硬性确定为首次出现在互联网内的内容,在其它的任何网站服务器里均没有出现过,独一无二在存在。
那我们接下来来了解下搜索引擎是如何来判断文章的原创性的
首先,对文章内容的标题的分析:搜索引擎通常是先截取标签前60个字符作为分析数据。判定这个标题是不是独一的,我们都知道引擎分类是通过条目相关搜索词来索引的。引擎会把截取到的标题按这个相关搜索词分组与已经收录的条目数据库进行匹对。假如数据库中已经存有了这个标题,就会认为此标题不独一,待匹对文章内容。假如一组词匹对完毕,再会截取下面的词,再会以此类推,进行匹对……直到前面60个字符匹配完毕,在对后面的词进行统一处理,个人认为引擎很可能是把后边的词组做一个字符串处理。
终极标题的匹对结果有两种:1. 标题数据库暂无此内容;2. 标题数据库中已存在此内容。针对该两种不同情况,引擎会在它的索引服务器里做一个标识。作为网站权重的一个排名参数。
其次,内容的分析:基本思路应该和标题的分析类似,但是也有差别。因为内容包含的信息量比标题的信息量大的多,所以需要有更复杂的算法。由于文章内容一般很长,所以不可能对关键词进行分析匹对,只能对一句话或者一段话进行分析匹对。但是匹对范围应该仍是针对标题中有相关搜索词的文章数据库。内容的分析方法是截取随机长的字段,然后对此字段前后内容进行分析。假如当前页与引擎内容数据库中有相同字段且前后段也相似,就认为这个文章有非原创的嫌疑。
这个分析过程一般要重复几回。如果分析十次,有七次在截取字段前后都能在已有内容数据库中匹对到相同内容,加上标题又相似,该篇文章就会被认定为非原创。
假如判断这是一篇原创,那么引擎会在它的网站权重索引数据库中对该域名进行加权,显然,原创文章越多,权重越高,网站排名也就越来越好。
搜索引擎通过标题、内容关键词与数据索引库的内容进行匹对,只要进行足够次数的匹对,扩展相关数据库条目匹对范围,一篇文章是不是原创就能分辨出来了。随着现在服务器性能越来越强大,算法越来越复杂,应该很容易判断出来是不是原创文章。故抄袭、复制,必死无疑。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 wper_net@163.com 删除。
还没有任何评论,赶紧来占个楼吧!