站长中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 504|回复: 4

[SEO优化] 搜索引擎新技术 让伪原创不那么“伪”

[复制链接]
发表于 2014-1-24 10:16:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
搜索引擎众多算法中,有一个网页查重技术。首先,说说这个“重”,其实很简单,就是重复内容。我们在网上经常看到相同标题或者内容的文章,一些最新的新闻或者关注度比较高的文章,都会被众多的新闻媒体网站转载。

    这里有一个Shingle算法,简单点说,这个算法的意思就是:一个长度为L的文档,每隔N个汉字取一个Shingle(瓦片的意思),这样一共截取了L-N+1个Shingle。两篇文章截取的Shingle相互对比,查看相同Shingle的个数,然后除以两个文档的Shingle总数再减去一致的Shingle数量。算出的结果叫做Jaccard系数,这个系数就是判断文章的相似度了。搜索引擎中相似度达到0.2就被判别为两篇文章相似。校泵h那么怎么样处理以上问题呢?这就有网页查重技术的出现了。搜索引擎将内容和格式上的相同相似构成了四种网页相似类型,分别是:

    1、两个网页有部分重要内容相同并且格式相同;

    2、两个网页有部分重要内容相同,但格式不同;

    3、两个网页内容和格式上完全相同;

    4、两个网页的内容相同,格式不同。远程控制软件判别文章相似度后,还有一个消重的操作,就是消除重复性的内容。如今搜索引擎消重的方式,是保留最早被搜索引擎蜘蛛爬取到的内容。

    索引擎算法里可以简单得到一些想法,就是伪原创的思路。就不细说了,而且搜索引擎的算法在不断的更新,如今更加的细腻,重复性的内容和低质量的内容很容易被搜索引擎检查出来。本文转载自漳州港房产zz.ffw.com.cn/
发表于 2014-3-13 11:06:04 | 显示全部楼层
应该在伪原创上加上一些自己的见解
发表于 2014-3-20 19:41:19 | 显示全部楼层
差不多就酱紫啦
发表于 2017-12-27 11:11:20 | 显示全部楼层
支持支持支持支持支持
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|站长中国

GMT+8, 2018-4-27 03:23 , Processed in 0.463546 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表