保存到桌面加入收藏设为首页

 友情提醒上和下均为广告区域 联系QQ:联系爱网络社区


优化浅谈
当前位置:首页 > 爱网优化 > 优化浅谈

【杭州网站优化】Shingle算法对SEO聚合页面的一点启发 | 深圳爱网络SEO博客

时间:2018-11-04 13:45:12   作者:逢坂爱   来源:   阅读:3473   评论:0
内容摘要:杭州网站优化:Shingle算法对SEO聚合页面的一点启发陈慧是前美团网的SEO,也是北京SEO圈里少有的几位美女之一,她对于一些搜索引擎的算法有着较深的研究,并且能运用到实际案例中去。更为难得的是她可以把她的想法用文章表达出来,这对于一些“技术宅”来说,的确不是一件容易的事。废......
 今日热门 
飞利浦PHILIPS无线鼠标可充电式光电静音无声男女生可爱台式电脑小米联想苹果mac笔记本游戏办公家用 售价:39.00
销量:27452
去购买看看
小巨蛋美白牙膏氨基酸清新去口气亮白牙膏植物配方230g送试用装 售价:119.90
销量:23368
去购买看看
初级会计职称2019教材历年真题试卷全套实务经济法和基础助理会计师2018年会计证章节训练套题练习19年官方正版课本安徽浙江湖南省 售价:35.10
销量:30539
去购买看看
大学生寝室护眼LED长条灯酷毙灯宿舍神器USB灯管灯条书桌台灯充电 售价:10.00
销量:37903
去购买看看
文章出处:爱网络社区
本站网址:http://iwangluo.cn/

更新时间:2018年

投稿邮箱:529502378@qq.com

本站承诺:凡投稿本站的原创稿件,一经采用,随后发送稿费2-20元支付宝现金红包

杭州网站优化:Shingle算法对SEO聚合页面的一点启发

陈慧是前美团网的SEO,也是北京SEO圈里少有的几位美女之一,她对于一些搜索引擎的算法有着较深的研究,并且能运用到实际案例中去。更为难得的是她可以把她的想法用文章表达出来,这对于一些“技术宅”来说,的确不是一件容易的事。废话不说了,这里转一篇她发表在昆哥ITSEO上面的文章,让大家见识一下SEO圈里的女侠:)

----------------------下面是文章开始-----------------------

Shingle算法是搜索引擎去掉相同或相似页面的其中一种基本算法,做SEO聚合页面的时候如何让页面之间不重复?如何处理重复度的问题?可以反推Shingle算法得到一些启发。

Shingle [ˈʃɪŋgəl]在英文中表示相互覆盖的瓦片。先通过一个例子来说明Shingle算法:

假设有A、B两个文档的标题,A文档的标题是:明起电话订火车票可全国通取取票时间延12小时;B文档的标题是:火车票电话订票实现全国通取网上预售期延长。

搜索引擎如何知道这两篇文档标题是否是重复的?比如我们可以以2个汉字切为一个Shingle的方法:

我们可以以2个汉字切为一个Shingle的方法

对于长度L的文档,每隔N个汉字切一个Shingle,这样一共切到L-N+1个shingle,A文档标题切成了L-N+1=21-2+1=20个Shingle,B文档标题切成了L-N+1=20-2+1=19个Shingle。

A、B两个文档标题共同的Shingle有图上7个加粗的:电话、话订、火车、车票、全国、国通、通取。

A、 B两个文档标题一共有20+19-7=32个Shingle。

然而,A、B两个文档标题共同的Shingle,除以,A、B两个文档标题一共有的Shingle,就是这两个文档标题的Jaccard系数,可以用来判断A、B两个文档标题的相似度。

A、 B两个文档标题的Jaccard系数=7/(20+19-7)=0.21875

从两个文档的标题,可以延伸到两个页面文档,再延伸到N个页面,通过Jaccard系数是否达到相似所需要的标准来判断页面与页面是否相似。

这就是Shingle算法,两个集合的交集除以两个集合的并集,得到Jaccard系数,通过判断Jaccard系数是否大于某个数,来判断两个集合是否重复。

反推Shingle算法,如果Jaccard系数小于某个数,就不重复了,先给每个文档集合拆分成若干个Shingle,再两两计算Jaccard系数,如果小于某个数,生成页面即可。

我之前做的一个项目使用的一个方法,虽然比较笨,也还算实用,分享一下:

假设北京电影品类有100个团购单子,现在要为下图右边这些词设计聚合页面,每个页面展示10个单子,假设jaccard系数大于0.3判定为页面重复,怎么生成不重复页面?

如下图展示单子的标题和长标题(假设seo聚合页用的长标题,因为长标题文字不单一,文字量也大):

每个id是唯一的,每个id对应的标题和长标题可以近似于唯一,那就可以简化成允许相同id的单子数来解决重复的问题。

意思是,每个页面展示10个单子,每两个页面不能有>=3.33个id是一样的,即两两页面id比较,所有的id都不同可以页面,只有1个id相同可以生成页面,只有2个id相同可以生成页面,只有3个id相同可以生成页面,如果有大于等于4个id相同就不生成页面。

顺便介绍一下我自己,我叫陈慧,性别女,第一份工作在3158致富网,工作了快两年,第二份工作在爱帮网,也工作了快两年,从2012年12月开始来到美团,算起来有4.5年的seo经验,说起来惭愧,在这一行比我小好几岁比我强的有太多,修行还得看个人,不看工作年限哈。

以后会把大部分业余时间花在算法、技术seo交流上,期望有更多好的东西分享给大家。

* 所有教程和软件仅供参考和学习 投稿者并非本站官网人员 爱网络社区有权关闭不遵纪守法用户。
* 本站教程种类繁多 用的好麻烦点分享!
* 破解软件或黑客软件存在误报可能 小爱也都是亲测可用 如果不放心可以别下载 不要BB!

* 站内提供的所有软件包含破解及注册码均是由网上搜集,若侵犯了你的版权利益,敬请529502378通知我们!




相关评论
本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除

投稿邮箱:529502378@qq.com 商务合作QQ529502378

官方网址:http://iwangluo.cn Copyright ?2017 - 2018 爱网络社区ALL RIGHT RESERVED |


  晋ICP备18001688号-2