深圳SEO优化|培训-老余SEO博客

《SEO及应用编程》关键词_抖商

GoGo@SEO应用编程

关键词

1)词库搭建

关键词来源

通过词根托词(定向)

5118长尾词:

爱站长尾词:

相关搜索(包含词根的)轮循

下拉框(包含词根的)轮循

凤巢关键词

5118树状规划图:

竞争度:凤巢 > 5118&爱站 > 相关搜索&下拉

稳定性:凤巢&5118&爱站 > 相关搜索&下拉

定向关键词,竞争度较大

通过网站托词(非定向)

5118网站词库:

爱站网站词库:

遍历竞争对手网站地图:

tag页、专题页...sitemap

/tag/1/ /tag/2/ /tag/3/

...

跟领域相关,但有没有明确的词根

分类通过词根拓展的

找出筛选条件

筛选条件,可以作为网站栏目或筛选项

找出搜索需求

有找交流群的,有找新产品的,有问某个产品靠不靠谱的...

根据筛选条件和搜索需求,批量生成大量词

{贷款产品} + 口子 + 怎么样/是真的吗/入口/链接/贴吧..

{贷款类型} + 口子 + 有哪些/大全...

通过网站拓展的

过滤出垃圾词

与本站内容完全不相关的

不符合社会主义核心价值观的

重复的

过滤方法

与本站内容完全不相关的

最简单的办法,通过搜索解决。每个词,搜索整站内容,如果没有搜索

结果,则与本站内容不相关

不符合社会主义核心价值观的

命中黑名单

联系QQ 3378683898进同步更新群重复的

删掉停止词后,再分词后,词项完全一致的,保留一个

原始词:

北京公积金提取条件

北京市公积金提取条件

北京公积金的提取条件

公积金北京提取条件

停止词():

的、{地区前缀}...

删除停止词:

北京公积金提取条件

北京公积金提取条件

北京公积金提取条件

公积金北京提取条件

分词获取词项(jieba模块实现分词):

[北京, 公积金, 提取, 条件]

[北京, 公积金, 提取, 条件]

[北京, 公积金, 提取, 条件]

[公积金, 北京, 提取, 条件]

>>> 四个词的词项完全一致,保留一个词

>>> 保留:北京公积金提取条件

分类

词向量

机器学习:tensorflow

通过搜索

网站每个栏目下,随机抽取几千篇文章标题

依次给每个栏目的文章标题,创建索引

联系QQ3378683898进同步更新群用拓展词依次去搜索,每个栏目标题的索引,并记录搜索结果数

将该关键词,归类到搜索结果数最大的栏目下

打标签

文章标签:

文章分类:http://ai.baidu.com/tech/nlp_apply/doctagger

2)关键词布局

解决网页 "塞什么词" 以及 "塞多少" 的问题,进一步解决,网页相似性的问题

TF-IDF计算

TF = 某个词在文档中出现的次数 / 文档的长度

关键词: "黑户口子"

目标页:http://www.pcben.com/news/gonglue/11835.html

>>> 词项:['黑户', '口子']

>>> 文档字数:2104

>>> [黑户] 出现次数:19

>>> [口子] 出现次数:49

TF(黑户) = 19/2014 =

TF(口子) = 49/2104 = 0.023

IDF = log( 搜索引擎文档总数 / 出现某个词的文档总数 )

PSlog2为底

比如:

1)网站有ABCD四个栏目,各抽取5000篇文章,创建4

2)拓展关键词a,依次去搜索四个栏目文章的索引

3ABCD四个栏目的搜索结果数,依次是:908056109

4)则拓展关键词a,归类到栏目D

搜索引擎文档总数:100000000

[黑户]文档总数:21400000

[口子]文档总数:36500000

IDF(黑户) = log(100000000/21400000) =

联系微信客服3378683898进同步更新群TF-IDF的意义

网页不见得内容越多越好。若布局不当,内容越多反而会稀释TF(keyword)的分值,从而降

低这个词与这个网页的相关性

IDF本质是一个词项的权重,降低文档中高频关键词的权重。所以网页中,玩命塞完整的关

键词不见得好,但要多塞这个关键词中IDF最高的词项

BM25计算

TF-IDF存在明显漏洞,因为SEO可以通过 [缩减页面内容量] [堆砌IDF高的词项] 来拉高关

键词与网页的相关性

因此现在采用的都是BM25算法,在TF-IDF基础上,添加了3个参数:

常量K:用来限制TF值的增长极限,TF值永远在 [0 ~ K+1] 之间

参数L:文档长度与平均长度的比值,如果文档长度是平均长度的2倍,则L2

常数b:用来规定L对评分的影响有多大

Elasticsearch里,K默认b默认0.75

2.4BM25的意义

增加了文档长度对相关性的影响。文档越短,相关性会比用TF计算的值更低,减少通过 [

减页面内容量] 对相关性计算的干扰

IDF(口子) = log(100000000/36500000) =

[黑户]的重要性是[口子]

>>> 网页多出现[黑户],可以提高与[黑户口子]的相关性

TF-IDF(黑户口子) = TF(黑户)*IDF(黑户) + TF(口子)*IDF(口子) = × + 0.02

Case[北京百度区块链工程师工资]的网页,若添加内链模块,以下哪个规则,对提升

词项:北京、百度、区块链、工程师、工资

A. 调用北京地区,10个随机职位的工资链接(降低相似性,甚至降低排名)

B. 调用北京地区,30个百度职位的工资链接(比A严重,降低相似性,降低排名)

C. 调用北京地区,10个区块链工程师的工资链接(get

D. 调用北京地区,20个区块链工程师的招聘链接(get

公式 = 权重(IDF) × 相关性 = IDF( keyword) ⋅ i=1

n

[ T F(keyword)+k⋅ 1− ( b+b 整个文档库的平均字数

当前文档的字数

)

T F(keyword)⋅ k+1( )

]增加了对TF极限值的限制,减少通过 [堆砌IDF高的词项] 对相关性计算的影响

只是影响而已,[缩减页面内容量] [堆砌IDF高的词项] 还是有用的,注意尺度

BM25同样作用于title

联系QQ3378683898进同步更新群<</span>

加载中,请稍候......

当前位置:深圳SEO优化|培训-老余SEO博客» SEO » 《SEO及应用编程》关键词_抖商