1、中文分词的基本原理
(1)字符串匹配分词法。
该分词法又分为正向最大匹配法、反向最大匹配法和最短路径分词法。
举个例子:
“不知道你在说什么”:采用正向最大匹配法分词结果是“不知道,你,在,说什么”。反向最大匹配法分词结果是“不,知道,你在,说,什么”。最短路径分词结果是“不知道,你在,说什么”。
(2)词义分词法。
这种分词法其实就是一种机器判断分词方法。原理很简单,就是先进行句法、语义分析,然后利用句法信息和语义信息来处理歧义现象从而达到分词的目的。
(3)统计分词法。
这种分词法很简单,就是根据词组的统计,根据两个相邻的字出现的频率的多少来确定这个词的重要性以达到分词的目的。
2、中文分词的SEO优化方法
中文分词是按照关键词的组合进行拆分,用户在搜索某个关键词时,搜索引擎的做法是先返回用户搜索的整个关键词,然后再返回拆分后的关键词结果。
根据这个结论,我们在关键词优化的过程中就可以对某些词进行适当的组合,比如:北京办公室装修设计,拆分之后就是北京办公室装修、办公室设计、北京办公室设计等,用户在搜索这个经过分割的关键词时,我们的网站也有很大的机会被搜索到。
也就是说中文分词的优化更多的将那些被分隔之后多个关键词重新组合成另一个可以包含他们的一个新关键词,这样做的原因是:①可以避免关键词堆砌,②增加多个关键词信息,③一个关键词带有更多的信息量。
3、中文分词SEO优化注意事项
(1)信息量领域要高度相关。
有时候为了将一个关键词的信息量最大限度的挖掘,可能会进行一些错误的组合,这样的优化可能没有什么用,反而对优化不利。
举例:
北京酒店装修设计施工,这个关键词的精准度太泛,含有北京酒店装修、酒店设计和酒店施工,很明显,其中的施工和前面的设计装修并不是同领域,施工侧重于寻找干活的工人,用户的需求中装修和设计是重点,至于施工,那时装修公司的事情。
信息量是达到了想要的数量,但是精准度却太过于分散,这样不利于关键词的权重集中。
(2)页面关键词和分词不相关。
在标题的关键词里面分词做得很优秀,但是页面中却没有相关的分词,这样对于其中的某些分词就不会有什么效果。
举例:
北京2020年经验性公墓价格,这个词包含的信息量有北京的陵园,2020年公墓价格信息等,如果页面重点只描述了2020年的各个经营性公墓情况,对于具体的公墓价格没有体现出来,那么搜索引擎在判断关键词和页面内容时,就会侧重于2020年的经营性公墓,而“价格”则不会给予较高的权重。
(3)内容优化做精准关键词,避免使用分词优化。
一般情况下,我建议在做长尾词优化时避免使用中文分词,除了首页、栏目列表和特定的内容聚合专题页,一般不建议使用分词。
原因是分词的优化有难度,对于一般的编辑或长尾词页面,我们应该集中精力去做一个关键词就行,要是涵盖的信息量太多,就会分散我们想要优化关键词的权重。