主页 > SEO技术 > 百度算法:搜索引擎中文分词系统大揭秘

百度算法:搜索引擎中文分词系统大揭秘

小泽seo SEO技术 2020-05-19

百度中文分词技术是什么?为什么做SEO优化要了解搜索引擎中文分词算法技术?如果你想成为一个专业的SEOer,搜索引擎分词思维是必须掌握的,因为只有掌握了分词思维,你才可以定位好搜索引擎和用户需求的核心关键词,进而才能更深层次的挖掘出SEO技术,更好的对网站进行优化。而中文分词语义分析工具,是模拟搜索引擎语义智能分析,将网页文字进行词频提取与分词操作,提取最核心的关键词内容。

中文分词

一、中文分词是什么?

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

二,搜索引擎与语义分析的关系

机器算法和人不一样的地方是人可以直接理解词的意思,文章的意思,机器和算法不能理解。人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,搜索引擎却不能从感性上理解。但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析。通过语义分析,去分析名词,动词,形容词,助词等等词性,一个网页核心关键字就只有那么几个,大多数有价值的关键字都是名词形态为主,你可以通过语义分析系统分析网页的词语。

例如一篇文章写“我的父亲”,父亲是名词,我是代词,的是助词,对用户来说,我们直观想到的核心关键字是父亲,但是搜索引擎就不会像我们大脑那样意识决定网页核心关键字,大多数都是根据词性来决定网页关键字。

百度算法

注意:

在相等频率情况下,搜索引擎是优先名词作为核心关键字,不管你是“形容词+名词”还是“名词+动词”。但是在频率出现不等的情况下,出现次数的词性会优先名词,比如“可爱,可爱反义词,可爱的意思”,那么核心词是可爱。

中文分词的准确与否,都直接影响到对搜索结果的相关度排名。但是分词的难点在于消除歧义,例如一些歧义词,地名,人名,专业术语,机构名的词语,收录这些词是一项巨大的工程。分词歧义主要包括如下几个方面:

交集歧义, 例如:

研究/ 生命/ 的/ 起源

研究生/ 命/ 的/ 起源

组合歧义,例如:

他 / 从 / 马 / 上 / 下来

他 / 从 / 马上 / 下来

未登录词,例如:

蔡英文 / 和 / 特朗普 / 通话

蔡英文 / 和 / 特朗 / 普通话

除了上述歧义,有些歧义无法在句子内部解决,需要结合篇章上下文。例如,"乒乓球拍卖完了",可以切分为"乒乓/球拍/卖/完/了",也可以切分成"乒乓球/拍卖/完/了"。这类分词歧义使得分词问题更加复杂。

百度分词系统

三、中文分词对SEO优化的意义

中国的文字博大精深,不同的标点符号,不同的断句就代表着不同的意思。中文分词在搜索引擎优化中到底具有怎样的意义?分词对SEO的影响是多方面的,最重要的就是对长尾流量的影响。例如广州进口轴承销售,上海进口轴承销售等等对于SEO的了解可以知道,一个页面做关键词不要超过三个,因为超过三个就会分散了每个关键词的权重,反而一个都做不好。但如果我们想超过三个又不影响呢?那么我们这时候就需要利用中文分词来对关键词进行组合了。

例如:标题“进口轴承销售-上海-广州”,这样分出来的结果可能没有广州进口轴承销售或上海进口轴承销售的关键词来的直接,但用这样分词的办法却使到很多词都获得不错的效果。多个词排名在搜索引擎结果页的首位,总是要比一个关键词排名在第一位的覆盖面要广。久而久之,因为 广州+进口轴承销售、上海+进口轴承销售这些页面让搜索引擎知道你的页面和“进口轴承销售”这个关键词相关度很高,因此进口轴承销售这个主关键词的排名也会相对提高。

申明: 以上内容仅代表作者个人观点,小泽seo博客内容来源于个人原创与少部分转载,目的在于传递更多信息,不作为任何商业用途。未标注原创或具体来 源的内容均来源于网络,如若网站有任何内容侵犯您的权益,请及时联系我们,我们会在24小时内处理完毕!本网站内容禁止转载!

标签: 百度算法