客服微信

阜阳网络推广-百度的seo如何做好分词技术?

作者:xiaoyuan|分类:网络推广|标签:网络推广

  怎样分词可以满足搜索引擎?什么是百度分词?SEO是不是有打仗一些分词组件呢?从百度分词不难看出,分词是依据词义、词语、词频的体式格局,来决议搜索引擎对词语的捕获。

  中文分词平常为:字符串婚配、统计分词、词义分词。

  起首一种:字符串婚配分词

  这类分词手艺又称之为机械分词要领,直白说就是扫描字符串,查询页面中字符串的子串和词雷同,则视为婚配,该类分词平常会到场启发式划定规矩,比方:正向/逆向较大化婚配、长词优化等要领。

  上风:婚配速率快,完成历程简朴

  劣势:难以辨别歧义词,婚配不精准

  案例:庖丁解牛分词器就是基于字符串婚配的分词

  例子:成都收集推行公司

  “成都、成都网、推行、公司”“成都、推行网、公司”

  正向较大值婚配:把关键词从左到右举行婚配

  逆向较大值婚配:把关键词从右到左举行婚配

  最短途径分词法:搜索引擎提取文中词数最小值

  第二种:统计分词

  这类分词基于人工标注的词性和统计特性,对中文举行建模,即依据观测到的数据(标注好的语料)对模子参数举行预计,即练习。 在分词阶段再经由过程模子盘算种种分词涌现的几率,将几率较大的分词结果作为终究结果。罕见的序列标注模子有HMM和CRF。

  长处:很好处置惩罚歧义和未登录词题目,结果比基于字符串婚配结果好

  瑕玷:须要大批的人工标注数据,较慢的分词速率

  相邻的字同时涌现的次数越多,就越有能够组成一个词。因而字与字相邻共现的频次或几率可以较好的反应成词的可信度。

  可以对语估中相邻共现的各个字的组合的频度举行统计,盘算它们的互现信息。定义两个字的互现信息,盘算两个汉字X、Y的相邻共现几率。互现信息表现了汉字之间连系关联的严密水平。

  第三种:词义分词

  词义分词法:经由过程机械语音剖断的分词要领,重要用以处置惩罚歧义征象。


27 10月

2020-10-27 20:05:25

浏览77 评论0
返回
目录
返回
首页
HTML5网站建设的优势有哪些? 济南挑选高端网站建设公司的时候要注意什么