聚义网-网络新闻社交媒体!

忘记密码

中文分词?SEO优化有什么帮助?

2012-03-31 14:04 作者: 来源: 本站 浏览: 754 次 我要评论评论关闭 字号:

摘要: 众所周知,英文是以词为单元的,词和词之间是靠空格离隔,而中文是以字为单元,句子中一切的字连起来才干描绘一个意思。例如,英词句子I am a student,用中文则为:“我是一个学生”。核算机可以很简略经过空格晓得student是一个单词,然则不克不及很轻易清...

众所周知,英文是以词为单元的,词和词之间是靠空格离隔,而中文是以字为单元,句子中一切的字连起来才干描绘一个意思。例如,英词句子I am a student,用中文则为:“我是一个学生”。核算机可以很简略经过空格晓得student是一个单词,然则不克不及很轻易清楚“学”、“生”两个字合起来才透露表现一个词。把中文的汉字序列切分红有意义的词,就是中文分词,有些人也称为切词。上海SEO效劳,分词的后果是:上海 SEO 效劳

当前主流的中文分词算法有以下3种:

1、 基于字符串匹配的分词办法

这种办法又名做机械分词办法,它是依照必然的战略将待剖析的汉字串与一个“充沛大的”机械辞书中的词条进行配,若在辞书中找到某个字符串,则匹配成功(辨认出一个词)。依照扫描偏向的分歧,串匹配分词办法可以分为正向匹配和逆向匹配;   英文seo   依照分歧长度优先匹配的状况,可以分为最大(最长)匹配和最小(最短)匹配;依照能否与词性标注进程相连系,又可以分为纯真分词办法和分词与标注相连系的一体化办法。常用的几种机械分词办法如下:

1)正向最大匹配法(由左到右的偏向);

2)逆向最大匹配法(由右到左的偏向);

3)起码切分(使每一句中切出的词数最小)。

还可以将上述各类办法互相组合,例如,可以将正向最大匹配办法和逆向最大匹配办法连系起来组成双向匹配法。因为汉语单字成词的特点,正向最小匹配和逆向最小匹配普通很少运用。普通说来,逆向匹配的切分精度略高于正向匹配,碰到的歧义景象也较少。计算后果标明,纯真运用正向最大匹配的错误率为1/169,英文外链代发   纯真运用逆向最大匹配的错误率为1/245.但这种精度还远远不克不及知足实践的需求。实践运用的分词系统,都是把机械分词作为一种初分伎俩,还需经过应用各类其它的言语信息来进一步进步切分的精确率。

一种办法是改良扫描方法,称为特征扫描或标记切分,优先在待剖析字符串中辨认和切分出一些带有分明特征的词,  外贸seo以这些词作为断点,可将原字符串分为较小的串再来进机械分词,然后削减匹配的错误率。另一种办法是将分词和词类标注连系起来,应用丰厚的词类信息对分词决议计划供应协助,而且在标注进程中又反过来对分词后果进行查验、调整,然后极大地进步切分的精确率。

本文由  http://www.express-seo.com/ 整理并发布!

Comments are closed.

会员登录关闭

记住我 忘记密码

注册会员关闭

小提示: 您的密码会通过填写的"电子邮箱"发送给您.