推外网络专注营销型网站品牌策划与推广
FOCUS MARKETING WEBSITE BRAND PLANNING AND MARKETING PROMOTION
中文分词技术,在各大领域都属于最基础,但是最核心的一块技术。尤其是seo应用中,合理使用分词技术,可以极大提高内容相关性和页面关键词标签的准确性。
中文分词与英文分词有极大的差点,英文分词更简单容易一些,中文分词在有些情况下还需要根据语境进行词切分。
常用的分词引擎有如下几种:
Paoding
mmseg4j(切分速度、准确率较高)
Imdict-chinese-analyzer
Ansj
Httpcws
https://github.com/nltk/nltkNLTK自然语言处理包
http://www.ltp-cloud.com/document哈工大LTP语言云
http://bosonnlp.com/dev/centerBosonNLP
http://www.oschina.net/p/ikanalyzerIKAnalyzer
http://ictclas.nlpir.org/docsNLPIR
http://www.xunsearch.com/scws/docs.phpSCWS中文分词
https://github.com/fxsjy/jieba结巴分词
http://pangusegment.codeplex.com/盘古分词
https://code.google.com/p/paoding/庖丁解牛(准确率、分词速度、新词识别等,最棒)
http://www.sogou.com/labs/webservice/搜狗分词
http://www.qcloud.com/wiki/API%E8%AF%B4%E6%98%8E%E6%96%87%E6%A1%A3腾讯文智
http://www.sinacloud.com/doc/sae/python/segment.html新浪云
https://github.com/thunlp/THULAC清华大学THULAC
http://hanlp.hankcs.com/HanLP
在Python领域,应用最广的是结巴分词,有很多有意思的特性。在使用全文检索引擎领域,Solr和ElasticSearch普遍使用IKAnalyzer分词。其余的,以哈工大、清华和HanLP在应用性上比较广泛。
以前分享为一段代码,使用Python开发结巴分词,配合自定义分词,快速提取文章标签。核心逻辑就是加载自定义词典,在自定义词典中设置自定义的词性。通过jieba.load_userdict('user.txt')加载自定义词典。分词之后,通过过滤词性。将自己的词拿出来,达到快速匹配标签的功能。在内存加载完词典之后,每秒可处理上千文章的标签提取。
公司项目BrandInsights,原WI-ORM系统,核心技术,就是使用Elasticsearch做海量数据的检索。里面核心基础的部份就是分词技术的应用。我们在IK分词器的基础上,做了代码升级迭代及优化。以支持更高效的分词和数据处理。
在分词的基础上,还可以进行情感正负面分析和语义分析,关键词提取,摘要提取等诸多功能。有兴趣的同事可以进一步交流。
热门文章
联络方式:
电话:400-026-0708
邮箱:admin@whytui.com
-
震惊!商家被支付宝截图骗20余万,没想到竟让百度做了背锅侠!
骗子年年有,今年特别多。从P2P的庞氏骗局到互联网的各种诈骗,络绎不绝。可以说互联网改变了我们的生活方式,但是也给骗子创造了更多的骗人方式。有人薅羊毛专盯着一
-
SEO优化没有效果应该从哪几个方面分析
搭建自己或企业网站来进行seo推广,是快速通过网络获取精准客户的重要途径,随着SEO逐步向内容生态化方向发展,很多站长开始自己进行SEO优化,但是有些站长优化效果比较
-
如何做好外链
相信很多刚开始接触seo的朋友经常会听到这么一段话:内容为王,外链为后。耳熟吗?这句话很好理解,内容就是网站一个的灵魂,那么外链则是一个网站关键。今天中涛SEO优化师
-
H5响应式网站是什么?
随着搜索引擎技术的不断,同时也为了满足现代用户对体验的追求,H5网站逐步受到很多企业和站长的青睐。这是为什么呢?相比之前的简单企业展示站在seo优化推广中有哪些
-
网站TDK优化时要注意的问题
网站TDK就是在百度对网站进行抓取时告诉它这个页面是干什么的,会让百度对其了解。网站的质量好不好,都是可以通过网站的TDK看出来的,所以TDK的设置也是网站之中较为