博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分词器的使用
阅读量:5270 次
发布时间:2019-06-14

本文共 1479 字,大约阅读时间需要 4 分钟。

IK Analyzer是基于lucene实现的分词开源框架,下载路径:

需要在项目中引入:

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

什么都不用改

示例代码如下(使用IK Analyzer): 

package com.haha.test;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import org.wltea.analyzer.lucene.IKAnalyzer;public class Test2 {	public static void main(String[] args) throws IOException {		String text="基于java语言开发的轻量级的中文分词工具包";		//创建分词对象		Analyzer anal=new IKAnalyzer(true);				StringReader reader=new StringReader(text);		//分词		TokenStream ts=anal.tokenStream("", reader);		CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);		//遍历分词数据		while(ts.incrementToken()){			System.out.print(term.toString()+"|");		}		reader.close();		System.out.println();	}}

 

  使用(lucene)实现:

package com.haha.test;import java.io.IOException;import java.io.StringReader;import org.wltea.analyzer.core.IKSegmenter;import org.wltea.analyzer.core.Lexeme;public class Test3 {		public static void main(String[] args) throws IOException {		String text="基于java语言开发的轻量级的中文分词工具包";		StringReader sr=new StringReader(text);		IKSegmenter ik=new IKSegmenter(sr, true);		Lexeme lex=null;		while((lex=ik.next())!=null){			System.out.print(lex.getLexemeText()+"|");		}	}}

  参考文档 : https://blog.csdn.net/lijun7788/article/details/7719166

 

转载于:https://www.cnblogs.com/dbqjava/p/9076779.html

你可能感兴趣的文章
Elasticsearch 滚动重启 必读
查看>>
mysql explain执行计划详解
查看>>
windows下面安装Python和pip终极教程
查看>>
Hadoop基本概念
查看>>
java.util.zip压缩打包文件总结一:压缩文件及文件下面的文件夹
查看>>
JavaScript高级程序设计(四): 关键字With的使用
查看>>
浅说 apache setenvif_module模块
查看>>
MySQL--数据插入
查看>>
判断一个元素有没有条件
查看>>
[JLOI2011]飞行路线 (分层图,最短路)
查看>>
重新学习python系列(二)? WTF?
查看>>
android开发常用地址
查看>>
SSH框架整合配置所需JAR包(SSH整合)
查看>>
PHP函数
查看>>
html5多媒体Video/Audio
查看>>
如何安装windows7
查看>>
[主席树]HDOJ4348 To the moon
查看>>
shell脚本统计文件中单词的个数
查看>>
SPCE061A学习笔记
查看>>
sql 函数
查看>>