java程序统计单词词频

2024-11-06 03:53:57

推荐回答（2个）

回答1：

1.其实你这个功能用lucene加IK Analyer分词器很好解决。
把文档读入，然后用lucene创建索引，在索引里你的每个单词都会被分出来，词频就是命中次数totalHits，然后读取索引，放进map就行。这只是一个大体思路。
2.如果不用lucene，就用正则表达式匹配英文单词之间的空格，把空格去掉放进map的key，同时设置value=1。这样你的每个英文单词（有连词符号的如I'm根据你的需求另考虑）就都放进了map的key，且value都等于1。当然这些key值是有重复的，所以就要开始遍历比较key值，用几个嵌套循环把后面元素的key值与前面元素的key值比较，如果有相同的则把该元素remove，前面元素的value+1。考虑到map没有index可能遍历起来不容易实现比较，你也可以在匹配的时候把单词存进一个list，然后再新建一个同样长度的list用来存放词频（初值设为1），然后再按上面的思路来操作。也是大体思路，希望对你有所帮助

回答2：

大哥哪里人啊