最近,真是情场上失意,事业上得意啊
下面叙述一下流程:
1.在要处理的几万条数据中取出10条做实验
2.分词、提取特征值(这两步放在一块说)
具体程序就不贴了,
每句话做一个预处理去掉没用的信息,
然后每句话提取三个特征词,结果如下:
3.聚类
我使用的是余弦相似度的方法聚类
生成一个21维的对应空间,它们的坐标如下:
然后求第一个和其他信息的相似程度
只有一条判断错了,第六条判断错误了,
这个是特征值出了问题,
我已知道怎么优化了,
第一次做就做出来了,我很开心!
有条把条不准确也很正常,结果就一条,只有一条少判了,也没有多判的,
我很开心啊!