今天真是没想到能做出聚类

最近,真是情场上失意,事业上得意啊


下面叙述一下流程:

1.在要处理的几万条数据中取出10条做实验

2.分词、提取特征值(这两步放在一块说)

具体程序就不贴了,

每句话做一个预处理去掉没用的信息,

然后每句话提取三个特征词,结果如下:

3.聚类

我使用的是余弦相似度的方法聚类

生成一个21维的对应空间,它们的坐标如下:

然后求第一个和其他信息的相似程度

只有一条判断错了,第六条判断错误了,

这个是特征值出了问题,

我已知道怎么优化了,


第一次做就做出来了,我很开心!

有条把条不准确也很正常,结果就一条,只有一条少判了,也没有多判的,

我很开心啊!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,274评论 1 25
  • 概述及标签体系搭建 1 概述 随着信息技术的迅速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,愈发带来很大...
    JinkeyAI阅读 22,923评论 10 241
  • 在红日初生的初夏 我在湖水边 为你写诗 我给你写诗的时候 不知你是否醒来 站在无人的桥上 河水远去了视野 那一眼常...
    逗霸君阅读 263评论 9 10
  • 雨天,被窝和火锅最搭,这是我曾经的梦想,敢不敢雨天不上班,安安心心睡个自然醒,然后美美吃顿热气腾腾的火锅,简直舒服...
    臻静阅读 443评论 3 0
  • 生活摒弃了有着浪漫色彩纯真的梦想 生活接受了现实的委屈求全 这样的现实不可以改变 否则,两个心里深处的老灵魂 只能...
    想念等于执念阅读 304评论 0 1