科技成果

一种中文短文本聚类方法

作者:成果转化与社会服务中心浏览:时间:2024-03-01

本发明涉及一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。具体步骤如下,利用Word2Vec词向量训练模型获得所需要的词向量;利用词权重计算算法获取短文本集中所有词的权重;根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值;根据短文本集中每两个文本之间的相似度值对短文本进行聚类。本发明提出一种“搬运优化”的短文本相似度计算方法,解决了短文本文法特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,提高句子相似度计算的准确度;选择基于密度峰值聚类方法应用到短文本的聚类中,有效地提高聚类方法的效率。

类型 发明专利 发明人 崔莹
所属单位 焦点科技股份有限公司; 南京财经大学 授权时间 2021.4.6

请升级浏览器版本

你正在使用旧版本浏览器。请升级浏览器以获得更好的体验。