返回
一种基于持续同调的自适应聚类方法

发布时间:2024-09-12


专利示意图

一、技术领域

数据分析技术领域


二、专利介绍

1.专利信息

专利类型:发明

专利权人:清华大学深圳国际研究生院

申请号:202310386652.2

发明人:袁克虹

2.专利说明书摘要

本发明公开了一种基于持续同调的自适应聚类方法。该方法包括:获取多维词向量数据集,并通过降维得到对应的二维点云数据;对于所述二维点云数据,构建单纯复形和VR复形;对于所述VR复形,统计复形的持续时间,并基于所述复形的持续时间进行聚类,其中在聚类过程中,对于所述复形的持续时间大于设定过滤值的复形进行滤除。本发明基于持续同调理论进行聚类,将持续时间短的复形作为聚类数据,而将持续时间长的复形作为噪声滤除,提高了聚类的准确性。

3.创新点

(1)本发明涉及数据处理领域,针对聚类算法中离群点影响数据中心的情况,提出一种完全基于持续同调的自适应聚类算法;

(2)该方法完全基于拓扑学中的持续同调理论,并利用四分位数自适应的选取阈值过滤,能够有效过滤离群点;

(3)本方法精度高于已有同类方法,是一种很有潜力的聚类算法。

4.痛点问题

(1)聚类问题中的离群点筛除;

(2)消除离群点对聚类中心的影响。

5.技术优势

(1)以拓扑学中的持续同调为理论依托,根据拓扑不变性,聚类过程不受离群点的影响;

(2)通过统计持续时间四分位的数,自适应的滤除数据离群点;

(3)本算法设计简单高效,同时解决了聚类和数据清洗两个问题。


三、产业化信息

1.应用场景

可用于各学科数据及工业数据分析

(1)电子商务:在网站上提供个性化推荐、用户分群等服务;

(2)社交网络:对用户进行社交网络分析,生成社交网络图,识别社区结构;

(3)金融服务:对银行客户进行分类、风险控制等;

(4)医疗:对疾病患者进行分组,提供个性化治疗方案;

(5)生物信息学:对表达基因、蛋白质等生物信息进行分类;

(6)图像处理:图像分割、目标检测、基于内容的图像检索等。

2.商业价值

此项技术拥有巨大的商业前景,对于生物医药行业有以下市场价值:

(1)本算法可以对海量数据进行聚类分析和预处理,与同类算法相比减少了异常值的影响;

(2)本算法可以对生物医学中的各种数据类型,如蛋白质分子数据,进行分析并可视化,具有很高的可解释性。

3.发展规划

该算法未来可应用至各个行业和学科,快速提高我国在数据分析领域的水平。

4.合作方式

面议



注:所有成果未经授权,请勿转载

联系方式:ttc@sz.tsinghua.edu.cn



版权所有@清华大学深圳国际研究生院 京ICP备15006448号 京公网安备 110402430053 号