专利示意图
一、技术领域
数据分析技术领域
二、专利介绍
1.专利信息
专利类型:发明
专利权人:清华大学深圳国际研究生院
申请号:202310386652.2
发明人:袁克虹
2.专利说明书摘要
本发明公开了一种基于持续同调的自适应聚类方法。该方法包括:获取多维词向量数据集,并通过降维得到对应的二维点云数据;对于所述二维点云数据,构建单纯复形和VR复形;对于所述VR复形,统计复形的持续时间,并基于所述复形的持续时间进行聚类,其中在聚类过程中,对于所述复形的持续时间大于设定过滤值的复形进行滤除。本发明基于持续同调理论进行聚类,将持续时间短的复形作为聚类数据,而将持续时间长的复形作为噪声滤除,提高了聚类的准确性。
3.创新点
(1)本发明涉及数据处理领域,针对聚类算法中离群点影响数据中心的情况,提出一种完全基于持续同调的自适应聚类算法;
(2)该方法完全基于拓扑学中的持续同调理论,并利用四分位数自适应的选取阈值过滤,能够有效过滤离群点;
(3)本方法精度高于已有同类方法,是一种很有潜力的聚类算法。
4.痛点问题
(1)聚类问题中的离群点筛除;
(2)消除离群点对聚类中心的影响。
5.技术优势
(1)以拓扑学中的持续同调为理论依托,根据拓扑不变性,聚类过程不受离群点的影响;
(2)通过统计持续时间四分位的数,自适应的滤除数据离群点;
(3)本算法设计简单高效,同时解决了聚类和数据清洗两个问题。
三、产业化信息
1.应用场景
可用于各学科数据及工业数据分析
(1)电子商务:在网站上提供个性化推荐、用户分群等服务;
(2)社交网络:对用户进行社交网络分析,生成社交网络图,识别社区结构;
(3)金融服务:对银行客户进行分类、风险控制等;
(4)医疗:对疾病患者进行分组,提供个性化治疗方案;
(5)生物信息学:对表达基因、蛋白质等生物信息进行分类;
(6)图像处理:图像分割、目标检测、基于内容的图像检索等。
2.商业价值
此项技术拥有巨大的商业前景,对于生物医药行业有以下市场价值:
(1)本算法可以对海量数据进行聚类分析和预处理,与同类算法相比减少了异常值的影响;
(2)本算法可以对生物医学中的各种数据类型,如蛋白质分子数据,进行分析并可视化,具有很高的可解释性。
3.发展规划
该算法未来可应用至各个行业和学科,快速提高我国在数据分析领域的水平。
4.合作方式
面议
注:所有成果未经授权,请勿转载
联系方式:ttc@sz.tsinghua.edu.cn