基于Spark的分布式大数据并行化聚类方法研究
陶 婧
【摘 要】为提高异构复合存储数据库中分布式大数据的检索识别能力,提出一种基于Spark融合聚类的异构复合存储数据库中的分布式大数据并行化聚类方法,构建异构复合存储数据库存储结构模型,提取数据库中的分布式大数据的统计序列特征量,采用相空间结构重组方法进行分布式大数据的信息特征挖掘,在高维相空间中实现分布式大数据关联信息检测和特征挖掘。对提取的特征量采用Spark融合聚类方法实现并行聚类,结合自适应的学习算法实现数据聚类中心的自动搜索,提高聚类的收敛性。仿真结果表明,采用该方法进行异构复合存储数据库中分布式大数据聚类的自适应性能较好,聚类准确度较高,误分率较低,具有很好的数据库检索和特征识别能力。 【期刊名称】《湖北第二师范学院学报》 【年(卷),期】2019(036)008 【总页数】5
【关键词】Spark;分布式大数据;并行化聚类;挖掘
基金项目:安徽省芜湖职业技术学院校级重点科研项目“基于农作物数据分析实现无人机自动化作业系统研究”(wzyzrzd201704);安徽省高校优秀青年人才支持计划重点项目(gxyqZD2016593)
随着分布式数据库存储技术的发展,采用分布式的异构数据库实现对分布式云大数据存储,提高大数据的自动调度和分类检索能力,异构复合存储数据库中进行分布式大数据检索中需要首先进行数据的并行聚类处理,结合对异构复合存储数据库中大数据的特征挖掘和提取技术,进行分布式异构大数据的自动聚
类处理,提高对数据的信息检索和特征提取能力,相关的分布式大数据并行化聚类方法研究受到人们的极大关注。[1]当前,对异构复合存储数据库资源的聚类方法主要采用模糊C均值聚类方法,该方法容易受到初始聚类中心扰动的影响,导致数据库检索的特征识别能力不好。[2]对此,本文提出一种基于Spark融合聚类的异构复合存储数据库中的分布式大数据并行化聚类方法,构建异构复合存储数据库存储结构模型,提取数据库中的分布式大数据的统计序列特征量,对提取的特征量采用Spark融合聚类方法实现并行聚类,结合自适应的学习算法实现数据聚类中心的自动搜索,提高聚类的收敛性,最后进行仿真实验分析,展示了本文方法在提高分布式大数据并行化聚类能力方面的优越性能。
1 异构复合存储数据库结构与数据特征分析
1.1 异构复合存储数据库的分布结构模型
为了实现异构复合存储数据库的分布式大数据并行化聚类,先进行异构复合存储数据库的存储结构特征分析和模糊聚类处理,记异构复合存储数据库中的分布式大数据分布节点u(S1,x),在分布式大数据的信息统计中心进行数据的关联规则挖掘[3],提取异构复合存储数据库中分布式大数据的自相关特征量为将分布式大数据分解为一个五元组组合G(O)=(V,E,LV,LE,μ,η),η:E→LE是异构复合存储数据库的传输链路集和竞争簇头,异构复合存储数据库的关联结点通过分布式大数据的传模糊相关性分析,得到分布式大数据的离散特征分量为{x(t0+iΔt)},i=0,1,…,N-1,构建LOGISTICS映射进行分布式大数据的统计回归分析,为: (1)
其中u:I×IRd→IR是异构复合存储数据库中资源分布的随机量化函数,构建异
构复合存储数据库存储结构模型,提取数据库中的分布式大数据的统计序列特征量[4],得到簇头链路集满足G1?G2?Y1?Y2,给出u(S2,x)的表示构复合存储数据库中分布式大数据互相关特征量,频繁项集为得到异构复合存储数据库的分布式大数据的存储特征分布子空间为: (2)
采用相空间重构方法对异构复合存储数据库分布式大数据进行信息融合,采用分段统计分析方法[5],得到构复合存储数据库中分布式大数据的模糊相关性特征分量为: (3)
上式中,f(t)为构复合存储数据库中分布式大数据的关联维信息,ρ(a,b)为集平均统计量,构建异构复合存储数据库查询模型,干扰分量为p(ek|vk),其方差和均值服从分布如下: (4)
对构复合存储数据库中分布式大数据进行结构重排,将ωk按照vk和ek进行分段融合,得到构复合存储数据库中分布式大数据的关联信息检测结果满足: (5)
根据异构复合存储数据库的属性集进行向量量化分解,得到异构复合存储数据库分布式大数据检索的模糊域记为at(θ),即: at(θ)=THa(θ) (6)
在模糊域中进行数据的频域和时域特征分析,得到异构复合存储数据库中特征分布的时频响应曲线如图1所示。
基于Spark的分布式大数据并行化聚类方法研究



