一、对类属性和混合属性数据聚类的一种有效的算法(论文文献综述)
秦琴[1](2021)在《数据挖掘算法在厦门市卷烟新零售策略中的应用》文中进行了进一步梳理在卷烟新零售时代,需要充分运用大数据分析方法精准、高效地挖掘消费者数据价值。该文基于厦门市卷烟零售数据,采用关联算法剖析厦门市居民卷烟消费习惯,根据支持度和置信度指标挖掘出强关联的卷烟品种,从而指导零售户优化营销策略;采用层次聚类法对不同种类零售户和不同特征消费者群体进行分类,从多维度、全方位得出零售户和消费者的画像,以便制定个性化的零售户销售策略,满足差异化的消费者需求;采用回归分析,构建2018年厦门市卷烟市场容量预测方程,实现对市场的总体把握。
邵丽洁[2](2021)在《可信粒度准则框架下基于粗糙聚类的信息粒化方法研究与应用》文中研究说明
王庆[3](2021)在《基于混合型数据的K-Prototypes算法研究及Spark平台实现》文中指出在实际生活中存在大量的由数值型和分类型所组成的混合型数据,K-Means算法作为聚类分析算法之一,却只适用对数值型数据挖掘分析,当面对混合型数据时它就显得有些无能为力。经过学者们对混合型数据聚类算法的深入研究,提出了一种可以处理混合型数据的K-Prototypes算法。它具备像K-Means算法一样简单、高效、强伸缩的优点,但也容易受到初始中心点随机选择、聚类数目人为指定、混合属性相异性度量不准确等方面的问题。针对K-Prototypes算法存在的不足,本文对K-Prototypes算法做了相关改进,并将算法集成实现在Spark框架中提升算法处理大规模数据集时的并行计算能力。本文的创新工作如下:第一,针对K-Prototypes算法混合属性相异性度量中计算距离部分仅使用欧式距离划分不够准确的问题,在分类属性模糊中心与信息熵改进混合属性相异性度量的研究基础上利用形态相似距离MSD代替使用欧式距离作为混合属性相异性度量距离计算的部分。通过举例证明MSD比欧式距离有更好的数据划分性,同时也得出使用MSD改进混合属性相异性度量公式的有效性。第二,针对K-Prototypes算法存在初始中心点位置随机性易陷入局部最优,聚类数目k需人为指定的问题,将改进的混合属性相异性度量公式运用到相异性矩阵思想中用以选择初始聚类中心;再利用数值属性和分类属性的权值对内部有效性评价指标CUM进行优化,并计算不同k值的CUM指标选择合适个数的聚类中心;最后在UCI数据集的仿真实验表明,改进的K-Prototypes算法在三种外部有效性评价指标和改进的内部有效性评价CUM指标上都优于对比算法。第三,针对改进的K-Prototypes算法在大规模数据集中计算混合属性相异性时计算资源能耗高,运行时间过长的问题,引入Apache Spark并行计算框架,提出了一种Information-entropy and Spark Parallelized K-Prototypes(ISPKPrototypes)算法。通过在XX省创业担保用户数据集上的有效性评价指标、工作节点数和加速比方面的对比分析,证明本文提出的ISPK-Prototypes算法在并行计算框架中的运行效果优于另外两种算法,并且能保持良好的并行计算性能。
赵森尧[4](2021)在《基于数据挖掘的纵火时空分析及团伙纵火识别》文中研究说明纵火是一种特殊的犯罪形式,具有犯罪动机复杂,调查取证难的特点。纵火除了造成人员伤亡和财产损失外,还可能会产生巨大的社会影响,并在公众中引起心理恐慌。目前,数据挖掘技术正日益成为预防和打击犯罪的有力工具。在纵火预防策略的研究中,从时空模式出发挖掘纵火发生的聚集规律,将有助于警力与消防资源的部署,提升工作效率,减少响应时间。而对团伙纵火的快速识别,将为案件的侦破和预防提供有效的支撑。为了挖掘纵火事件在时间和空间上的特征,分析其聚集效应,本文使用Knox方法检验了纵火事件的发生是否存在显着的临近重复效应,并且分别基于Texas州和Ford worth市的纵火数据进行了实验对比。结果显示,纵火事件通常在距起始事件空间和时间较近的地方表现出较高的重复发生的可能性。但不同地理范围的数据也显示出了结果差异。为了分析纵火事件的作案特征在空间上的聚集模式,并解决经典聚类算法无法直接应用于混合型数据的问题,本文基于纵火的时空与非时空属性提出了一种改进的聚类方法ω-HACMD。该模型使用熵权法对Gower距离进行了改进,并将其与凝聚型层次聚类算法进行了融合,从而在聚类时兼顾了不同分类属性取值分布的不同。实验证明,其效果优于k-prototype,Gower+k-medoids等流行的聚类模型。为了有效地识别涉及团伙的纵火案件,本文提出了一种结合集成学习和智能优化算法的识别框架。首先,利用基于递归特征消除(RFE)的特征选择方法去除冗余特征。其次,针对数据不平衡问题,从18种候选算法中确定了最佳处理算法。然后,通过尝试组合多个基分类器后,获得了最佳的基分类器组合。接着,在整合基分类器的预测结果时,提出了一种加权集成策略。最后,利用差分进化算法对基分类器的参数和组合权重进行优化,进一步提高了模型的识别能力。为了验证所提出方法的实际性能,本文在美国国家火灾事故报告系统(NFIRS)提供的数据上进行了实验。结果表明,该方法明显优于其它流行的机器学习方法。本文从纵火的事前预防和事后调查两个角度验证了使用数据挖掘技术可以发现纵火中隐藏的潜在模式。一方面,通过时空分析以及地理可视化技术,可以得到纵火及纵火的作案手法在时空上的聚集规律,从而为警力及消防资源部署提供了决策支持。另一方面,利用作案特征数据建立了有效的团伙纵火识别模型,从而为案件侦破提供了可靠的决策依据。
王荣荣[5](2021)在《基于迁移学习的高斯混合模型聚类算法研究》文中认为聚类作为数据挖掘的有力工具,已经广泛应用于各种场景,如个性化推荐,异常检测,特征学习,图像分割等。基于高斯混合模型(GMM)的聚类,由于其严谨的数学推理与强大的拟合能力,深受计算机科学界与统计学界学者们的青睐。然而,随着信息环境的急剧变化和高新技术的加速发展,基于GMM的聚类仍面临着很多新的挑战。一方面,许多新兴领域难以采集到大批可靠数据。在数据量不足的情况下,利用传统的基于GMM的集中式聚类算法很难得到令人满意的聚类结果。另一方面,随着高性能计算与分布式网络的不断发展,数据往往分散到不同的节点上,集中式聚类难以实施,因此需要采用分布式聚类来解决问题。然而,现有的基于GMM的分布式聚类方法在求解协方差矩阵时无法得到闭式解,导致需要大量迭代时间来实现共享参数的全局一致性,同时,参数的交互隐藏在聚类的迭代过程中,不能很好地解释与表达。幸运的是,迁移学习技术为解决上述这两个问题提供了新途径。迁移学习是指通过学习某些相关或相近领域的知识来指导目标任务的完成。本文在传统的基于GMM的聚类基础上,借鉴迁移学习的思想,提出新的集中式与分布式聚类模型使其适应新应用场景的需求。论文的主要工作如下:首先,针对不充足数据,本文提出了一种通用的基于迁移学习的集中式GMM聚类框架。利用传统的聚类方法在源域上提取均值和协方差矩阵等重要知识,并将其迁移到目标域,从而指导和改进目标域数据的聚类。基于该框架,本文将期望最大化(EM)、熵型分类最大似然(ECML)和熵惩罚最大似然估计(EPMLE)三种经典的基于GMM的聚类方法扩展成为相应的迁移聚类版本。另外,为了避免负迁移问题,本文引入最大均值差异来度量源域和目标域之间的相似性,从而搜寻最匹配的源域,为目标域数据聚类提供更积极的指导。在人工数据集与真实数据集上的实验结果表明,与传统的聚类算法相比,新的基于迁移学习的聚类算法性能均有所提升,证明了迁移学习的有效性。同时,相比于现有的迁移聚类方法,本文提出的算法能展现更好的聚类精度。其次,针对分布式对等网络数据,本文提出了一种通用的基于迁移学习的分布式GMM聚类框架。网络中每个节点既被视为源域,又被看作目标域,它们彼此相互学习,从而提高分布式聚类性能。基于此框架,本文重新设计分布式期望最大化(DEM)算法,在目标函数中加入迁移学习项,加速聚类的全局收敛。同时,在约束条件上进一步简化中间变量,并定义逆协方差矩阵的一致约束项,从而得到高斯参数的闭式解。另外,对所提的迁移DEM算法进行了改进,采用自适应学习率策略,用自调整的学习率代替固定值,以达到稳定的聚类精度。最后,将传统的ECML聚类算法进一步扩展成迁移分布式版本,以体现所提框架的通用性。在人工数据集和真实数据集上的实验结果表明,与现有的基于GMM的分布式聚类方法相比,本文提出的算法具有更好的聚类效果。
侯晴[6](2021)在《融合空间密度信息的区间型不完整数据聚类算法研究》文中指出信息时代产生了海量数据,这些数据中潜藏着巨大的信息价值,对人们的生活、工作起着愈发重要的作用。但在实际应用中,数据缺失现象在工业、医学、商业和科学研究等诸多领域中普遍存在,存在不完整数据集。如何使缺失数据充分的为人所用,挖掘出缺失数据中潜在的有价值的信息对于我们来说十分重要。若缺失值处理不当会在数据聚类中造成较大误差或错误结果,因此不完整数据聚类问题已经成为不完整数据分析中的一个重点。首先,为了解决模糊C均值(FCM)算法不能直接处理不完整数据聚类,以及缺失数据的不确定性问题,本文提出一种KNN区间型不完整数据模糊聚类算法(KNNI-IFCM)。第一,使用改进的KNN规则确定近邻样本空间,用近邻区间估值方法代替传统的点估值以表达不完整数据的不确定性。第二,区间的大小影响填补精度,进而影响聚类分析。因此根据数据样本的分布情况进一步提出改进的KNN区间计算公式构建属性区间宽度,减小区间带来的聚类误差,最后利用区间模糊C均值算法(IFCM)对区间数据集进行聚类分析。其次,针对所有样本无差别参与不完整数据模糊聚类分析,未考虑不同样本成为聚类中心的概率不同,导致聚类精度低的问题,本文提出一种融合空间密度分布的不完整数据模糊聚类算法(SD-IFCM)。聚类中心位置与空间信息分布有关,分布在密度较高区域的数据点成为聚类中心的概率较大,因此利用空间密度信息改进目标函数公式。在KNN区间型数据集的基础上,提出一种新的密度计算公式,应用到区间数据集,将密度信息加入目标函数公式进行改进,进而进行区间型模糊C均值聚类算法分析。在迭代过程中,密度信息不断调整优化聚类中心。一定程度上改善局部最优问题,提高聚类的准确率及聚类性能。本文选取UCI数据库Iris、Breast和Bupa数据集,以及合成有规律数据集ONE和无规律数据集TWO,在不同的缺失率情况下与WDS-FCM、PDS-FCM、OCS-FCM等算法进行聚类分析。通过对聚类平均错分数以及五种外部评价指标进行实验结果对比,证明本文算法有更高的聚类准确率以及更优的聚类效果。
王幸达[7](2021)在《混合属性数据流聚类算法研究》文中认为随着大数据时代的到来,数据流在很多领域得到应用,作为数据挖掘领域的一大分支,数据流聚类成为一项意义深远而且具有挑战性的任务。现实生活中大部分数据流都是混合属性数据,然而大多数算法都是建立在只有数值属性数据或者只有分类属性数据的基础上。此外数据流的高维、海量、动态、快速等特性对数据流聚类提出了更高的要求。因此,建立高效的混合属性数据流聚类算法,是当前数据流挖掘领域的一个重要任务。为了能用较少的执行时间获得高质量的聚类结果,本文首先对混合属性数据流进行处理,并在此基础上给出了基于合并剪枝的数据流聚类算法,主要研究内容如下:第一,对混合属性数据流进行降维处理。针对现实生活中大部分数据流既有数值属性数据也有分类属性数据的情况,本文提出一种属性映射方法,将分类属性数据转换为数值属性数据,此时数据流将只包含数值属性数据。然后在此基础上,采用min-max标准化方法对所有数值属性数据进行标准化处理,以消除数据之间量纲不一致的问题。最后提出一种改进的局部线性嵌入降维方法将标准化后的数据进行降维,通过引入调和测地线距离取代欧氏距离计算每个样本点的6)近邻,使样本点的整体分布趋于均匀化。第二,提出了基于合并剪枝的数据流聚类算法。针对两阶段式数据流聚类方法在在线阶段微簇维护的过程中耗费大量时间的问题,本文结合混合属性数据流处理过程,提出一种合并剪枝的数据流聚类算法。首先,算法在在线阶段采用一种新的微簇特征向量作为数据结构,来存储数据流概要信息;然后,提出一种合并算法将新到达的数据合并到合适的微簇中,提出一种剪枝算法将长时间未接收数据的微簇删除,以保持有限数量的微簇;最后,在离线阶段响应用户请求,使用密度峰值聚类方法进行最终聚类。第三,设置实验对算法的效果进行评估。通过使用KDDCUP99数据集和银行营销数据集,在两种数据流环境下对本文算法的效果进行评估。实验结果表明,本文算法在聚类纯度、兰德指数、F-measure和执行时间方面与Clu Stream算法及Den Stream算法进行对比具有一定优势。
李杏峰[8](2021)在《基于子空间图学习的多核聚类算法研究》文中提出图学习因其具有捕获数据内在关系和保持数据结构的特性,能够比原始数据具有更强的表达能力,在众多领域中得到广泛应用。特别是在机器学习领域,基于子空间图学习的聚类在许多任务中展现出良好性能,其关键步骤在于构造能够反映数据之间内在联系的关系图,以挖掘数据中潜在的簇结构信息。核方法作为处理非线性数据问题的重要手段,可以将原始非线性数据映射到高维核空间,而在高维空间构造关系图可以更好地探究数据中隐藏的结构信息来提高聚类精度。然而,如何通过核方法提高关系图质量仍然是一个开放性的问题。因此,对子空间图学习和核算法的探索研究都有着重要用的应用价值。本文致力于设计有效的算法以提高关系图质量,从而达到提升聚类性能的目的,其主要贡献包括如下三个方面:(1)提出一种联合低秩稀疏的多核子空间聚类算法(JLSMKC)。首先,通过联合低秩与稀疏表示进行子空间学习,使关系图具有低秩和稀疏结构属性;其次,建立鲁棒的多核低秩稀疏约束模型,用于减少噪声对关系图的影响和处理数据的非线性结构;最后,通过多核方法充分利用共识核矩阵来增强关系图质量。7个数据集上的实验结果表明,所提算法JLSMKC在聚类精度(ACC)标准互信息(NMI)和纯度(Purity)上优于5种流行的多核聚类算法,同时减少了聚类时间,提高了关系图块对角质量,与对比算法相比,该算法在聚类性能上有较大优势。(2)提出一种纯粹的基于图的多核聚类算法(PGMKC)。PGMKC绕过JLSMKC对核质量的过度追求,完全专注于图学习,其主要包含两个部分,即候选核图学习(CKGL)和核图融合(KGF)。CKGL提出直接利用核自表示学习,挖掘并保持嵌入在核空间中的流形结构,在多个可再生希尔伯特核空间中执行候选核图学习,并生成多个候选关系图。KGF利用灵活的自加权图融合策略和强连通限制直接生成共识核图。此外,还提出了一种高效的优化算法来求解PGMKC。通过大量的实验证明,PGMKC的性能优于现存的基于核方法与图学习杂交的多核聚类算法。(3)提出一种自加权多核张量聚类算法(AMKTC)。不同于JLSMKC和PGMKC在矩阵层面挖掘关系图的结构信息。AMKTC通过利用核化的自表示子空间学习(SESL)和多个基核,首先在核空间中学到多个候选关系图,然后将这些关系图堆叠成一个三阶图张量来有效捕获基核数据之间的高阶相关性。为充分探究高阶相关性和降低计算复杂度,将张量沿着第三个维度进行旋转。进而施加基于张量奇异值分解(t-SVD)的张量核范数(t-TNN)约束,挖掘样本与候选图之间的一致和互补信息。最后,在t-TNN约束条件下,利用近邻图加权融合策略赋予候选关系图最适的权重,从而生成一个最优的共识核图。此外,设计一个优雅的求解算法来有效求解AMKTC。在7个基准数据集上的实验结果表明,与现有方法相比,AMKTC的聚类性能得到大幅度提升。综上,本文围绕图学习与多核学习的问题,探索其生成算法,实现从核结构信息、低阶图结构信息到高阶图结构信息的挖掘。并系统性地提出3个基于子空间图学习的多核聚类算法。聚类分析作为机器学习和数据挖掘的基础问题,已广泛应用于多个领域,如无人驾驶、信息检索、医学图像处理、遥感卫星图像分析等。总之,本文提出的3个算法对图学习和核方法的探索研究有着重要的理论和应用价值。
薛旭倩[9](2021)在《低秩子空间聚类算法及应用研究》文中提出随着信息时代的快速发展,高维数据爆炸性增长,传统的聚类算法很难取得良好的效果。子空间聚类是指将来自不同子空间的高维数据分割到其所属的低维子空间,在高维数据的聚类中表现良好。子空间聚类算法不仅在人脸识别,运动分割等领域被广泛应用,而且也为图像分割领域提供了自然的思路,即对基于特征数据的图像进行聚类。低秩子空间聚类算法在子空间聚类领域取得了良好的成果而广受关注。本论文围绕低秩子空间聚类中的3个关键问题:(1)利用更好的范数使得子空间表示矩阵具有更精准的低秩结构;(2)设计良好的“核策略”高效的对非线性结构数据建模;(3)同时在一个模型中设计有效的正则项和数据项提高算法的聚类性能和鲁棒性,进行了算法研究及在图像分割上的应用。研究内容如下:1.基于自适应低秩核的鲁棒子空间聚类研究。利用加权Schatten-p范数,提出一种基于自适应低秩核的鲁棒子空间聚类方法LAKRSC(Robust Subspace Clustering Based On Non-convex Low Rank Approximation And Adaptive Kernel)。通过“核策略”将线性数据子空间聚类扩展到非线性数据子空间聚类,在数据的非线性映射过程中,使用加权Schatten-p范数对映射函数进行非凸低秩约束,自适应地有效逼近特征空间中数据矩阵的秩。LAKRSC方法引入相关熵对数据项进行建模,可以有效抑制数据中的复杂噪声,提高鲁棒性。2.融合块对角正则化的鲁棒低秩多核子空间聚类研究。利用多核学习的高效性,提出一种融合块对角正则化的鲁棒低秩多核子空间聚类方法LRMKSC(Robust Multiple Kernel Subspace Clustering With Block Diagonal Representation And low Rank Consensus Kernel),设计了一种鲁棒的多核加权策略,利用熵度量方法为所有基底核自动分配合适的权重,进而学习干净的最优共识核。LRMKSC方法的正则项充分利用数据的自表达属性和块对角正则化BDR(Block Diagonal Regularizer),以获取具有最佳块对角属性的亲和度矩阵。3.低秩子空间聚类的应用研究。以基于自适应形态学重构的种子分割方法为基础,创新性地提出了两种基于低秩子空间聚类的图像分割算法。自适应形态学重构AMR(Adaptive Morphological Reconstruction)可以自适应地过滤无用的种子,保留有意义的种子。AMR使用多尺度结构元素以识别多种结构的元素从而更好地保留图像的真实结构。综上,将LAKRSC、LRMKSC分别在不同类型的数据集上进行实验,通过与多种不同的子空间聚类方法比较以验证LAKRSC、LRMKSC良好的聚类性能。基于LAKRSC或LRMKSC的图像分割方法分别在自然图像数据集、颅内动脉粥样硬化斑块HRMR图像、遥感水体图像上进行图像分割实验,结果证明了这两种分割方法具有良好的分割效果。
谭琪[10](2021)在《社交网络用户影响力的建模方法与应用》文中研究说明随着移动化设备的普及和社交媒体的涌现,汇聚了海量的用户数据,形成了多样的社交网络。如何从多元化信息中提取关键特征,简洁、快速地表达用户影响力,有利于态势感知与舆论导向,有助于区域的综合管理。尽管这方面的研究已经趋于饱和,但现有的建模方法仍然存在以下问题:一是数据缺省与不可信问题,包括数据缺失、信息虚假与隐私保护等;二是信息提取不全面问题,包括研究角度单一、特征复杂冗余以及数据之间存在着相似性与异构性等;三是影响力分化问题,包括不同类型的行为数据、用户群体的潜在分布和局部区域的差别评估等。本文主要对这三个问题进行研究,主要的工作成果如下:首先,提出了通用的影响力建模框架,以适于实际应用。本文将研究现状划分为基于用户与内容特征、基于深度学习技术和节点识别四个方面,分析了社交网络中的数据、用户和行为以及影响因子,还根据用户交互信息对影响力进行建模,形成了统一的表达框架。其次,针对数据缺省与不可信和信息提取不全面的问题,本文提出了一种基于结构度中心性的用户影响力评估方法SDRank。该方法考虑了信息级联和时间节点,结合了三度原则和Page Rank算法,进一步表达了用户的行为特征和事件的传播特点,适用于结构简单的社交数据集。本文在Weibo数据集和Twitter数据集的基础上,通过与Page Rank算法和Trust Rank算法的对比实验,证实了SDRank算法的有效性,还分析了相关数据集的一些统计特征。然后,针对SDRank算法改进和影响力分化的问题,本文提出了一种融合圈层的社交网络用户影响力模型LUIM。以Louvain社区算法为基础,结合了社交圈的两个概念以及用户相似性,构成了规模适中的社交关系圈层集合;在映射后的用户行为网络基础上,通过随机游走的变形算法和原先的影响力评估方法SDRank,进一步提取了目标用户的局部增量,由此得到了更新后的影响力用户排名。本文通过对比分析,验证了该模型具有良好的性能,优化了SDRank算法。最后,介绍了社交网络用户影响力模型的具体应用。以融合圈层的社交网络用户影响力模型LUIM作为关键模块,实现了用户与事件信息查询功能、用户影响力排名查询功能和对比分析功能。
二、对类属性和混合属性数据聚类的一种有效的算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、对类属性和混合属性数据聚类的一种有效的算法(论文提纲范文)
(1)数据挖掘算法在厦门市卷烟新零售策略中的应用(论文提纲范文)
1 概述 |
2 算法和模型介绍 |
2.1 关联分析 |
2.1.1 关联分析重要指标 |
2.1.2 Apriori算法 |
2.2 层次聚类 |
2.3 回归分析 |
3 样本说明 |
4 建模与分析 |
4.1 基于关联分析的消费者需求及需求变化 |
4.1.1 卷烟陈列和替代分析 |
4.1.2 卷烟价类营销分析 |
4.1.3 卷烟指定规格分析 |
4.1.4 卷烟新品分析 |
4.2 基于聚类分析的零售客户和消费者特征画像 |
4.2.1 零售客户画像 |
4.2.2 消费者画像 |
4.3 卷烟市场容量的回归分析 |
4.3.1 样本选取 |
4.3.2 选取影响卷烟销量的非烟因子 |
4.3.3 构建预测模型 |
5 结论 |
(3)基于混合型数据的K-Prototypes算法研究及Spark平台实现(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 选题背景与研究意义 |
1.2 研究现状 |
1.2.1 国内研究现状 |
1.2.2 国外研究现状 |
1.3 本文研究内容 |
1.4 本文组织架构 |
第2章 聚类分析与Spark相关技术 |
2.1 聚类的概念 |
2.2 聚类方法的分类 |
2.2.1 基于划分的聚类算法 |
2.2.2 基于密度的聚类算法 |
2.2.3 基于层次的聚类算法 |
2.2.4 基于粒度的聚类算法 |
2.2.5 基于图理论的聚类算法 |
2.3 聚类方法中常用的相异性度量 |
2.3.1 数值属性相异性度量 |
2.3.2 标称属性相异性度量 |
2.3.3 序数属性相异性度量 |
2.3.4 二元属性相异性度量 |
2.3.5 混合属性相异性度量 |
2.4 Spark分布式平台 |
2.4.1 Spark模型与RDD简介 |
2.4.2 Spark体系构架 |
2.4.3 其他分布式框架 |
2.5 本章小结 |
第3章 一种改进的K-Prototypes聚类算法 |
3.1 K-Prototypes算法 |
3.1.1 K-Prototypes相关定义 |
3.1.2 K-Prototypes算法优缺点 |
3.2 基于信息熵的K-Prototypes算法 |
3.2.1 分类型数据模糊类中心 |
3.2.2 数值属性加权机制 |
3.2.3 分类属性加权机制 |
3.2.4 混合属性加权机制 |
3.3 基于形态相似距离改进混合相异性度量 |
3.4 基于相异性矩阵改进K-Prototypes算法初始中心的选择 |
3.5 基于属性权值改进聚类有效性评价CUM指标 |
3.6 本章总结 |
第4章 实验结果分析 |
4.1 实验数据集说明 |
4.1.1 数据集介绍 |
4.1.2 数据预处理 |
4.2 聚类有效性评价指标 |
4.3 聚类结果分析 |
4.4 本章小结 |
第5章 ISPK-Prototypes算法设计与实现 |
5.1 ISPK-Prototypes算法设计 |
5.2 ISPK-Prototypes算法实现 |
5.3 实验平台和数据集 |
5.3.1 实验软硬件环境 |
5.3.2 实验数据集 |
5.4 实验结果与分析 |
5.4.1 有效性评价 |
5.4.2 节点数量 |
5.4.3 加速比 |
5.5 本章小结 |
第6章 结论与展望 |
6.1 本文总结 |
6.2 展望未来 |
致谢 |
参考文献 |
攻读学位期间的研究成果 |
(4)基于数据挖掘的纵火时空分析及团伙纵火识别(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 研究内容与创新点 |
1.3 技术路线 |
1.4 论文的组织结构 |
2 文献综述 |
2.1 犯罪分析相关研究 |
2.2 纵火分析相关研究 |
2.3 基于混合数据的聚类研究 |
2.4 分类模型及其改进的相关研究 |
3 纵火数据的时空规律挖掘 |
3.1 数据描述 |
3.2 时空临近重复效应分析 |
3.2.1 基于Knox的临近重复分析方法 |
3.2.2 结果及分析 |
3.3 基于ω-HACMD的纵火事件聚类分析 |
3.3.1 基于ω-HACMD的聚类模型 |
3.3.2 评价指标 |
3.3.3 结果及分析 |
4 团伙纵火识别 |
4.1 数据及预处理 |
4.2 融合差分进化的异质集成学习分类模型 |
4.2.1 基于递归特征消除的特征选择方法 |
4.2.2 基于重采样技术的不均衡数据处理 |
4.2.3 基于Bagging的异质集成学习分类方法 |
4.2.4 基于DE的多参数组合优化方法 |
4.3 评价指标 |
4.4 结果及分析 |
4.4.1 特征选择结果 |
4.4.2 不均衡数据处理结果 |
4.4.3 参数优化结果 |
4.4.4 集成学习分类结果 |
4.4.5 特征重要性分析 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(5)基于迁移学习的高斯混合模型聚类算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 高斯混合模型与期望最大化算法 |
1.2.2 分布式高斯混合模型聚类算法 |
1.2.3 迁移聚类算法 |
1.3 论文研究内容 |
1.4 论文组织结构 |
第二章 基础理论知识 |
2.1 高斯混合模型与期望最大化聚类算法 |
2.1.1 高斯混合模型 |
2.1.2 期望最大化聚类算法 |
2.2 改进的高斯混合模型聚类算法 |
2.2.1 熵型分类最大似然聚类算法 |
2.2.2 熵惩罚最大似然估计聚类算法 |
2.3 分布式期望最大化聚类算法 |
2.4 基于原型的迁移聚类算法 |
第三章 基于迁移学习的集中式高斯混合模型聚类算法研究 |
3.1 引言 |
3.2 算法总体框架 |
3.3 迁移期望最大化聚类算法 |
3.3.1 算法原理 |
3.3.2 算法流程 |
3.3.3 迭代优化分析 |
3.4 迁移熵型分类最大似然聚类算法 |
3.4.1 算法原理 |
3.4.2 算法流程 |
3.4.3 迭代优化分析 |
3.5 迁移熵惩罚最大似然估计聚类算法 |
3.5.1 算法原理 |
3.5.2 算法流程 |
3.5.3 迭代优化分析 |
3.6 实验结果与分析 |
3.6.1 评价指标 |
3.6.2 人工数据集 |
3.6.3 真实数据集 |
3.7 本章小结 |
第四章 基于迁移学习的分布式高斯混合模型聚类算法研究 |
4.1 引言 |
4.2 改进的分布式期望最大化聚类算法 |
4.2.1 算法原理 |
4.2.2 算法流程 |
4.2.3 迭代优化分析 |
4.3 迁移分布式高斯混合模型聚类算法 |
4.3.1 算法框架 |
4.3.2 固定学习率的迁移分布式期望最大化聚类算法 |
4.3.3 自适应学习率的迁移分布式期望最大化聚类算法 |
4.4 迁移分布式熵型分类最大似然聚类算法 |
4.4.1 固定学习率的迁移分布式熵型分类最大似然聚类算法 |
4.4.2 自适应学习率的迁移分布式熵型分类最大似然聚类算法 |
4.5 实验仿真与结果分析 |
4.5.1 实验设置 |
4.5.2 人工数据集 |
4.5.3 真实数据集 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 论文总结 |
5.2 研究展望 |
参考文献 |
致谢 |
附录 |
(6)融合空间密度信息的区间型不完整数据聚类算法研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 建模法 |
1.2.2 估算法 |
1.3 主要研究内容及工作 |
1.4 本文结构安排 |
第2章 不完整数据聚类算法理论分析 |
2.1 模糊C-均值算法 |
2.1.1 模糊C-均值的基本流程 |
2.1.2 模糊C-均值算法分析 |
2.1.3 区间型模糊C-均值算法 |
2.2 不完整数据的改进FCM算法 |
2.2.1 完整数据FCM算法 |
2.2.2 局部距离FCM算法 |
2.2.3 优化完整FCM算法 |
2.2.4 最近原型FCM算法 |
2.2.5 不完整数据改进FCM算法分析 |
2.3 本章小结 |
第3章 KNN区间型不完整数据模糊聚类算法 |
3.1 不完整数据聚类问题的提出与分析 |
3.2 不完整数据的KNN区间填充 |
3.2.1 K近邻样本选取 |
3.2.2 缺失属性的KNN区间 |
3.3 基于样本分布的KNN区间构建 |
3.3.1 缺失值的分布特征 |
3.3.2 概率分布的KNN区间提出 |
3.4 KNNI-IFCM算法 |
3.5 本章小结 |
第4章 融合空间密度分布的不完整数据模糊聚类算法 |
4.1 空间密度分布对聚类的影响 |
4.2 聚类中心的优化 |
4.2.1 空间密度信息优化FCM分析 |
4.2.2 空间密度信息优化聚类中心方法的提出 |
4.3 融合密度分布信息的区间型FCM算法 |
4.3.1 区间数据密度计算 |
4.3.2 密度优化区间模糊C均值 |
4.4 SD-IFCM算法 |
4.5 本章小结 |
第5章 实验结果及分析 |
5.1 实验准备 |
5.1.1 UCI数据集 |
5.1.2 人工数据集 |
5.1.3 缺失数据生成规则 |
5.1.4 实验相关参数 |
5.1.5 算法的评价指标 |
5.2 实验对比结果 |
5.2.1 KNNI-IFCM算法实验对比结果 |
5.2.2 SD-IFCM算法实验对比结果 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读学位期间发表的学术论文及参加科研情况 |
一、科研项目 |
二、已发论文 |
(7)混合属性数据流聚类算法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 本文的主要贡献 |
1.4 本论文的结构安排 |
第2章 相关知识介绍 |
2.1 数据流概述 |
2.1.1 数据流特点 |
2.1.2 数据流和数据集的比较 |
2.1.3 数据流处理技术 |
2.1.4 数据流应用领域 |
2.2 数据流聚类分析技术 |
2.2.1 聚类分析 |
2.2.2 数据流聚类与数据集聚类的比较 |
2.2.3 相似性度量 |
2.2.4 传统的数据流聚类算法 |
2.3 本章小结 |
第3章 混合数据流降维处理框架 |
3.1 混合属性数据 |
3.2 数值型数据的标准化 |
3.3 高维数据流的降维 |
3.3.1 高维数据流降维方法 |
3.3.2 改进的局部线性嵌入降维 |
3.4 实验验证 |
3.4.1 数据集介绍 |
3.4.2 结果分析 |
3.5 本章小结 |
第4章 基于合并剪枝的数据流聚类算法 |
4.1 数据流聚类经典算法介绍 |
4.2 方法介绍 |
4.2.1 定义介绍 |
4.2.2 在线阶段的数据流聚类算法优化 |
4.2.3 离线阶段的聚类算法 |
4.3 实验验证 |
4.3.1 聚类评价指标 |
4.3.2 实验配置 |
4.3.3 聚类质量评价 |
4.3.4 聚类处理时间 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录 攻读硕士学位期间的科研项目及成果 |
致谢 |
(8)基于子空间图学习的多核聚类算法研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 多核学习研究现状 |
1.2.2 聚类算法研究现状 |
1.2.3 基于K-均值的多核聚类 |
1.2.4 子空间聚类研究现状 |
1.2.5 流行的图学习算法 |
1.2.6 多核图聚类 |
1.3 研究目标 |
1.4 研究内容与成果 |
1.5 主要研究工作和章节安排 |
2 相关基础知识 |
2.1 符号总结 |
2.2 聚类评价指标 |
2.3 基准数据集和核函数设置 |
2.3.1 基准数据集 |
2.3.2 核函数选择与调谐 |
2.4 核技巧 |
2.5 图学习研究进展 |
3 联合低秩稀疏的多核子空间聚类算法 |
3.1 引言 |
3.2 联合低秩稀疏的多核子空间聚类模型 |
3.3 联合低秩稀疏的多核子空间聚类模型求解算法 |
3.4 实验结果分析 |
3.4.1 实验预备 |
3.4.2 聚类性能分析 |
3.4.3 算法收敛性分析 |
3.4.4 关系图质量分析 |
3.4.5 参数敏感性分析 |
3.4.6 时间消耗比较 |
3.5 本章小结 |
4 纯粹的基于图的多核聚类算法 |
4.1 引言 |
4.2 相关工作 |
4.2.1 子空间聚类 |
4.2.2 杂交多核聚类 |
4.3 纯粹的基于图的多核聚类模型 |
4.3.1 核子空间聚类 |
4.3.2 候选核图学习 |
4.3.3 核图融合 |
4.4 纯粹的基于图的多核聚类模型求解算法 |
4.4.1 求解CKGL |
4.4.2 求解KGF |
4.4.3 复杂度分析 |
4.4.4 收敛性分析 |
4.5 实验结果分析 |
4.5.1 对比算法 |
4.5.2 聚类性能分析 |
4.5.3 算法收敛性分析 |
4.5.4 参数敏感性分析 |
4.5.5 计算时间对比 |
4.6 本章小结 |
5 自加权多核张量聚类算法 |
5.1 引言 |
5.2 相关工作 |
5.2.1 三阶张量的预备知识 |
5.2.2 基于t-SVD张量核范数的有效性 |
5.3 自加权多核张量聚类模型 |
5.4 自加权多核张量聚类模型求解算法 |
5.4.1 求解过程 |
5.4.2 计算复杂度和收敛性 |
5.5 实验结果分析 |
5.5.1 对比算法 |
5.5.2 聚类性能分析 |
5.5.3 算法收敛性分析 |
5.5.4 参数敏感性分析 |
5.6 本章小结 |
6 总结与展望 |
致谢 |
参考文献 |
攻读学位期间取得的研究成果 |
(9)低秩子空间聚类算法及应用研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 子空间聚类研究现状 |
1.2.2 低秩子空间聚类研究现状 |
1.3 主要研究内容及结构安排 |
1.3.1 本文主要研究内容 |
1.3.2 本文结构安排 |
2 子空间聚类相关理论 |
2.1 谱聚类 |
2.2 子空间聚类 |
2.2.1 稀疏表示子空间聚类 |
2.2.2 低秩表示子空间聚类 |
2.3 交替方向乘子法 |
2.4 聚类指标 |
2.5 本章小结 |
3 基于自适应低秩核的鲁棒子空间聚类研究 |
3.1 引言 |
3.2 LAKRSC研究基础 |
3.2.1 加权Schatten-p范数 |
3.2.2 低秩核子空间自表示 |
3.2.3 相关熵 |
3.3 LAKRSC方法 |
3.3.1 LAKRSC模型提出 |
3.3.2 LAKRSC模型优化 |
3.3.3 鲁棒LAKRSC模型 |
3.3.4 LAKRSC完整算法 |
3.4 实验结果与分析 |
3.4.1 实验数据集 |
3.4.2 对比方法与评价指标 |
3.4.3 实验结果分析 |
3.4.4 鲁棒性实验 |
3.4.5 实验参数及收敛性分析 |
3.4.6 运行时间测试 |
3.5 本章小结 |
4 融合块对角正则化的鲁棒低秩多核子空间聚类研究 |
4.1 引言 |
4.2 LRMKSC研究基础 |
4.3 LRMKSC方法 |
4.3.1 LRMKSC模型提出 |
4.3.2 LRMKSC模型优化 |
4.3.3 LRMKSC完整算法 |
4.4 实验结果与分析 |
4.4.1 实验数据集 |
4.4.2 对比方法与评价指标 |
4.4.3 实验结果分析 |
4.4.4 鲁棒性实验 |
4.4.5 消融实验 |
4.4.6 实验参数和收敛性分析 |
4.4.7 运行时间测试 |
4.5 本章小结 |
5 低秩子空间聚类应用研究 |
5.1 基于子空间聚类的图像分割框架 |
5.2 基于低秩子空间聚类的图像分割方法 |
5.2.1 预分割 |
5.2.2 基于LAKRSC的图像分割方法 |
5.2.3 基于LRMKSC的图像分割方法 |
5.3 自然图像分割实验及分析 |
5.4 颅内动脉粥样硬化斑块HRMR图像分割实验及分析 |
5.5 遥感图像水体分割实验及分析 |
5.6 本章小结 |
6 总结与展望 |
致谢 |
参考文献 |
附录 |
附录 A |
附录 B |
攻读学位期间取得的研究成果 |
(10)社交网络用户影响力的建模方法与应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 社交网络用户影响力研究现状 |
1.2.1 基于内容的特征 |
1.2.2 基于用户的特征 |
1.2.3 基于深度学习的技术 |
1.2.4 节点识别 |
1.3 研究内容 |
1.4 论文组织结构 |
第二章 社交网络用户影响力建模的相关分析 |
2.1 社交网络数据 |
2.1.1 存在问题 |
2.1.2 预处理 |
2.2 社交网络的用户与行为 |
2.2.1 社交网络用户 |
2.2.2 社交网络行为 |
2.3 社交网络用户影响力因子的提取与表示 |
2.4 社交网络用户影响力的建模方法 |
2.5 本章小结 |
第三章 基于结构度中心性的用户影响力评估方法 |
3.1 问题描述与分析 |
3.1.1 问题描述 |
3.1.2 问题分析 |
3.1.3 影响力评估框架 |
3.1.4 符号定义 |
3.2 基于结构度中心性的用户影响力评估方法 |
3.2.1 PageRank算法 |
3.2.2 结构度中心性 |
3.2.3 调节因子 |
3.2.4 社交网络用户影响力的评估方法 |
3.3 实验结果分析 |
3.3.1 实验数据及其分析 |
3.3.2 评价指标和对比方法选择 |
3.3.3 参数设置 |
3.3.4 实验结果分析 |
3.4 本章小结 |
第四章 融合圈层的社交网络用户影响力模型 |
4.1 模型目标 |
4.2 融合圈层的社交网络用户影响力模型 |
4.2.1 模型框架 |
4.2.2 圈层构建 |
4.2.3 增量更新 |
4.3 实验结果分析 |
4.3.1 数据集与评价指标 |
4.3.2 实验设置 |
4.3.3 实验结果分析 |
4.4 本章小结 |
第五章 社交网络用户影响力模型的应用 |
5.1 总体需求 |
5.2 设计与实现 |
5.2.1 环境配置 |
5.2.2 数据库 |
5.2.3 数据预处理模块 |
5.2.4 信息提取模块 |
5.2.5 LUIM模型实现模块 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
四、对类属性和混合属性数据聚类的一种有效的算法(论文参考文献)
- [1]数据挖掘算法在厦门市卷烟新零售策略中的应用[J]. 秦琴. 海峡科学, 2021(07)
- [2]可信粒度准则框架下基于粗糙聚类的信息粒化方法研究与应用[D]. 邵丽洁. 南京财经大学, 2021
- [3]基于混合型数据的K-Prototypes算法研究及Spark平台实现[D]. 王庆. 南昌大学, 2021
- [4]基于数据挖掘的纵火时空分析及团伙纵火识别[D]. 赵森尧. 大连理工大学, 2021(01)
- [5]基于迁移学习的高斯混合模型聚类算法研究[D]. 王荣荣. 济南大学, 2021
- [6]融合空间密度信息的区间型不完整数据聚类算法研究[D]. 侯晴. 辽宁大学, 2021(12)
- [7]混合属性数据流聚类算法研究[D]. 王幸达. 浙江工商大学, 2021(12)
- [8]基于子空间图学习的多核聚类算法研究[D]. 李杏峰. 西南科技大学, 2021(08)
- [9]低秩子空间聚类算法及应用研究[D]. 薛旭倩. 西南科技大学, 2021(08)
- [10]社交网络用户影响力的建模方法与应用[D]. 谭琪. 电子科技大学, 2021(01)