一、一个新的数据挖掘模型与算法(论文文献综述)
梁斌[1](2021)在《含有概念漂移的不平衡数据流分类算法研究》文中提出信息的爆炸性增长导致数据流广泛出现在各个应用领域中,如无线传感器网络数据流、股票交易数据流、电子商务数据流等,如何高效获取这些数据中蕴含的信息成为数据流挖掘的主要任务。区别于一般的静态数据,数据流通常具有到达速度快、规模大、动态变化等特征,并且数据流中的目标概念随时间推移会发生改变,导致概念漂移发生,严重影响数据流挖掘效果。此外,数据流中通常存在类别不平衡问题,导致少类实例中蕴含的信息难以获取。因此,如何有效处理数据流中的概念漂移和类别不平衡问题成为数据流挖掘领域的热门研究方向。针对概念漂移和类别不平衡导致数据流分类模型性能显着下降的问题,本文提出了三种新的数据流分类算法,并通过对比实验证明了所提算法的性能,主要工作如下:(1)针对目前概念漂移数据流分类算法主要存在的两个问题:一是漂移检测延迟和误报率较高,且难以同时处理不同类型的漂移;二是缺乏识别重复概念的能力。为此,本文提出了一种基于主动检测机制且能够适应多种类型概念漂移的数据流分类算法。该算法使用双层窗口保存当前最新的分类结果,根据隶属度函数对窗口中数据分配权重并计算加权错误率,然后利用Mc Diarmid界判断当前窗口内错误率是否发生显着性变化进而检测概念漂移。检测到漂移后,使用半参数对数似然算法检验当前概念是否为过去概念的重现,进而决定是否复用旧分类器。实验结果表明,与以往同类算法相比,所提算法在漂移检测延迟、误报率、分类准确率和运行时间等指标上均有一定优势。(2)针对二分类数据流中概念漂移和类别不平衡的联合问题,本文在基于数据块的集成分类算法上引入成员分类器及其权重的在线更新机制,结合重采样和自适应滑动窗口技术,提出了一种基于G-mean加权的在线不平衡数据流分类算法。该算法基于集成学习框架,每到达一个新实例,在线更新所有成员分类器及其权重,并对少类实例进行随机过采样。每个成员分类器根据最近若干实例上的G-mean性能确定权重,其中Gmean基于时间衰减因子增量计算。同时,该算法会周期性地根据当前窗口中数据构造类别平衡数据集训练一个新的候选分类器,并选择性地添加至集成中。真实和人工数据集上的实验结果表明,所提算法的综合性能优于其他同类算法。(3)针对目前大多数不平衡概念漂移数据流分类算法只考虑二元分类而忽略多个类别的问题,本文提出了一种基于混合采样机制的动态加权数据流分类算法。该算法基于集成学习框架,增量计算每个类别实例的数量。每到达一个新实例,在线更新每个成员分类器及其权重,成员分类器的权重根据它们在最近实例上的MGmean性能确定,每个实例的学习频率由当前数据流中所有类别数量的最大值和该实例所属类别数量的比值决定。此外,该算法会周期性地利用混合采样构造多个不同的数据集,并在此基础上训练多个具有差异性的候选分类器以提高集成模型的泛化能力。实验结果表明,所提算法的综合性能超过了其他同类算法。
刘培[2](2020)在《基于大数据的网络空间主流意识形态传播研究》文中提出信息技术、互联网与计算机等技术建构的网络空间成为与现实社会空间并存的第二空间。但网络空间不是一成不变的,而是在技术发展中不断演进的。随着大数据技术在互联网领域应用的广泛推进,借助于大数据可以量化一切的强大计算能力,网络空间确已进入到一个高度依赖数据和算法的阶段,形成了新型的“大数据-网络空间”。“大数据-网络空间”是在大数据技术深度介入下形成、以数据生态为核心、以算法为主导的、虚实深度交融的网络空间。它不仅是世界的数据化再现,而且是大数据算法与人的意向性协同敞开的网络空间。作为大数据技术形塑的空间,“大数据-网络空间”不是固态的、稳定的、不可更改的,而是可以被技术发展与各类媒体、政党、国家等主体意愿建造、编制和构筑,即“大数据-网络空间”具有可塑造性。“大数据-网络空间”作为各种意识形态和社会思潮的传播载体和场域,同样也为主流意识形态传播带来了机遇与挑战。一方面,“大数据-网络空间”为主流意识形态的传播带来了受众、传播内容、传播方式与传播效果的可量化与可计算,实现了精准化和个性化传播。另一方面,“大数据-网络空间”亦为主流意识形态传播带来挑战,主要包括:大数据技术理性张扬下传播者经验的下降与自身的隐匿、数据化传播受众画像的失真、假新闻深度转向与传播生态的后真相化、资本逻辑与算法逻辑对主流意识形态传播逻辑的干扰。面对这些挑战,已有相关研究往往集中在大数据技术薄弱、西方的数据霸权和意识形态渗透方式的多样化等方面进行探讨,而忽视了“大数据-网络空间”自身的可塑造性。“大数据-网络空间”与主流意识形态传播的关系不仅仅是大数据以工具性载体助推网络空间主流意识形态的传播,更重要的是“大数据-网络空间”是被技术和各种意识形态共同塑造与建构的。由此,主流意识形态的传播必然要求塑造“大数据-网络空间”,以提升主流意识形态的传播能力。如何塑造“大数据-网络空间”以提升主流意识形态传播能力成为一个重要问题。首先,要规避算法主导的传播方式,建构基于传播者与受众能动性的个性化传播,从而积极地影响、修正甚至改变算法推荐主导的传播内容,以塑造主流意识形态在“大数据-网络空间”的核心地位。其次,以主流价值导向驾驭算法从而建构“主流价值算法”。主流价值算法通过纠正流量至上的价值导向以消解各种社会思潮和意识形态对主流意识形态传播空间的挤压,从根本上塑造一个正能量的“大数据-网络空间”。再次,展开数据素养和政治素养的双维教育。通过数据素养教育提升传播者和传播受众的数据素养,同时强化大数据技术人员的意识形态教育。最后,推动大数据检测技术与平台监管齐头并进。积极研发大数据检测技术,以检测、识别和过滤虚假信息。且按照精细化、区别化的原则进行分类分级地监管各类传播媒体与平台,健全法律与行业规范的双重规制,从而有力推进“大数据-网络空间”主流意识形态的传播。
唐丹丹[3](2020)在《数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究》文中认为目的:为了探讨数据挖掘技术在新疆艾滋病预测与控制中的应用,利用数据挖掘技术预测新疆艾滋病的流行趋势、监测HIV治疗与疾病进展、识别高危人群、分析高危行为等,为新疆艾滋病的防控提供参考依据。方法:1)以2004-2016年新疆HIV月发病率样本数据为研究对象,分别建立了单一ARIMA模型和组合ARIMAGARCH模型,对2004-2016年的新疆HIV月发病率数据进行拟合,评价模型预测效能,对新疆HIV月发病率进行1年的短期预测。2)以2007年1月-2015年12月期间的506例在新疆接受抗病毒治疗的儿童艾滋病患者的纵向随访数据作为研究对象,对其基线数据特征、不同治疗时间点,不同分组特征的抗病毒治疗情况进行统计分析,了解研究对象抗病毒治疗的基线情况、免疫学效果、病毒学效果以及生长发育状况。采用广义估计模型分别对免疫学指标(CD4细胞计数)和生长发育指标(HAZ、WAZ)建立单因素和多因素的预测模型,找出影响新疆儿童艾滋病患者抗病毒治疗免疫学和生长发育的关键指标,评价治疗效果。3)以乌鲁木齐市2009-2015年3组高危人群(注射吸毒者、男男性行为者、女性性工作者)的哨点监测报告数据为研究对象,数据内容包括人口学特征、性行为和血清学检测结果。然后以年龄、婚姻状况、教育程度等变量作为输入变量,是否感染HIV作为输出变量,建立三个数据集的四个预测模型。使用混淆矩阵、准确率、灵敏度、特异度、精确率、召回率和ROC曲线下面积AUC等指标来评估模型分类性能,并分析预测变量的重要性。结果:1)预测了2017年1-12月新疆HIV的月发病率,结果显示新疆2017年1-12月的HIV月发病率呈现出逐月下降的趋势,组合模型ARIMA-GARCH修正了ARIMA模型的ARCH效应,预测精度高于单一ARIMA模型,并且能够较好的对新疆HIV月发病率进行短期预测。2)506例新疆儿童艾滋病患者的基线数据特征结果显示,其中男童258例(50.99%),平均年龄7.62岁,年龄分布以>5岁为主,感染途径以母婴传播为主,临床分期主要以I期,II期为主。治疗前CD4细胞个数异常率为58.89%,病毒载量异常率为51.28%。初始治疗方案以AZT+3TC+NVP/EFV为主。不同随访时间治疗情况主要结果显示:随着治疗时长的增加,治疗后的CD4细胞计数、血小板、血红蛋白、总胆固醇、甘油三脂、谷草转氨酶、谷丙转氨酶、身高、体重、HAZ和WAZ是随着治疗的时长增加而增加的;病毒载量、白细胞、总淋巴细胞和临床表现及机会性感染是随着治疗时长的增加而递减的;血糖,血肌酐和血尿素氮随着治疗时长的增加呈现出波动变化的趋势。其中治疗时长为1年时CD4细胞计数平均增长177个/μL,与治疗前相比增加了47.58%。病毒载量从治疗前的平均病毒载量106500拷贝/ml下降到治疗时长为1年时的25拷贝/m,远低于病毒载量检测的最低下限指标50拷贝/ml。不同分组特征CD4细胞计数主要结果显示:治疗前后不同年龄段、不同开始ART年龄、不同基线CD4细胞计数分组、不同HAZ值分组以及不同初始治疗方案这几个分组的CD4细胞计数差异均有统计学意义(P<0.05)。治疗后与治疗前相比CD4细胞计数均有增加,其中年龄分组≤5岁组平均增长高于>5岁年龄组;开始ART年龄分组≤5岁组平均增长高于开始ART年龄>5岁组;治疗前后不同基线CD4细胞计数分组中CD4细胞计数≥500组在治疗后平均增长最多;初始治疗方案分组中含ABC方案组平均增长最多。不同分组特征治疗前后HAZ值主要结果显示:性别、年龄、基线CD4细胞计数、初始治疗方案,WHO临床分期以及复方新诺明使用情况这几个组的HAZ值,差异均有统计学意义(P<0.05)。治疗后与治疗前相比HAZ值均有增加,其中女童组治疗后HAZ值平均增长高于男童组;>5岁年龄组治疗后的HAZ值平均增长高于≤5岁组;WHO临床分期III/IV期组的HAZ值平均增长高于I/II期组;复方新诺明使用组HAZ值平均增长高于不使用组。不同分组特征治疗前后WAZ值主要结果显示:性别、确诊到开始ART的间隔时间、基线CD4细胞计数、WHO临床分期和复方新诺明使用情况这几个分组的WAZ值,差异均有统计学意义(P<0.05)。其中女童组治疗后WAZ值增长高于男童组;确诊到开始ART的间隔时间≤6个月组治疗后WAZ值平均增长大于>6个月组;处于WHO临床分期III/IV期组的WAZ增长高于I/II期组;复方新诺明使用组WAZ值平均增长高于不使用组。CD4细胞计数多因素GEE模型结果显示:影响新疆儿童艾滋病患者免疫学效果的关键指标是治疗时长(年)和基线CD4细胞计数水平。HAZ值和WAZ值多因素GEE模型结果显示:影响新疆儿童艾滋病患者生长发育状况的关键指标是治疗时长(年)、年龄、开始ART年龄以及WHO临床分期。3)实验结果表明:随机森林算法得到了最优预测结果,对MSM数据集的诊断准确率为94.4821%,FSW数据集的诊断准确率为97.5136%,IDU数据集的诊断准确率为94.6375%。其次是k近邻算法,对MSM数据集的诊断准确率为91.5258%,对FSW数据集的诊断准确率为96.3083%,对IDU数据集的诊断准确率为90.8287%。再次是支持向量机,对三个数据集的诊断准确率分别为94.0182%,98.0369%和91.3571%。决策树算法是四种算法中预测结果最差的,对MSM数据集的诊断准确率为79.1761%,对FSW数据集的诊断准确率为87.0283%,对IDU的诊断准确率为74.3879%。随机森林模型自变量的重要性得分表明,在乌鲁木齐市三个高危人群中,年龄是识别HIV感染最重要的影响因素。结论:第一部分研究建立的ARIMA-GARCH联合模型能够较好的拟合预测新疆HIV的月发病率数据,消除样本数据序列的ARCH效应,修正了ARIMA模型的不足,也较好地保留了新疆HIV月发病率预测的数据趋势。第二部分研究建立的广义估计模型找出了影响新疆儿童艾滋病患者免疫学和生长发育的主要危险因素,克服了其他方法对数据要求严格、无法分析多个不同时间点不同测量指标相关性的缺陷,能够较好地对新疆儿童艾滋病患者的治疗随访数据进行统计分析与推断。第三部分建立的高危人群HIV易感者的识别模型可以根据某些重要属性准确地识别疾病。三部分的研究均表明数据挖掘技术作为一种辅助疾病筛查和诊断的新方法,可以帮助医务人员从大量的信息中快速筛查和诊断艾滋病,监测HIV治疗与疾病进展、识别高危人群,为艾滋病的防控提供新的技术和方法。
侯蓉[4](2019)在《面向大数据的在线RBF模型构建及其应用研究》文中指出随着通信技术的发展和互联网的快速普及,各行业中的电子化数据越来越多,数据收集也越发简单,我们迎来了大数据时代。大数据的发展亦推动了消费形式的多样性发展,但是大数据在为人们创造巨大使用价值的同时,也给以淘宝网为代表的各大电商企业带来了一些新的挑战。随着数据规模的迅速扩张,传统的离线算法无法实现一次性收集全部的信息,将会耗费大量的时间和空间。在线学习技术则可以很好的解决这一问题,成为大数据集的数据挖掘领域的研究热点。本文主要研究面向大数据的在线RBF的学习算法及其应用。论文的主要工作有以下三个内容:(1)在对径向基函数研究的基础上,采用高斯函数作为核函数,利用数学中的分块矩阵定理对径向基函数进行处理,从在线处理大数据的角度思考,利用增量学习算法原理推导出径向基函数(RBF)增量学习算法模型,为大数据的增量算法提供一种新思路,并利用实际算例加以检验。实验表明,相对于传统的一次性建模的方法,本文提出的增量式RBF算法能在保证不影响建模精度的前提下明显地缩短处理大数据的时间。(2)在本文研究的RBF增量式学习算法的研究基础上进行改进,利用固定滑动窗口原理,通过利用数学中的分块矩阵定理对径向基函数进行处理,从在线处理大数据的角度思考,利用在线学习算法原理推导出径向基函数(RBF)的窗口式在线学习算法模型,为流式大数据的在线算法提供一种新思路,并利用实际算例加以检验。实验表明,相对于传统的一次性建模的方法,在线RBF算法在预测精度良好的基础上可以很好地处理流式动态数据。(3)本文研究的增量RBF模型及窗口式在线RBF模型都具有较好的泛化性能,为了进一步研究这两种学习算法的实用性,以淘宝网的“淘宝眼镜销量”作为实例,将前文提出的增量式RBF学习算法以及在线式RBF学习算法模型应用到淘宝网的眼镜销量的预测中,实验结果证明,基于径向基函数的在线RBF学习算法模型可为淘宝网眼镜销量预测提供参考依据。本文提出的面向大数据的基于径向基函数的增量学习算法降低了处理大数据的复杂性,提高了大数据处理的运算效率,对算法的泛化性能也有所提高,将复杂的大数据学习过程简单化。在增量RBF模型的基础上改进的窗口式在线RBF学习算法,成功实现了对流式动态大数据有效处理。两种算法在电子商务领域的应用也得到了一定的验证,为电商企业的精准营销以及科学管理提供了有效的理论依据,该算法具有一定的社会实用价值。
甘文生[5](2020)在《效用挖掘技术及其应用》文中研究指明在数字经济时代,数据型态丰富、复杂而量大,如何挖掘出数据中蕴含着的“效用特征”,是数据科学领域中关键而有挑战性的问题。基于效用驱动的数据挖掘比传统的数据挖掘有着更广泛的应用前景和需求,对于理论研究与工程应用都具有重要意义。在大数据时代,基于效用驱动的模式挖掘理论与技术是数据挖掘领域中的前沿研究课题。基于效用驱动的挖掘理论与技术,其相关研究对社会学、经济学、计算机科学、数据挖掘以及数据库等学科有着重要的科学意义,同时在购物篮分析、风险分析与预测、行为分析、推荐系统等领域有着许多应用前景。效用挖掘受到了广泛的关注与研究,但是诸多关键技术与难点有待深入研究,目前存在的问题包括:第一、效用模式的衡量准则单一。如何定义模式的效用函数,提高效用挖掘结果的可用性,让挖掘得到的结果更好?这是一个关键的基本科学问题。第二、适用处理的数据型态比较单一,应用性不够广。现有的效用挖掘模型和算法大多数针对各式各样的事务型数据,部分针对序列数据。第三、效用挖掘研究的理论与技术不够成熟。如何定义适用于不同型态数据的通用化效用挖掘模型,如何定义其效用计算模型,如何求解通用化的基于效用值的高估上界值,是重要的科学问题。因此,本文主要开展以下研究工作,进一步扩大效用挖掘的内涵与外延,如下所述:在事务数据的层面,针对效用挖掘中效用函数衡量方式存在不足的问题,本文提出了一个基于效用占有(Utility Occupancy)的新衡量准则和高效用占有模式挖掘(High-Utility Occupancy Pattern Mining,HUOPM)算法。该算法提出了两个高度压缩的数据结构:效用占有度列表(Utility-Occupancy list,UO-list)和频率效用表(Frequency-Utility table,FU-table),用于存储事务数据的频度和效用信息。此外,剩余效用占有的概念有助于快速计算出上界值,从而缩减实际的搜索空间。基于所提出的多种修剪策略,HUOPM算法仅需要扫描数据库两次,直接构建UO-list,然后直接从频率效用树中挖掘出结果。HUOPM算法不仅可以成功解决从事务数据中挖掘出高效用占有模式的新研究问题,而且能保证挖掘结果完整不遗漏,挖掘性能表现好。在序列数据的层面,针对高效用序列模式挖掘中存在的挖掘性能差和消耗内存大等问题,本文提出一种紧凑的数据结构,即基于序列的效用阵列(Utility-Array),用于存储被处理序列数据库中的关键信息(例如序列的效用、剩余效用、位置、时间顺序等)。Pro UM(Projection-based Utility Mining)算法通过运用投影机制,可以快速构建出某个序列的扩展序列所对应的效用阵列,能避免采用以往算法中常用的耗时操作:先构建投影序列数据库,再进行扫描处理。本文还提出了序列最大扩展效用值(Sequence Extension Utility),该高估上界值能用于修剪搜索空间,并且保证最终的高效用序列结果的完整性。因此,Pro UM算法可以及早过滤掉大量无希望的序列模式,并快速地在挖掘过程中返回高效用序列模式。大量的实验结果表明,Pro UM算法明显优于目前最先进的高效用序列模式挖掘算法,例如USpan算法和HUS-Span算法,其运行时间更快、消耗内存更少、可扩展性更好。在复杂事件序列的层面,针对现有的高效用情节挖掘算法中存在的挖掘性能差和结果不完整等问题,本文提出了UMEpi(Utility Mining of High-Utility Episodes)算法,用于从复杂事件序列中挖掘出完整的、正确的高效用情节。本文首次提出了基于情节的剩余效用概念和正确的情节加权效用值(Episode-Weighted Utilization,EWU),在此基础上提出基于EWU策略的高效用情节挖掘算法。此外,进一步提出了两个优化的过滤策略,大大提高了基于前缀扩展机制的高效用情节挖掘的性能。相关实验结果表明,UMEpi算法成功解决了目前的高效用情节挖掘算法中存在的缺乏正确的高估上界值和有效的修剪搜索空间的策略等问题。它不仅有效地保证了高效用情节挖掘的完整性和正确性,并且在处理长事件序列或密集型事件序列时具有很好的可扩展性。在挖掘结果的评估层面,提出基于零事务不变相关性的效用挖掘问题,并提出了两种基于不同挖掘机制的算法:Co HUIM算法和Co UPM算法。如何更好地评估效用挖掘的结果,如何让效用挖掘的结果更好、更有实用性,是效用挖掘领域中关键的基础问题。通过衡量相关因子,本文所提的两个算法其挖掘出来的模式不仅是高效用的,而且具有很高的正相关性,它们可以为高效用模式挖掘带来切实可行的效果。Co HUIM算法基于投影技术和Kulc相关性度量的排序向下封闭特性;Co UPM算法基于效用列表的挖掘框架,其挖掘性能更优。大量的实验表明,基于相关性的效用模式比以往算法挖掘出来的单纯高效用的模式,更具相关性,对于推荐和交叉销售等更具实用性。这两个算法研究了如何从事务数据中挖掘出具有相关性的高效用项集,其相关的研究理论与技术可以扩展到处理其他型态数据(例如时序数据、事件序列)的效用挖掘分支,例如挖掘出具有强相关性的高效用情节。
孙艳歌[6](2019)在《概念漂移数据流分类算法研究》文中指出数据流分类问题是数据挖掘领域中重要的研究方向之一,其主要特征为数据序列以流的形式不断地产生,如传感器网络异常检测、信用卡欺诈行为监测、天气预报和电价预测等实际问题中,新的数据序列都以快速、实时、连续的形式不断地到达.存在于数据流中的核心问题之一是数据流中往往存在概念漂移现象,即数据分布会随着时间的推移而发生改变.这种数据分布的不稳定特性大大影响了分类模型的性能和更新代价.在概念漂移数据流环境中,概念经过一段时间之后可能重复出现,这种概念重现现象导致算法不断地在相同的概念上学习新模型,浪费模型训练时间甚至降低其总体性能.另外,数据类分布不平衡以及实例属于多标签等问题也影响着模型在概念漂移数据流上的分类性能,其中前者期望模型能更准确预测少数类实例,而后者期望模型能准确预测实例所属的标签集合.针对以上问题,本文在深入分析包含概念漂移的数据流特性及相关理论的基础上,研究并提出新的面向概念漂移数据流问题的分类算法.主要贡献和创新点如下.(1)提出一种基于自适应滑动窗口的数据流集成算法(AWDE).不同于传统集成算法,AWDE使用自适应滑动窗口检测方法为每个基分类器自适应地构建相应训练数据集,具体过程如下:首先,使用自适应滑动窗口检测算法显式地捕获概念漂移;然后,根据捕获的概念漂移信息,选择滑动窗口中的部分数据构建基分类器,解决基于数据块集成对块大小依赖的问题;最后,通过兼顾准确率和差异性的指标监督基分类器选择和加权,以提升分类器的泛化能力.实验结果表明,AWDE能有效地解决多种类型概念漂移问题,在保证较高分类准确率前提下,有效地减少模型的训练时间及内存消耗.(2)提出一种基于概念转移图模型的重复概念发现算法(RDP).与传统数据流分类算法不同,所提出的图模型中每个结点存储一个基分类器(历史概念),边上的权重能有效反映概念的重复性问题.在学习阶段,采用基于Jensen-Shannon散度的检测方法来发现概念漂移和重复概念,并以此来指导图模型的更新;在预测阶段,根据建立的图模型,采用单分类器或者集成方式预测未知实例.此外,为了加速概念转移图模型的学习效率和压缩图模型的存储空间,采用基于对称不确定性的特征选择方法对数据进行预处理.在人工合成和真实数据集的实验结果表明,较之于传统面向重复概念发现的算法,RDP在保持更优分类性能的前提下,大幅度降低模型训练、更新及预测时间.(3)提出一种基于双重代价敏感的概念漂移数据流分类算法(TSCS).与方法(1)和(2)不同,TSCS用于解决概念漂移数据流环境下的类不平衡问题,其训练过程包含两个阶段:预处理阶段和模型构建阶段.在预处理阶段,TSCS采用基于代价敏感的特征选择策略,选择能有效平衡样本分布的特征子集空间;在模型构建阶段,若有概念漂移现象,在特征子空间中学习一个新的基分类器,则搜索并置换集成分类器中最差的分类器.在预测过程中,TSCS采用基于代价敏感加权的集成方式对未知类别的实例进行预测.与已有算法相比,TSCS能够在人工合成及真实的类不平衡概念漂移数据流上取得更好的分类效果.(4)提出一种基于多标签划分和依赖关系的概念漂移数据流分类算法(LPLDC).该算法主要用于解决概念漂移数据流中实例属于多个标签的问题,其基本思想是:在模型训练过程中,将原始较大的标签集随机地划分为多个互不相交的标签子集,并使用概率分类器链算法在每个标签子集上训练一个分类器;当发生概念漂移时,根据每个基分类器在最新数据块上的性能更新相应权值,并采用动态加权策略预测待分类实例.随机划分标签集的作用是充分利用标签间依赖关系并降低概率分类器链的学习时间复杂度;同时,在算法中嵌入了自适应滑动窗口检测算法来处理概念漂移.实验结果表明,LPLDC在大多数数据集上能够更有效地预测实例的标签集合,且更适合概念漂移的环境.本文研究工作针对数据流学习过程中亟待解决的问题,提出一系列行之有效的解决方案,构造更加完善的概念漂移数据流学习模式.所提方案在保持算法的分类效率同时,降低了时空开销,提升了算法的概念漂移适应能力,从而为概念漂移的理论研究和实用化,提供新的研究思路和理论依据.
杨森炎[7](2019)在《基于时空数据挖掘的城市路网交通态势分析及应用研究》文中提出城市路网交通系统是一个高度复杂的非线性系统,准确评估路网时空交通态势,深入挖掘其复杂的运行规律,对于提高城市交通运行效率和智能化管理水平具有重要的理论意义和实用价值。随着感知、通信及智能计算技术的快速发展,如何从海量、高维、多样化的交通时空数据中挖掘潜在的交通状态变化模式和特征,为交通管理部门和公众出行提供高效准确的信息服务,是智能交通领域面临的重要挑战。本研究从数据驱动的角度,采用先进的机器学习、信息论等数据挖掘和分析方法,结合交通流理论和网络理论,提出了基于时空数据挖掘的城市道路网络交通态势分析及应用的研究框架。本文按“时空特征提取—因果关系挖掘—频繁模式识别—未来状态预测”的逻辑主线展开研究。首先,提出一种基于非负张量分解考虑路网交通状态多维度特征的同质时空模式提取方法。在时间维度上提取了长期和短期变化特征,在空间维度上定义空间邻近系数,修正高斯相似度矩阵。基于改进的谱聚类算法将城市大范围路网分割为具备同质交通时空状态模式的子路网。其次,构建考虑信息传递方向性的路网时空状态因果关系挖掘方法。引入传递熵算法量化交通状态时空因果关系,利用滑动窗口技术和高斯核密度估计的方法计算传递熵矩阵,表征各路段之间的动态信息传递量。提出被影响系数、影响系数、输入度及输出度指标,识别路网上的关键路段。随后,提出基于时空因果关系挖掘的交通拥堵传播模式识别模型。利用传递熵计算交通状态信息传递量以及拥堵事件之间的因果关联性强度。考虑拥堵事件发生时间的连续性和空间拓扑的连通性约束条件,基于因果关系显着性检验去除冗余的关联关系,建立路网交通拥堵状态时空传播有向图集。采用频繁子图挖掘算法,识别频繁拥堵状态时空传播模式。最后,构建考虑时空信息的城市路网交通状态预测模型。选择历史上下游交通流量作为特征变量,利用梯度提升决策树集成学习算法,预测短时交通流量,并识别变量的重要性。基于传递熵的变量选择方法提取贡献度高的时空特征变量,显着降低了模型的特征维度和复杂度,提高了预测精度和效率。本研究为交通时空数据挖掘和分析提供了系统性的研究思路和方法,促进了交通态势建模与时空数据挖掘的交叉融合,为城市交通拥堵治理、路网规划等提供决策支持,为数据驱动下的智能交通系统提供基础技术支撑。
马绍飞[8](2019)在《基于自然邻的在线数据流聚类算法研究》文中研究指明大数据时代数据的重要性越来越高,实时数据采集技术的发展使各个领域在应用过程中都可以获取数据流。气象预测、电子商务、网络安全、视频监控等领域都会产生大量的数据流。在这些领域,对数据流以及相关技术的研究显得至关重要。因数据流总量的无限性,数据流聚类只能对一段连续有限数据集进行挖掘。数据流算法一般是采用滑动窗口、界标窗口和衰减窗口来选定需要挖掘的数据集,采用概要数据结构来维护数据的统计信息,使得挖掘任务可以顺利进行下去。数据流算法也可以被划分为一下四种方法,分别是基于密度的算法、基于网格的算法、基于划分的算法和基于层次的算法。数据流聚类算法存在着参数过多,参数值难以确定的问题。以CluStream算法为代表的两阶段聚类处理算法,无法实时产生聚类结果,后来提出了完全在线处理的CEDAS算法解决了这一问题,但该算法无法自动获取微簇阈值与搜索半径。针对上述数据流存在的问题,本文引入自然邻居算法,自然邻居算法不同于k自然邻算法无需人工输入参数,可以自适应迭代出数据集自然特征值,且考虑了数据的分布情况,在自然邻居算法里,数据分布密集区域的邻居点个数较多,稀疏区域的邻居个数较少。本文通过大量的实验,找到了如何通过自然邻算法的自然特征值确定密度阈值与邻域半径的公式,同时根据观察得到的数据集自然分布的规律,对本文算法微簇中心点搜索半径进行加权处理。通过将自然邻算法引入CEDAS,本文提出了NaN-CEDAS算法。为了验证NaN-CEDAS算法的有效性,本文分别在人工数据集与真实数据流集上对算法的有效性进行了验证。首先采用几组常用的聚类数据集验证了通过自然邻居算法得出的阈值与邻域半径的正确性,实验证明了本文算法根据自然邻算法得出的阈值与邻域半径能正确的将数据集聚类。然后通过两个人工数据流集证明本文算法拥有良好的微簇合并、微簇分离以及快速发现新微簇的能力。最后通过KDDCUP 99网络攻击数据集和英特尔伯克利研究实验室传感器数据流两个真实数据集验证了本文算法应用于实际场景的效果。同CEDAS、DenStream、CluStream算法的对比实验表明,该算法有很好的实验结果。
张国光[9](2019)在《基于密度和倾斜时间窗口的分布式数据流聚类算法的研究》文中认为目前,股票交易、路况实时监控和网络入侵检测等领域产生了海量的、按照时间持续到达的、实时动态变化的数据流。鉴于数据流不同于传统静态数据集,因此适合传统静态数据集挖掘的聚类算法已不能对其有效聚类。所以众多专家根据数据流的特点,研发了许多面向数据流的聚类算法。其中,基于密度的数据流聚类算法DenStream由于能够发现任意形状簇和有效处理离群点,得到广泛应用。但是,该算法既不支持分布式并行计算,又不支持指定时间窗口内实时数据流的演化分析,因此需要进一步改进,以提高算法的性能。针对DenStream算法不支持分布式并行计算的缺点,提出了分布式数据流聚类算法D-DenStream,将算法分成微簇初始化、在线微簇维护和离线聚类三个步骤执行,其中在线微簇维护包括局部点实时更新和全局点合并两个阶段,在各局部点实时并行更新微簇,以实现分布式并行计算,在全局点合并微簇,以得到全局微簇。然后为了提高D-DenStream算法的处理效率,将其部署到Storm集群环境中。最后设计对比实验验证D-DenStream算法的聚类质量和处理效率。实验结果表明,D-DenStream算法具有同DenStream算法相近的聚类质量,但处理效率提升了2倍。针对DenStream算法不支持指定时间窗口内实时数据流的演化分析的缺点,提出了基于倾斜时间窗口的数据流聚类算法TTW-DenStream,将倾斜时间窗口应用到算法中,以实现指定时间窗口内实时数据流的演化分析。然后提出了TTW-DenStream算法的分布式实现方案,并部署到Storm集群环境中,以提高算法的处理效率。最后设计实验验证算法的有效性,实验结果表明,TTW-DenStream算法能够实时聚类数据流,产生的聚类结果能够实现演化分析。将TTW-DenStream算法应用到出租车载客热点的分析中,通过对北京市出租车GPS数据集的实验表明,聚类结果支持演化分析,能够发现出租车的载客热点的分布。综上所述,本文研究并改进了基于密度的数据流聚类算法DenStream,然后将改进后的算法部署到具有低延迟、高容错、高可靠和可扩展的分布式实时计算系统Storm上,以提高算法的处理效率,最后设计实验验证改进算法的优势和有效性,并将TTW-DenStream算法应用到出租车载客热点的分析中。
蒋辉[10](2019)在《信息不完备情境下的小微企业信用评估研究》文中提出小微企业是我国经济社会发展的生力军与市场主体中的重要力量。它们在促进国民经济增长、推动技术创新、解决就业和维护社会稳定等方面发挥着举足轻重的作用。发展好小微企业是我国政府孜孜以求的目标之一,小微企业的发展离不开金融机构的支持。目前金融机构普遍利用财务数据进行信用评估以施行放贷与风险控制,而小微企业普遍存在财务数据不健全数据或者数据缺失现象,即存在―信用信息不完备‖现象,特别是在当今的大数据时代,各种非财务数据源也被引入信用评估,这种情形下的―信用信息不完备‖现象更为突出。本文首先对信息、信用风险以及数据缺失等基本概念和理论进行简要综述;然后从小微企业特性及其信用风险成因入手,特别是针对小微企业数量众多,经营特性与风险特性各异,而借贷需求又具有―短、小、频、急‖的特点,分析了小微企业信用信息不完备的原因;再结合信用评估的现实情况,详细研究了以下三类典型的信息不完备场景下的信用评估问题:第一,针对信用业务开展初期的信息不完备情形,尤其是考虑到传统的专家经验法在收集、处理和综合专家意见时存在的不足,重点研究了群决策基础上的信用评估模型构建方法—3-SEIJ。采用3标度法构建判别矩阵来确定指标权值,引入3-9标度映射技术来降低专家判断难度,应用一致性调整技术来解决判断矩阵不一致造成的反复判断问题,并通过专家聚类和可信加权技术来综合专家意见,从而有效解决信用业务初期历史信息缺乏情境下的信用评估模型构建问题。第二,针对信用业务开展过程中,违约数据虽有一定积累,但信息依然不足以用于改善评估模型的信息不完备情形。本文将AHP和神经网络相结合,基于少量违约数据来实现模型在线升级更新,以充分利用不断完备的违约数据以及专家的经验知识信息,解决了神经网络模型初始赋值的随意性和神经网络的可理解性及过早收敛于局部解的问题。并通过实验验证了该方法在改善信用评估模型性能方面的有效性。第三,针对评估模型建立之后,在具体的信用评估过程中由于被评估对象存在信息项缺失的信息不完备情境,本文研究了一种新的数据填补算法。阐述了该算法的两个关键阶段,即单变量预测模型库构建阶段和迭代填补阶段。该算法解决多个变量同时缺失的填补问题,且摒弃了EM算法对概率分布假设的依赖,具有更广泛的适用性。然后通过三个基准信用评估数据集的填补还原实验和填补后信用预测实验将本文方法与一般的众数填补和均值填补以及EM填补进行了比较分析。最后,本文探讨了小微企业信用评估过程中,为应对信息不完备情形的一些其它相关方法,并提出一个评估模型辅助开发系统的构想。本文研究成果能在一定程度上促进信用评估技术的发展,进而改善金融机构信用评估工作效率,优化金融机构资源配置,为小微企业获得金融支持提供技术与方法指导,为金融机构的信用评估提供有效的评估依据。
二、一个新的数据挖掘模型与算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一个新的数据挖掘模型与算法(论文提纲范文)
(1)含有概念漂移的不平衡数据流分类算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 概念漂移处理 |
1.2.2 不平衡数据流分类算法 |
1.3 论文主要工作 |
1.4 论文组织结构 |
第二章 相关概念和理论 |
2.1 数据流概述 |
2.2 概念漂移定义及其类型 |
2.3 模糊集理论和隶属度函数 |
2.4 半参数对数似然算法 |
2.5 本章小结 |
第三章 适于多种类型概念漂移的数据流分类算法 |
3.1 引言 |
3.2 适于多种类型概念漂移的数据流分类算法DFWM |
3.2.1 概念漂移检测机制 |
3.2.2 漂移检测阈值计算 |
3.2.3 重复概念的识别 |
3.3 实验结果及其分析 |
3.3.1 实验设置 |
3.3.2 性能评价指标 |
3.3.3 数据集介绍 |
3.3.4 概念漂移检测分析 |
3.3.5 分类准确率和运行时间 |
3.4 本章小结 |
第四章 基于G-mean加权的在线不平衡数据流分类算法 |
4.1 引言 |
4.2 基于G-mean加权的在线不平衡数据流分类算法OGUEIL |
4.2.1 更新和淘汰机制 |
4.2.2 加权和决策机制 |
4.3 实验结果及其分析 |
4.3.1 实验设置 |
4.3.2 性能评价指标 |
4.3.3 数据集介绍 |
4.3.4 结果分析 |
4.4 本章小结 |
第五章 针对多类不平衡数据流的动态加权算法 |
5.1 引言 |
5.2 针对多类不平衡数据流的动态加权算法DWEMI |
5.2.1 在线更新机制 |
5.2.2 候选分类器训练 |
5.2.3 加权和决策机制 |
5.3 实验结果及其分析 |
5.3.1 实验设置 |
5.3.2 性能评价指标 |
5.3.3 数据集介绍 |
5.3.4 结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录:作者在攻读硕士学位期间所取得的研究成果 |
(2)基于大数据的网络空间主流意识形态传播研究(论文提纲范文)
致谢 |
摘要 |
abstract |
1 绪论 |
1.1 问题的缘由与研究价值 |
1.2 国内外研究动态与文献评析 |
1.3 研究思路与研究方法 |
1.4 研究创新点与难点 |
2 主流意识形态传播与网络空间的内在关联 |
2.1 意识形态概念的演变 |
2.2 主流意识形态传播方式的变迁 |
2.3 网络空间及其可塑性 |
2.4 网络空间与主流意识形态传播的内在关联维度 |
3 大数据技术对网络空间的形塑 |
3.1 大数据技术:网络空间变革的技术基础 |
3.2 大数据技术的生产力属性与功能 |
3.3 “大数据-网络空间”的界定 |
3.4 “大数据-网络空间”的本质 |
3.5 “大数据-网络空间”的主要特征 |
4 “大数据-网络空间”主流意识形态传播的机遇与挑战 |
4.1 “大数据-网络空间”主流意识形态传播的机遇 |
4.2 技术理性的张扬与传播者的遮蔽 |
4.3 数据化受众画像的失真 |
4.4 假新闻扰乱主流意识形态传播环境 |
4.5 政治逻辑、算法逻辑与资本逻辑的博弈 |
5 掌握主流意识形态传播的主动权:提升塑造“大数据-网络空间”的能力 |
5.1 建构基于传播者与受众能动性的个性化传播 |
5.2 设计主流价值算法 |
5.3 展开数据素养与政治素养双维度教育 |
5.4 大数据检测技术与监管齐头并进 |
6 结论 |
参考文献 |
作者简介 |
学位论文数据集 |
(3)数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究(论文提纲范文)
摘要 |
ABSTRACT |
前言 |
第一部分 时序数据挖掘ARIMA-GARCH模型在新疆HIV发病趋势预测中的应用 |
1 内容与方法 |
1.1 研究对象 |
1.2 研究方法 |
1.3 质量控制 |
1.4 统计方法 |
2 结果 |
3 讨论 |
4 小结 |
第二部分 纵向数据挖掘GEE模型在新疆儿童艾滋病抗病毒治疗效果预测中的应用 |
1 内容与方法 |
1.1 研究对象 |
1.2 研究方法 |
1.3 质量控制 |
1.4 统计方法 |
2 结果 |
3 讨论 |
4 小结 |
第三部分 横截面数据挖掘机器学习模型在乌鲁木齐三大高危人群HIV感染预测中的应用 |
1 内容与方法 |
1.1 研究对象 |
1.2 研究方法 |
1.3 质量控制 |
1.4 统计方法 |
2 结果 |
3 讨论 |
4 小结 |
结论 |
致谢 |
参考文献 |
附录 |
综述 |
参考文献 |
攻读博士学位期间获得的学术成果 |
个人简历 |
导师评阅表 |
(4)面向大数据的在线RBF模型构建及其应用研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 大数据的研究现状 |
1.2.2 径向基函数的应用的研究综述 |
1.3 本文的写作动机 |
1.4 本文的创新点 |
1.5 本文框架及技术路线图 |
1.5.1 本文框架 |
1.5.2 技术路线图 |
第二章 基本理论及方法 |
2.1 径向基函数及其基本理论 |
2.1.1 径向函数(Radial Functions) |
2.1.2 径向基函数(Radial Basis Function,RBF) |
2.2 流式大数据的相关概念 |
2.2.1 流式大数据的概念 |
2.2.2 流式大数据的特点 |
2.3 在线学习算法 |
2.3.1 增量式在线学习算法 |
2.3.2 窗口式在线学习算法 |
2.3.3 在线学习的相关算法 |
2.4 本章小结 |
第三章 面向大数据的基于径向基函数的增量学习算法 |
3.1 径向基函数的增量学习描述 |
3.2 面向大数据的RBF增量学习算法 |
3.3 面向大数据的RBF增量学习算法的仿真实验 |
3.3.1 实验过程及结果 |
3.3.2 实验结果分析 |
3.4 本章小结 |
第四章 面向流式动态大数据的基于RBF的窗口式在线学习算法 |
4.1 基于滑动窗口的在线学习策略 |
4.2 面向流式动态大数据的窗口式在线RBF学习算法 |
4.3 实验结果及分析 |
4.4 本章小结 |
第五章 基于径向基函数的在线学习算法在淘宝商铺营销预测中的应用 |
5.1 大数据对淘宝网商户的重要性 |
5.2 大数据挖掘面临的问题 |
5.3 在线RBF在淘宝商铺营销预测中应用的仿真实验 |
5.3.1 数据集说明 |
5.3.2 数据处理 |
5.3.3 数据降维 |
5.3.4 基于径向基函数(RBF)的增量学习算法 |
5.3.5 基于滑动窗口的在线学习算法 |
5.3.6 实验结果与分析 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望与挑战 |
参考文献 |
附录1 程序清单 |
附录2 攻读硕士学位期间撰写的论文 |
致谢 |
(5)效用挖掘技术及其应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.1.1 数据挖掘 |
1.1.2 效用挖掘 |
1.2 研究目的与意义 |
1.3 研究现状及分析 |
1.3.1 传统的模式挖掘技术 |
1.3.2 效用驱动的模式挖掘 |
1.3.3 研究现状总结 |
1.4 主要研究内容及创新点 |
1.5 论文组织结构 |
第2章 基于事务数据的效用挖掘 |
2.1 引言 |
2.2 相关研究工作 |
2.3 预备知识与问题定义 |
2.4 HUOPM算法 |
2.4.1 搜索空间与挑战 |
2.4.2 UO-List和 FU-Table |
2.4.3 效用占有度上界 |
2.4.4 修剪策略 |
2.4.5 HUOPM算法 |
2.5 实验分析 |
2.5.1 数据描述和实验设置 |
2.5.2 模式分析 |
2.5.3 效率分析 |
2.5.4 修剪策略的效果 |
2.5.5 数据项处理顺序的效果 |
2.6 本章小结 |
第3章 基于序列数据的效用挖掘 |
3.1 引言 |
3.2 相关研究工作 |
3.3 预备知识与问题定义 |
3.4 ProUM算法 |
3.4.1 词典量化序列树 |
3.4.2 效用阵列和投影机制 |
3.4.3 效用上界和剪枝策略 |
3.4.4 ProUM算法 |
3.5 实验分析 |
3.5.1 数据描述和实验设置 |
3.5.2 效率分析 |
3.5.3 候选模式分析 |
3.5.4 内存消耗分析 |
3.5.5 可伸缩性测试 |
3.6 本章小结 |
第4章 基于复杂事件序列的效用挖掘 |
4.1 引言 |
4.2 相关研究工作 |
4.3 预备知识与问题定义 |
4.4 UMEpi算法 |
4.4.1 EWU高估上界值 |
4.4.2 搜索空间中的修剪策略 |
4.4.3 UMEpi算法 |
4.5 实验分析 |
4.5.1 数据描述和实验设置 |
4.5.2 有效性分析 |
4.5.3 运行时间分析 |
4.5.4 内存消耗分析 |
4.5.5 可伸缩性测试 |
4.6 本章小结 |
第5章 基于相关性的效用挖掘 |
5.1 引言 |
5.2 预备知识与问题定义 |
5.3 基于阶层组合的Co HUIM算法 |
5.3.1 数据库的投影操作 |
5.3.2 基于排序的向下封闭特性 |
5.3.3 Co HUIM算法 |
5.4 基于效用列表的CoUPM算法 |
5.4.1 融合相关性的效用列表 |
5.4.2 CoUPM算法 |
5.5 实验分析 |
5.5.1 数据描述和环境设置 |
5.5.2 有效性分析 |
5.5.3 效率分析 |
5.5.4 内存消耗分析 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(6)概念漂移数据流分类算法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外发展现状 |
1.2.1 数据流挖掘 |
1.2.2 数据流分类 |
1.3 当前研究存在问题 |
1.4 主要研究内容 |
1.5 论文组织 |
2 相关工作 |
2.1 问题描述及基本概念 |
2.2 概念漂移产生的原因及类型 |
2.3 概念漂移处理技术 |
2.3.1 单分类器方法 |
2.3.2 窗口机制 |
2.3.3 概念漂移检测 |
2.3.4 集成分类方法 |
2.4 数据流评价体系 |
2.4.1 大规模在线分析平台 |
2.4.2 模拟概念漂移数据流 |
2.4.3 数据流分类评价方式 |
2.5 本章小结 |
3 基于自适应滑动窗口的数据流集成分类算法 |
3.1 引言 |
3.1.1 问题分析 |
3.1.2 解决思路 |
3.2 背景知识 |
3.2.1 数据流中处理数据的两种方式 |
3.2.2 基于数据块的集成分类模型 |
3.3 基于自适应滑动窗口的集成分类算法 |
3.3.1 算法框架 |
3.3.2 基于Kullback-Leibler散度的自适应滑动窗口检测算法 |
3.3.3 集成分类器权值更新策略 |
3.3.4 基于自适应滑动窗口的集成分类算法 |
3.3.5 复杂度分析 |
3.4 实验方式及其结果分析 |
3.4.1 实验数据集 |
3.4.2 参数敏感性分析 |
3.4.3 与其它算法对比分析 |
3.5 本章小结 |
4 基于概念转移图模型的重复概念发现 |
4.1 引言 |
4.1.1 问题分析 |
4.1.2 解决思路 |
4.2 背景知识 |
4.2.1 重复概念漂移处理方法 |
4.2.2 数据流中的特征选择方法 |
4.3 基于图模型的重复概念发现 |
4.3.1 总体框架及相关符号表示 |
4.3.2 基于Jensen-Shannon散度的概念漂移检测方法 |
4.3.3 基于对称不确定性的自适应特征选择方法 |
4.3.4 概念转移图模型的构建方法 |
4.3.5 分类器的预测 |
4.4 实验方式及其结果分析 |
4.4.1 实验数据集 |
4.4.2 参数敏感性分析 |
4.4.3 与其它算法对比分析 |
4.5 本章小结 |
5 基于双重代价敏感的概念漂移数据流分类算法 |
5.1 引言 |
5.1.1 问题分析 |
5.1.2 解决思路 |
5.2 背景知识 |
5.2.1 面向静态数据的类不平衡分类方法 |
5.2.2 面向数据流的类不平衡分类方法 |
5.3 基于双重代价敏感学习的类不平衡分类算法 |
5.3.1 总体框架 |
5.3.2 基于ReliefF的代价敏感特征选择算法 |
5.3.3 基于双重代价敏感的集成分类算法 |
5.4 实验方式及其结果分析 |
5.4.1 实验数据集 |
5.4.2 类不平衡数据分类评价指标 |
5.4.3 与其它算法对比分析 |
5.5 本章小结 |
6 基于多标签划分和依赖关系的概念漂移数据流分类算法 |
6.1 引言 |
6.1.1 问题分析 |
6.1.2 解决思路 |
6.2 相关工作 |
6.2.1 多标签数据流分类问题描述 |
6.2.2 多标签分类 |
6.2.3 多标签数据流分类 |
6.3 基于多标签划分和依赖关系的概念漂移数据流分类算法 |
6.3.1 基于多标签划分的概率分类器链 |
6.3.2 基于多标签划分和依赖关系的数据流分类算法 |
6.4 实验方式及其结果分析 |
6.4.1 实验数据集 |
6.4.2 评价指标 |
6.4.3 参数敏感性分析 |
6.4.4 与其它算法对比分析 |
6.5 本章小结 |
7 总结与展望 |
7.1 研究工作总结 |
7.2 未来工作展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(7)基于时空数据挖掘的城市路网交通态势分析及应用研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究问题、目的及意义 |
1.3 国内外研究现状 |
1.3.1 交通状态时空变化规律研究 |
1.3.2 交通状态时空特征提取方法 |
1.3.3 交通时空状态因果关系挖掘 |
1.3.4 交通拥堵状态传播模型研究 |
1.3.5 短时交通流状态预测研究 |
1.4 研究内容与技术路线 |
第2章 城市路网交通时空数据特征及处理技术 |
2.1 交通数据时空特性分析 |
2.1.1 时间维特性 |
2.1.2 空间维特性 |
2.1.3 时空相关性 |
2.2 路网属性 |
2.3 实验数据介绍 |
2.4 数据预处理过程 |
2.4.1 异常数据检测 |
2.4.2 数据融合及修复 |
2.4.3 数据滤波处理 |
2.4.4 数据预处理实例 |
2.5 本章小结 |
第3章 考虑时空多维度特征的同质交通状态变化模式提取 |
3.1 本章引言 |
3.2 基于张量分解的多维度特征提取 |
3.2.1 NNCP算法 |
3.2.2 分解技术 |
3.3 考虑空间邻近性的谱聚类算法 |
3.3.1 构建相似度图 |
3.3.2 SC-SPM算法 |
3.4 宏观路网交通流参数 |
3.5 实验分析 |
3.5.1 非负张量分解 |
3.5.2 参数敏感性分析 |
3.5.3 交通流变化模式分析 |
3.5.4 子路网的宏观交通流关系 |
3.5.5 高峰期与非高峰期的交通模式 |
3.6 本章小结 |
第4章 基于传递熵算法的交通状态时空因果关系挖掘 |
4.1 本章引言 |
4.2 传递熵模型 |
4.2.1 信息熵基本概念 |
4.2.2 传递熵理论 |
4.2.3 传递熵计算方法 |
4.2.4 因果关系判断方法 |
4.3 路网交通状态时空因果关系建模 |
4.4 实验分析 |
4.4.1 参数分析 |
4.4.2 动态因果关系分析 |
4.4.3 城市路网时空因果关系分析 |
4.5 本章小结 |
第5章 基于时空因果关系的交通拥堵状态频繁传播模式识别 |
5.1 本章引言 |
5.2 路网交通拥堵状态时空传播图构建 |
5.2.1 交通拥堵指数 |
5.2.2 时空拥堵状态矩阵 |
5.2.3 路网空间邻接矩阵 |
5.2.4 时空因果关系连接矩阵 |
5.2.5 交通拥堵状态时空传播图 |
5.3 频繁交通拥堵传播模式挖掘 |
5.3.1 频繁子图挖掘算法 |
5.3.2 实验分析 |
5.4 交通拥堵时空状态关联模式挖掘 |
5.5 本章小结 |
第6章 考虑时空信息的城市路网交通状态预测 |
6.1 本章引言 |
6.2 集成学习模型 |
6.3 考虑上下游交通状态影响的集成预测模型 |
6.3.1 实验数据 |
6.3.2 参数分析 |
6.3.3 实验分析 |
6.4 基于时空变量选择的联合预测模型 |
6.4.1 模型框架 |
6.4.2 时空变量选择 |
6.4.3 实验分析 |
6.5 本章小结 |
第7章 总结与展望 |
7.1 论文总结 |
7.2 研究创新点 |
7.3 研究展望 |
参考文献 |
致谢 |
个人简历、在校期间发表的学术论文与研究成果 |
(8)基于自然邻的在线数据流聚类算法研究(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 研究背景与意义 |
1.2 数据流挖掘国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 论文的研究内容 |
1.4 论文的组织结构 |
1.5 本章小结 |
2 数据流相关理论与算法 |
2.1 数据流相关理论 |
2.1.1 数据流的概念 |
2.1.2 数据流挖掘窗口技术 |
2.1.3 数据流挖掘概要数据结构 |
2.1.4 流聚类相似性度量方法 |
2.2 经典数据流聚类算法 |
2.2.1 基于划分的数据流聚类算法 |
2.2.2 基于层次的数据流聚类算法 |
2.2.3 基于密度的数据流聚类算法 |
2.2.4 基于网格的数据流聚类算法 |
2.3 本章小结 |
3 自然邻居算法 |
3.1 自然邻居的概念 |
3.2 自然邻居算法流程 |
3.3 本章小结 |
4 基于自然邻的在线数据流聚类算法 |
4.1 在线数据流算法CEDAS |
4.1.1 CEDAS算法概念 |
4.1.2 CEDAS算法流程 |
4.1.3 CEDAS算法的优点 |
4.1.4 CEDAS算法的缺点 |
4.2 基于自然邻CEDAS数据流算法介绍 |
4.2.1 算法的改进目标 |
4.2.2 算法的流程 |
4.2.3 算法复杂度分析 |
4.3 本章小结 |
5 实验与结果分析 |
5.1 实验环境 |
5.2 算法性能验证 |
5.3 聚类评价指标 |
5.3.1 外部评价指标 |
5.3.2 内部评价指标 |
5.4 真实数据集实验 |
5.5 本章小结 |
6 总结与展望 |
6.1 论文工作总结 |
6.2 课题研究展望 |
参考文献 |
附录 |
A.作者在攻读学位期间申请的专利与标准 |
B.学位论文数据集 |
致谢 |
(9)基于密度和倾斜时间窗口的分布式数据流聚类算法的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文的主要研究内容 |
1.4 论文组织结构 |
第二章 数据流挖掘与聚类 |
2.1 数据挖掘与数据流挖掘概述 |
2.1.1 数据挖掘 |
2.1.2 数据流模型 |
2.1.3 数据流挖掘 |
2.1.4 数据流挖掘的窗口模型 |
2.1.5 数据流挖掘的实现技术 |
2.2 聚类与数据流聚类概述 |
2.2.1 聚类 |
2.2.2 聚类算法 |
2.2.3 数据流聚类算法 |
2.3 基于密度的数据流聚类算法DenStream |
2.3.1 基本概念与性质 |
2.3.2 DenStream算法描述 |
2.3.3 DenStream算法的不足 |
2.4 分布式实时计算系统 |
2.4.1 分布式实时计算系统介绍 |
2.4.2 各系统的对比分析 |
2.5 本章小结 |
第三章 分布式数据流聚类算法及其基于STORM的实现 |
3.1 分布式数据流聚类算法D-DenStream |
3.1.1 D-DenStream算法的主要思想 |
3.1.2 D-DenStream算法描述 |
3.2 基于Storm的 D-DenStream算法方案设计 |
3.2.1 基于Storm的 D-DenStream算法的关键问题 |
3.2.2 基于Storm的 D-DenStream算法方案设计 |
3.3 实验与结果分析 |
3.3.1 实验环境 |
3.3.2 环境搭建 |
3.3.3 实验结果分析 |
3.4 本章小结 |
第四章 基于倾斜时间窗口的数据流聚类算法 |
4.1 基于倾斜时间窗口的数据流聚类算法TTW-DenStream |
4.1.1 基本概念与性质 |
4.1.2 TTW-DenStream算法的主要思想 |
4.1.3 TTW-DenStream算法描述 |
4.2 TTW-DenStream算法的分布式方案设计 |
4.3 基于Storm的分布式TTW-DenStream算法方案设计 |
4.4 实验与结果分析 |
4.4.1 实验环境 |
4.4.2 ElasticSearch环境搭建 |
4.4.3 实验结果分析 |
4.5 TTW-DenStream算法在载客热点分析中的应用 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 本文小结 |
5.2 未来展望 |
参考文献 |
在读期间公开发表的论文 |
致谢 |
(10)信息不完备情境下的小微企业信用评估研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 文献综述 |
1.3 研究目的与研究内容 |
1.3.1 研究目的 |
1.3.2 研究内容 |
1.4 研究思路与研究方法 |
第2章 理论基础 |
2.1 信息与信息价值 |
2.2 信用与信用风险及信用评估 |
2.3 数据挖掘与数据质量问题 |
2.4 数据缺失机制与处理方法 |
2.4.1 数据缺失机制 |
2.4.2 缺失处理的简单方法 |
2.4.3 缺失处理的高级方法 |
2.5 本章小结 |
第3章 小微企业信用风险表现与成因及信用评估中的信息不完备问题 |
3.1 小微企业及其发展现状 |
3.1.1 小微企业的概念 |
3.1.2 我国小微企业发展状况 |
3.2 小微企业的信用风险表现与成因 |
3.2.1 小微企业信用风险表现 |
3.2.2 小微企业信用风险成因分析 |
3.2.3 小微企业信用风险成因机理 |
3.3 信用评估业发展状况与小微企业信用评估中面临的挑战 |
3.3.1 我国信用评估行业发展状况 |
3.3.2 小微企业信用评估中面临的挑战 |
3.4 小微企业信用评估发展机遇与信息不完备问题 |
3.4.1 大数据时代小微企业信用评估发展机遇 |
3.4.2 大数据时代小微企业信用评估数据来源及其特性 |
3.4.3 大数据时代小微企业信用评估中信息不完备问题 |
3.5 本章小结 |
第4章 无违约数据情境下小微企业信用评估模型的构建与确权研究 |
4.1 问题描述 |
4.2 现有权重确定方法的缺陷分析 |
4.3 3-SEIJ方法 |
4.3.1 3-SEIJ法的策略思想 |
4.3.2 3-SEIJ法的操作与过程 |
4.3.3 关键技术与算法 |
4.4 3-SEIJ法应用案例 |
4.4.1 指标体系构建 |
4.4.2 指标评分标准制定 |
4.4.3 指标重要性判别矩阵 |
4.4.4 综合权重计算 |
4.4.5 计算评分 |
4.4.6 效果比较 |
4.5 本章小结 |
第5章 少量违约信息情境下小微企业信用评估模型的改进研究 |
5.1 问题描述 |
5.2 层次分析法与BP神经网络 |
5.2.1 层次分析法及其优缺点 |
5.2.2 神经网络及其优缺点 |
5.3 AHP-NN-Credit方法 |
5.3.1 基本思想 |
5.3.2 方法要点 |
5.3.3 实现步骤与关键算法 |
5.4 实验与结果 |
5.4.1 实验方法与数据 |
5.4.2 构建AHP模型 |
5.4.3 训练AHP-NN模型 |
5.4.4 实验结果 |
5.5 本章小结 |
第6章 小微企业模型应用阶段信息项缺失情境下的处理策略研究 |
6.1 问题提出 |
6.2 EM算法原理及其缺陷分析 |
6.3 仿EM算法的多变量缺失数据填补 |
6.3.1 基本思想与算法框架 |
6.3.2 单变量预测估计模型库的构建 |
6.3.3 多变量缺失值的填补算法 |
6.4 实验及结果 |
6.4.1 数据集描述 |
6.4.2 实验方案 |
6.4.3 结果分析 |
6.5 本章小结 |
第7章 基于信息不完备的小微企业信用评估模型及应对策略 |
7.1 引言 |
7.2 信息不完备下小微企业评估数据获取理念 |
7.2.1 注重专家经验判断 |
7.2.2 发挥群体决策优势 |
7.2.3 充分利用已有案例模型信息 |
7.2.4 以大数据的思维吸纳各类数据 |
7.2.5 从源头开始重视数据质量管理 |
7.3 信息不完备情境下小微企业评估指标的构建策略 |
7.3.1 小微企业评估指标构建原则 |
7.3.2 小微企业评估指标构建步骤 |
7.3.3 小微企业评估指标内容设计 |
7.3.4 评估指标取值的指导性建议 |
7.4 小微企业信用评估模型辅助开发系统的设计思路 |
7.4.1 评估管理信息系统的基本架构 |
7.4.2 评估模型辅助开发系统的设计要求 |
7.4.3 评估模型辅助开发系统的概念模型 |
7.4.4 评估模型辅助开发系统的功能架构 |
7.5 本章小结 |
结论与展望 |
参考文献 |
附录 攻读博士学位期间发表的学术论文目录 |
致谢 |
四、一个新的数据挖掘模型与算法(论文参考文献)
- [1]含有概念漂移的不平衡数据流分类算法研究[D]. 梁斌. 江南大学, 2021(01)
- [2]基于大数据的网络空间主流意识形态传播研究[D]. 刘培. 中国矿业大学, 2020(07)
- [3]数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究[D]. 唐丹丹. 新疆医科大学, 2020(07)
- [4]面向大数据的在线RBF模型构建及其应用研究[D]. 侯蓉. 南京邮电大学, 2019(02)
- [5]效用挖掘技术及其应用[D]. 甘文生. 哈尔滨工业大学, 2020
- [6]概念漂移数据流分类算法研究[D]. 孙艳歌. 北京交通大学, 2019(01)
- [7]基于时空数据挖掘的城市路网交通态势分析及应用研究[D]. 杨森炎. 清华大学, 2019(02)
- [8]基于自然邻的在线数据流聚类算法研究[D]. 马绍飞. 重庆大学, 2019(01)
- [9]基于密度和倾斜时间窗口的分布式数据流聚类算法的研究[D]. 张国光. 山东理工大学, 2019(03)
- [10]信息不完备情境下的小微企业信用评估研究[D]. 蒋辉. 湖南大学, 2019(05)