一、挖掘所关注规则的多策略方法研究(论文文献综述)
朱佳[1](2019)在《基于本体与关联规则的煤矿监控预警模型的设计与研究》文中进行了进一步梳理煤炭产业是我国的基础性产业,但是煤炭开采具有很大的风险,每年都会出现因为矿井中工作环境恶劣、安全技术水平不足、操作不规范等原因造成的煤矿伤亡事故。为了减少事故的发生,现在的煤矿企业大多都配备了煤矿监控预警系统,它不仅可以监测瓦斯、一氧化碳等环境参数并实行超限报警、断电等防患措施,还可以实时监控各种设备如风门、风筒等的运行状况,保证其正常运行。煤矿监控预警系统在一定程度上可以提高煤矿企业的安全管理能力,但是它也存在一些弊端,例如系统中的信息管理混乱、大量的监控数据没有被有效利用以及传感器反应不灵敏没有被及时发现导致系统的可靠性变差等。通过对上述问题进行研究,本文构建了基于本体与关联规则的煤矿监控预警模型。该模型运用了本体技术,是因为本体可以将杂乱的领域知识系统化地组织起来;又可以基于本体的结构化特性实现监控数据的储存与快速查询;还可以实现基于本体的知识推理。需要说明的是,该系统的本体推理技术是基于Jena推理机实现的。该推理预警模型还运用到了关联规则挖掘技术,是因为关联规则挖掘算法可以针对煤矿监控数据的特点进行挖掘,并能够得到隐含的对煤矿预警有价值的关联规则运用到本体推理中。其主要的研究内容有:(1)通过对《煤矿安全规程》等文献资料进行搜集,本文得到大量煤矿监控预警领域的相关术语。然后,利用七步法对这些术语进行处理得到了本体模型的基本框架——概念、概念间结构关系、属性以及实例等。最后,基于本体编辑工具Protege对这些框架知识进行构建就得到了完整的煤矿监控预警本体模型。(2)运用了关联规则挖掘方法对煤矿监控数据进行挖掘。传统的Apriori挖掘方法虽然应用广泛,但是挖掘结果差强人意,可能会得到许多虚假的、无趣的规则。因此,本文改进了 Apriori挖掘方法将相关度和兴趣度添加进去,并经过实验验证了该改进方法有效可行,能够挖掘出大量符合用户需求的关联规则,避免了将虚假规则挖掘出来运用到实际工作中。此外,本文还利用Jena语法将关联规则以及监控预警领域的相关规定编写成符合要求的自定义推理规则。(3)采用Jena推理机绑定了煤矿监控预警本体模型与推理规则库,构建了基于本体与关联规则的煤矿监控预警模型,并利用试验证明了该模型有效可行,能够在一定程度上提高煤矿监控预警的精确度,降低了煤矿事故的发生率。图20表9参74
姚云露[2](2017)在《基于多策略分类方法的微博情绪对股票市场影响研究》文中认为随着互联网技术的迅速发展,社交网络得到越来越广泛的应用,社交网络不仅成为人们相互沟通交流的主渠道,而且也已经成为人们参与社会公共问题讨论、宣泄自己想法和情绪的主渠道。深入分析和挖掘社交平台上公众所发布的信息,已经成为及时了解和把握公众情绪的有效方式。近年来针对不同应用领域,如何充分利用社交平台信息,及时分析和把握相关的发展趋势,不仅被越来越多的企业和政府部门所关注,而且也已成为学者们的热点研究问题之一。在我国微博平台是一个具有很大受众面、开放性的社交平台,微博平台的信息能够比较好地从一个侧面映射公众对经济和社会问题的想法,国内已有一些学者结合相关领域开展了一些微博信息分析和应用的研究,取得了一些初步成果。本文在对微博情绪分析方法研究的基础上,讨论微博情绪与我国股票市场波动之间的关系。理论研究上,论文首先界定了公众情绪、微博情绪和情绪指数等概念,其次在已有研究成果的基础上提出了基于多策略分类方法的微博情绪指数的构建过程。从分类过程上,采用两步三分类,即所有信息文本的主客观分类和主观信息文本的褒贬分类,最终将所有信息文本分为中性(客观信息)、积极文本和消极文本三类。从分类方法上,本文提出对信息文本分别构建向量空间模型和情感特征模型,对两个模型分别采用支持向量机(SVC)、LR(逻辑回归)和NB(朴素贝叶斯)三种分类算法对文本进行分类,进一步设计了对6种分类结果进行优选的最大投票机制。详细阐述了分类过程中所应用的方法和基于微博文本分类结果微博情绪指数构建的方法。实际应用研究上,论文首先以采用爬虫技术从新浪微博平台上获取的数据为研究对象,阐述了数据的获取和预处理过程,应用所提出的方法,完成了新浪微博股票投资情绪指数的构建。其次,论文对股票市场选取了相关的因变量和自变量,并将计算的微博股票投资情绪作为自变量,一方面研究了微博情绪指数与所选定股票市场波动性指标之间的相关性,通过格兰杰因果检验筛选出与股票市场波动性指标相关的微博股票投资情绪指标,另一方面研究了微博股票投资情绪指标对股票市场预测准确性的影响。研究表明看涨指数(DBI)和简单情感指数(DSSI)与股票市场波动指标具有相关性,且同时考虑微博情绪指数和股票市场成交量指标的预测模型具有最高的预测准确率。
王亨杰[3](2013)在《关联规则挖掘在天猫商城中的应用研究》文中研究说明随着Internet技术的不断发展,电子商务这一现代商业模式以其高效率、低成本和不受时空限制的特点成为企业商务活动发展的趋势。而天猫商城是亚洲最大的电子商务交易平台,其拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已经超过了8亿件,是中国电子商务网站发展的奇迹。巨大数量的用户创造了巨大的交易数据,然而从这些繁杂的交易数据中我们能得到有价值的信息却相对较少,如何能从这些交易数据中获取有利于卖家商业运作以及制定营销策略的信息成为不容忽略的重要问题。关联规则挖掘(Association Rules Mining)是通过分析每个数据,从大量数据中寻找规律的技术。该技术的出现为电子商务行为提供了强大的数据分析支持,将关联规则挖掘技术应用到大量的、复杂的交易数据中去,才能体现出关联规则挖掘技术的研究价值,毫无疑问电子商务是数据挖掘应用的最佳对象。通过对交易数据的挖掘,如商品的交易数量,交易种类,交易时间等,提取相关的交易知识,将复杂,无序的交易数据,变成卖家分析市场,制定经营策略,管理客户关系的有力依据,从而实现电子商务活动的真正价值。论文讨论了关联规则挖掘中的主要算法之一,Apriori算法,分析了该算法在挖掘大量交易数据中的具体实现过程。通过记录大量的天猫商城交易数据,建立交易数据事务数据库,分别从买家和商品两个角度进行讨论,对实际数据进行算法应用分析,结合实例证明了该算法在电子商务数据应用关联规则挖掘中的有效性,并根据算法挖掘得到的关联规则,结合微博营销的方式,最终达到提升销售的效果。
琚春华,殷贤君[4](2012)在《基于兴趣度的数据流频繁模式散列挖掘算法》文中进行了进一步梳理频繁模式挖掘是很多数据流挖掘工作的基础.现有算法虽然能够有效的在数据流中挖掘近似的频繁模式,但是由于数据流数据的不确定性、连续性以及海量性,始终不能有效的将算法的时间效率和空间效率控制在一个可以接受的范围内.本文通过使用散列表作为概要数据的存储结构,并引入关联规则兴趣度的概念,提出了数据流频繁模式挖掘算法MIFS-HT(mining interesting frequent itemsets with hash table),不仅有效降低现有算法的时空复杂度,同时提高了算法的应用价值.最后,实验结果表明:MIFS-HT是一种高效的数据流频繁模式挖掘算法,其性能优于FPStream、LossyCounting等算法,并且挖掘结果更具有现实意义.
陈秋阳[5](2010)在《基于数据挖掘技术的精准营销系统的设计与实现》文中研究说明精准营销作为现代商业营销的新趋势,伴随着数据库、网络等计算机技术的发展,以其客户定位精准性、实现过程技术性和商业应用广泛性而备受企业的青睐。然而精准营销系统需要的技术投入往往使得很多中小企业望而却步,因此,设计并实现一个供中小企业进行低成本精准营销的平台是一项非常有意义的研究。与此同时,电信号码百事通系统作为沟通用户与企业的桥梁,积累了海量的呼叫记录数据,如何对记录数据进行有效的知识发现,是平台设计的基础。本文的精准营销系统(Precision Marketing System,PMS),正是基于为中小企业搭建精准营销平台的需求设计的。系统从电信系统获取呼叫记录数据,采用数据分析与关联规则挖掘技术处理数据,并设计了系统应用业务,依托电信独有的号码百事通平台,使得企业通过定制业务和服务,进行精准的客户定位,并通过短信、语音等方式进行低成本的营销。系统以客户感兴趣的所有行业分类构建事务数据库,选择单层布尔型关联规则挖掘方法,运用关联规则经典挖掘算法Apriori,计算得到关联行业规则,并应用挖掘结果,将企业的营销业务发展到相关联的行业用户中。此外,系统不断提取电信数据带来事务数据库的更新,从而引起关联规则增量挖掘问题。在研究了FUP、PFUP等增量挖掘算法后,针对FUP算法和PFUP算法面对大型数据库时单机运行遭遇效率瓶颈的问题,提出了基于并行计算的关联规则增量更新算法PPFUP,该算法在无共享的工作站上,通过划分局部频繁项集并分配到结点,采用并行思想处理原数据库和新增数据库的计算任务,降低单处理机内存压力。在系统实现方面,考虑到精准营销应用逐步丰富和业务逐步扩展的要求,设计了基于J2EE规范的B/S五层系统框架。系统采用跨平台的JAVA语言,数据库接口遵循JDBC规范,消息传递将遵循XML(eXtensible Markup Language),从而使未来系统可以平滑地升级并能与各种同样开放的未来系统相集成。
赵园园[6](2009)在《加权负关联规则挖掘技术的研究》文中认为关联规则的研究是数据挖掘的一个重要分支,已经引起很多学者的广泛关注。本文介绍了数据挖掘技术的相关知识,尤其是关联规则的挖掘,并介绍了基本概念及经典的算法。过去的研究往往认为数据库各个项目的重要程度是相同的。而事实上,用户对项目的看重程度是不同的。因此已有算法挖掘出来的并不一定是我们感兴趣的规则。针对这种情况,提出了加权关联规则。另一方面,有时候我们关心的是数据库中那些低频率强相关的规则,即负关联规则。由于在加权关联规则的基础上同时挖掘正负关联规则,会产生一些矛盾的和无意义的规则,因此,在传统支持度——置信度框架下,引入第三个参数删除冗余规则。提出了基于相关性挖掘正负加权关联规则的算法;基于兴趣度的加权正负关联规则的挖掘算法;基于卡方检验的加权正负关联规则挖掘算法。当数据库分布极不均匀时,上述对于关联规则的挖掘并不是有效的。因为出现频率较低的项目其支持度往往较低,因此很少被挖掘出来。针对这个问题,提出多支持度的模型,对于不同的事务采用不同的最小支持度阈值,更有效挖掘出用户感兴趣的规则。以上关联规则均在频繁项集中挖掘,但负关联规则更多的是存在于非频繁项集中。本人提出了一种生成非频繁项集的算法,并采用相关性作为度量删除负关联中的矛盾规则,该算法有效的挖掘出大量的负关联规则。将上面的数据挖掘理论应用到关联规则的发现中我们完成了相应算法的设计并且通过理论分析和实验模拟讨论了算法的性能,证明算法是可行的、有效的。
马修强[7](2009)在《多水平模型和关联规则联合研究胃食管反流病影响因素》文中研究表明研究背景:胃食管反流病(Gastroesophageal reflux disease,GERD)以烧心和反酸为主要的特征性症状,在西方国家人群中是一种常见的胃肠疾病。已有研究结果表明,亚洲人群的GERD发病率较西方人群低,但目前西方及亚洲人群的GERD发病率都呈现增长的趋势。GERD患者不仅容易合并其他食管合并症,而且患食管腺癌的危险也大大增加。GERD不仅使患者的生活质量受到显着影响,还给患者造成了较大的经济负担。因此,西方多个国家的研究者对于GERD发病情况及其影响因素进行了流行病学调查研究。然而,在中国,人们对于GERD的认知程度还比较低,对其危害还没有足够的认识;而针对GERD的基于中国一般人群采用国际标准化量表进行的高质量流行病学调查也非常有限。为了调查GERD在中国一般人群的症状患病情况,研究其影响因素的相关信息,我们在中国大陆进行了一项大规模的GERD流行病学调查。本调查采用多阶段分层随机抽样的方法和自填式的问卷调查方式,共在上海、北京、武汉、西安和广州五个城市获得有效调查问卷16078份。本调查收集的资料丰富,且数据存在明显的层次结构特征,并包含一定的缺失值。而传统统计方法对于此类数据的处理存在明显的局限性,如要求各观察值相互独立、无缺失值等。研究目的:为了克服传统统计方法的局限性,本研究探讨了联合应用关联规则和多水平模型,以更加科学、合理的分析和挖掘中国大陆GERD流行病学调查资料,研究和筛选GERD的影响因素,以提高人们对GERD的认知程度,为GERD的早期预防和治疗提供一定的理论依据。研究方法:关联规则挖掘算法作为数据挖掘中的一种经典算法,具有较强的处理不完整数据的能力,可以充分发现隐藏在数据中的未知的、新颖的模式,对数据的整体理解和进一步分析提供参考。采用关联规则挖掘算法不仅可以减少缺失值的影响,而且还可以发现那些潜在的影响因素,及其相互之间的关系和对GERD的联合作用,并为随后的多水平模型建模时解释变量的选择提供依据。多水平模型是国外近些年发展起来的处理多水平数据的一种多元统计方法,已广泛应用于多个领域。多水平数据的组群间具有一定的组间异质性,即存在一定的组内同质性,不符合多元线性回归等传统统计方法要求各观察单位相互独立的假设,而多水平模型则克服了传统统计方法的局限性,减少了估计偏倚。因此,本研究在关联规则初步挖掘出的GERD影响因素的基础上,采用多水平模型建模,以解决传统统计方法因忽略数据的层次结构所带来的问题,更科学的揭示GERD的影响因素。研究结果:本研究系统总结了关联规则挖掘的基本理论和主要算法,以及规则有趣性的度量方法。然后,利用SAS/EM中经典的Apriori算法进行了关联规则挖掘。规则产生后,首先采用模板匹配的方式进行规则的初步筛选,再通过将可信度的提高倍数定为0.05的方法进行多项规则的剪除,最后根据常用的客观度量指标的相关性分析结果,选择了Lift值、PS值、Interest值、Fitness函数、列联系数、Fisher确切概率6个度量指标进行规则有趣性的度量。根据最终选取的规则,本研究发现调查点、调查区域(城市、农村)、性别、年龄、吸烟、饮酒、婚姻状况、家庭月收入、职业、健康状况、文化程度、精神状况、体力活动或体育锻炼、胃肠疾病或肿瘤家族史等被调查者基本信息,部分既往患病史(如消化不良、慢性胃炎、风湿性关节炎、慢性咽喉炎、腹部手术史等),以及肠易激综合征、吞气症、非特异性肠功能紊乱等现患疾病对胃食管反流症状有影响。总之,本研究利用关联规则挖掘算法,不仅对GERD的影响因素有了初步的了解,而且为后续的多水平模型建模时解释变量的选择提供了参考。然后,本研究系统回顾了多水平模型的基本理论和建模步骤,以及残差自助法多水平模型的建模方法。通过对GERD流行病学调查数据结构特征的分析,最终确定以街道(乡镇)为水平2单位,以居民为水平1单位,拟合两水平的多水平模型。本研究通过“拟合空模型→将水平2解释变量“调查点”纳入空模型→采用前进法筛选纳入水平1解释变量→检验水平1解释变量的随机斜率→检验跨层交互作用”这五个步骤,建立了本研究的最终模型。另考虑到本研究水平2组群数相对较少,且水平1残差e ij不服从正态分布,不符合最大似然法的应用假设,故本研究又基于最终模型分别采用非参数和参数残差自助法进行模型拟合,以减少模型拟合造成的偏倚。研究结果表明,非参数法和参数法的拟合结果多数与原始样本比较接近,只是参数法的标准误相对较非参数法稍大,尤其是水平1残差方差σ? 2的标准误远远大于非参数法和原始样本,与我们的理论假设是一致的。原因在于,原始样本的水平1残差eij不服从正态分布,非参数法考虑了这一点,而参数法则假设其服从正态分布。总之,多水平模型分析结果显示,与广州相比,上海、北京和西安居民的GERD总评分没有明显的差异,而武汉居民的GERD总评分则相对较高,即表示武汉的GERD发病率在5个调查城市中相对较高;居民的总体健康状况越差,其GERD总评分越高,且其对GERD总评分的影响受到武汉与广州之间地域差异的影响;农村居民、文化程度越低、精神状况越差者更容易患GERD;另外,那些有胃肠道疾病或肿瘤家族史,既往患有胃炎、消化不良、风湿性关节炎,现患有肠易激综合征、吞气症的人,患GERD的可能性更大,而性别、年龄等因素,本研究未发现其与GERD有显着的关系。而上述结论中,除了未发现城市居民和农村居民在GERD发病方面有显着差异之外,非参数法和参数法的其他结论与原始样本基本一致。研究结论:本研究采用国际规范的标准化量表,在中国大陆进行了截至目前为止规模最大的一次GERD流行病学调查,建立了中国大陆GERD流行病学调查数据库,并深入分析了GERD的影响因素。结果表明,在调查的五个城市中武汉的GERD发病情况最重;农村居民、文化程度越低、健康状况和精神状况越差者,以及有胃肠道疾病或肿瘤家族史的人更可能患GERD;而那些既往患有慢性胃炎、消化不良、风湿性关节炎,现患有肠易激综合征、吞气症的人,同样也更可能患GERD。而性别、年龄、吸烟、饮酒、家庭收入、婚姻状况、职业、体力活动或体育锻炼等因素,以及慢性咽喉炎、腹部手术史和非特异性肠功能紊乱等疾病可能也与GERD有关联关系。总之,本研究首次将关联规则挖掘技术和多水平模型联合应用于GERD流行病学调查资料的分析,克服了传统统计方法的局限性,更科学的研究和评价了GERD的影响因素,提高了人们对于GERD的认知程度,为更好地防治GERD提供了一定的理论依据。而本研究所进行的多水平模型和关联规则挖掘技术的联合应用研究对于其他流行病学调查资料的分析在方法学方面亦有一定的参考价值。
张铁军[8](2009)在《关联规则挖掘的相关问题研究》文中指出关联规则挖掘是数据挖掘领域中一个重要研究方向,而频繁模式挖掘又是关联规则、时序模式挖掘等应用中的关键技术和步骤。然而,由于挖掘频繁模式内在的计算复杂性,为了提高挖掘效率,业界相继提出了频繁闭合模式挖掘和最大频繁模式挖掘问题。在规模上,频繁闭合模式和最大频繁模式均小于频繁模式。同时频繁闭合模式集可以唯一地确定频繁模式完全集以及它们的准确支持度,而最大频繁模式隐含了所有的频繁模式,并且在某些数据挖掘应用中仅需挖掘出最大频繁模式;另外,在实际挖掘应用中,由于事务数据库可能发生变化,而且用户还会调整最小支持度以满足新的需要,因此如何对挖掘结果进行更新是一个值得研究的问题;再有,针对关联规则新的度量标准—兴趣度的度量方法也是业界关心的一个热点问题。因此,对这些问题进行研究具有重要意义。本文主要研究了关联规则挖掘中的相关问题,主要包括以下内容:首先,提出了用于挖掘频繁闭合模式的FCI-Miner算法,以及挖掘最大频繁模式的BFP-Miner算法。两个算法均利用改进的FP-Tree来压缩存储数据库中的事务,并充分利用该树的特点,使得在挖掘频繁闭合模式和最大频繁模式的过程中不需产生条件FP-Tree和候选模式,从而减少了挖掘过程中使用的存储空间和计算时间,实验结果表明,算法具有较好的性能。其次,提出了用于解决最小支持度和数据库都发生变化的综合更新挖掘最大频繁模式问题的IUMFPA算法。该算法利用完全FP-Tree并通过调整最大频繁模式进行快速最大频繁模式更新挖掘,实验测试和分析表明,该算法有较好的时空效率。最后,针对当前基于支持度—置信度框架挖掘关联规则时所反映的不足,提出了一种能反映项目集之间相关性和稀有性的度量标准—兴趣度,通过其可用来发现数据库中支持度低,而置信度强和紧密性高的规则。通过实例分析说明了该度量标准在一些应用中的有效性和实用性。
朱孟杰[9](2009)在《基于改进FP-树的最大频繁项目集研究》文中提出数据挖掘是当今人工智能和数据库研究方面最富活力的领域之一。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则挖掘则是数据挖掘的一个最主要研究内容,而如何提高挖掘算法的效率是关联规则数据挖掘的核心问题。FP-growth算法是目前最有效的频繁模式(Frequent Pattern,FP)挖掘算法之一,由于其在挖掘最大项目集时要递归的生成大量的条件FP-树,存在时空效率不高的问题。本文通过研究,结合改进的FP-树,提出了一种快速挖掘最大项目集的算法。该算法利用改进的FP-树是单向的且每个节点只保留指向父节点的指针,可以节约了大量的存储空间;同时引入项目序列集和它的基本操作,使挖掘最大频繁项目集时不生成含大量的候选项目的集合或条件FP-树,可以快速的挖掘出所有的最大频繁项目集。实例分析算法是可行和高效的。敏感性关联规则的隐藏在当前数据挖掘领域中是一个重要的研究问题,目标是在保证敏感规则不被挖掘出的条件下,最大程度地保持原始数据集的其他特征。原有的方法基于对原始数据集中事务的修改,会产生大量的I/O操作。为了提高对敏感数据的保护程度和挖掘结果的准确性,本文利用FP-树存储了与事务数据库相关的全部信息,提出了一种快速隐藏敏感性关联规则的方法:首先快速挖掘出最大频繁项目集,确定敏感性关联规则,然后删去支持敏感性规则的频繁项目集,并对FP-树进行相应的更新,根据对更新的FP-树反向挖掘生成新的不包含敏感关联规则的事务数据库。实例和理论分析表明,该方法是正确和高效的。
张书茂[10](2009)在《关联规则改进算法在分布式系统中的研究与实现》文中提出在对关联规则的基本原理和方法进行介绍和分析的基础之上,得到了一种Apriori算法的改进算法——AprioriPrune算法。在对关联规则分布式挖掘算法CD算法,DD算法和FDM算法的介绍和分析基础之上,得到了在分布式系统下实现关联规则挖掘的两种方案,比较后,给出了分布式关联规则挖掘的系统实现方案,该系统基于C/S结构,主要由关联规则的局部挖掘模块和全局挖掘模块两个基本模块组成。验证了算法的有效性,采用设计实验的方法对关联规则挖掘系统进行了测试,实验结果表明该算法具有一定的适用性和较高的执行效率。
二、挖掘所关注规则的多策略方法研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、挖掘所关注规则的多策略方法研究(论文提纲范文)
(1)基于本体与关联规则的煤矿监控预警模型的设计与研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 本体理论及应用现状 |
1.2.2 关联规则的研究现状 |
1.2.3 煤矿安全监控技术的研究现状 |
1.3 研究方法 |
1.4 论文组织结构 |
1.5 本章小结 |
2 本体相关理论及技术 |
2.1 本体的基本概念 |
2.1.1 本体的定义 |
2.1.2 本体的构成 |
2.1.3 本体的分类 |
2.1.4 本体的功能 |
2.2 本体描述语言 |
2.2.1 基于AI的本体描述语言 |
2.2.2 基于Web的本体描述语言 |
2.3 本体建模方法 |
2.4 本体建模工具 |
2.5 本章小节 |
3 关联规则及改进的Apriori挖掘方法 |
3.1 关联规则挖掘简介 |
3.2 关联规则的定义 |
3.3 关联规则的挖掘过程和Apriori算法 |
3.4 改进的Apriori挖掘方法 |
3.4.1 Apriori算法的不足 |
3.4.2 Apriori挖掘方法的改进 |
3.5 算法描述 |
3.6 基于改进的Apriori挖掘方法进行关联规则挖掘 |
3.7 本章小结 |
4 煤矿监控预警模型的设计 |
4.1 需求分析 |
4.1.1 煤矿监控预警系统概述 |
4.1.2 煤矿监控预警模型的需求分析 |
4.2 Jena推理模型 |
4.2.1 Jena框架结构 |
4.2.2 Jena推理原理 |
4.3 模型设计 |
4.4 本章小结 |
5 煤矿监控预警模型的实现 |
5.1 煤矿监控预警本体构建 |
5.2 推理规则 |
5.2.1 自定义规则格式 |
5.2.2 推理规则的构建 |
5.3 模型实现 |
5.4 本章小结 |
6 结论与展望 |
6.1 结论 |
6.2 创新点 |
6.3 展望 |
参考文献 |
附录 2017年我国某煤矿监控系统中的部分监测数据 |
致谢 |
作者简介及读研期间主要科研成果 |
(2)基于多策略分类方法的微博情绪对股票市场影响研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 相关问题的国内外研究现状 |
1.2.1 投资者情绪内涵及测量指标研究 |
1.2.2 微博文本情感分析研究 |
1.2.3 股票市场预测研究 |
1.2.4 现有研究的评述 |
1.3 研究内容 |
第二章 微博股票投资情绪指数构建的多策略方法 |
2.1 微博股票投资情绪指数 |
2.1.1 微博股票投资情绪 |
2.1.2 情绪指数 |
2.2 基于多策略分类方法的微博股票投资情绪指数构建过程 |
2.3 微博股票投资情绪指数构建方法 |
2.3.1 两种文本建模方式 |
2.3.2 基于向量空间模型的特征选择 |
2.3.3 机器学习分类算法 |
2.3.4 分类评估方法与评价指标 |
2.3.5 最大投票机制 |
2.3.6 情绪指数计算方法 |
2.4 本章小结 |
第三章 微博股票投资情绪指数的实际构建 |
3.1 数据来源、获取及预处理 |
3.1.1 数据来源 |
3.1.2 数据获取 |
3.1.3 数据预处理 |
3.2 基于向量空间模型的分类 |
3.2.1 主客观分类 |
3.2.2 主观文本褒贬分类 |
3.2.3 分类结果 |
3.3 基于情感特征模型的分类 |
3.3.1 特征选择 |
3.3.2 微博文本情感特征表示 |
3.3.3 分类结果 |
3.4 基于最大投票机制的分类结果选择 |
3.5 微博投资者情绪指数建立 |
3.6 本章小结 |
第四章 微博股票投资情绪指数对股票市场波动的影响分析 |
4.1 研究过程和指标选择 |
4.1.1 研究过程与方法 |
4.1.2 指标选择 |
4.2 微博投资者情绪指数与股票市场指数相关性分析 |
4.2.1 平稳性检验 |
4.2.2 格兰杰因果检验 |
4.3 基于支持向量机的微博股票投资情绪指数对股市的预测效果分析 |
4.4 本章小结 |
第五章 结束语 |
致谢 |
参考文献 |
附录A 程序源代码 |
附录B 原始数据示例 |
附录C 情感词典 |
附录D 分析过程中数据 |
(3)关联规则挖掘在天猫商城中的应用研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.2.3 总结 |
1.3 研究内容 |
1.4 研究方法及创新点 |
1.5 科研项目支持 |
第二章 关联规则数据挖掘技术 |
2.1 数据挖掘 |
2.1.1 数据挖掘的基本概念 |
2.1.2 数据挖掘的任务 |
2.2 关联规则挖掘 |
2.2.1 关联规则挖掘的基本概念 |
2.2.2 关联规则的分类 |
2.2.3 关联规则挖掘的过程 |
2.2.4 关联规则挖掘算法 |
第三章 基于交易数据的关联规则挖掘 |
3.1 交易数据的潜在价值 |
3.1.1 交易数据的横向价值 |
3.1.2 交易数据的纵向价值 |
3.2 交易数据中的关联规则挖掘 |
3.2.1 理解商业目的 |
3.2.2 数据准备 |
3.2.3 算法选择 |
3.2.4 规则的产生和解释 |
第四章 实证分析 |
4.1 实证对象 |
4.2 数据处理 |
4.2.1 数据选择 |
4.2.2 数据清理 |
4.2.3 数据变换 |
4.3 数据挖掘 |
4.4 挖掘结果分析 |
第五章 针对关联规则的微博营销 |
5.1 现有营销方式及不足 |
5.2 微博营销 |
5.2.1 微博的概念 |
5.2.2 微博价值 |
5.2.3 微博营销的概念 |
5.3 关联规则挖掘和微博营销的结合 |
5.3.1 商家微博的建立 |
5.3.2 基于关联规则的微博营销 |
5.3.3 基于关联规则的微博营销模型 |
总结和展望 |
参考文献 |
攻读硕士学位期间发表论文 |
致谢 |
(5)基于数据挖掘技术的精准营销系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 项目背景 |
1.2 精准营销国内外发展现状及背景 |
1.2.1 精准营销的定义 |
1.2.2 精准营销在国内外的发展现状 |
1.2.3 精准营销的发展趋势 |
1.3 数据挖掘在精准营销领域的应用 |
1.4 本文的研究内容 |
第2章 J2EE技术平台的应用 |
2.1 J2EE开发平台 |
2.2 J2EE规范中MVC模式的应用 |
2.3 Struts框架技术实现的MVC模式 |
2.4 本章小结 |
第3章 关联规则挖掘技术研究 |
3.1 引言 |
3.2 关联规则挖掘技术 |
3.2.1 关联规则的定义 |
3.2.2 关联规则的分类 |
3.2.3 关联规则挖掘的过程 |
3.3 关联规则增量挖掘研究 |
3.3.1 增量挖掘问题处理方法 |
3.3.2 基于工程应用中大型数据库的改进算法 |
3.4 本章小结 |
第4章 精准营销系统功能分析与设计 |
4.1 系统设计目标 |
4.2 系统需求分析 |
4.3 系统应用业务设计 |
4.4 系统功能设计 |
4.4.1 用户自我管理模块 |
4.4.2 后台管理模块 |
4.4.3 营销管理模块 |
4.5 精准营销系统设计 |
4.5.1 系统可行性分析 |
4.5.2 系统总体设计 |
4.5.3 数据库设计 |
4.6 本章小结 |
第5章 精准营销系统的实现技术 |
5.1 基于Struts框架的系统实现 |
5.1.1 运行环境配置 |
5.1.2 基于J2EE规范的系统框架 |
5.1.3 数据库的访问 |
5.1.4 基于MVC模式的实现 |
5.2 数据分析与挖掘功能设计分析 |
5.3 数据分析与挖掘模块的实现 |
5.3.1 数据分析数据库设计 |
5.3.2 事务数据库设计与实现 |
5.3.3 数据准备 |
5.3.4 目标数据预处理 |
5.3.5 数据分析模块的实现 |
5.3.6 基于Apriori数据挖掘模块的实现 |
5.4 本章小结 |
第6章 总结及研究展望 |
6.1 结论 |
6.2 研究展望 |
参考文献 |
攻读硕士学位期间主要的研究成果 |
致谢 |
(6)加权负关联规则挖掘技术的研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 引言 |
1.2 加权正负关联规则研究背景 |
1.2.1 关联规则的研究背景 |
1.2.2 加权关联规则的研究背景 |
1.2.3 加权关联规则的研究现状及问题 |
1.3 本文的工作及创新点 |
1.3.1 本文的工作与内容组织 |
1.3.2 创新性工作 |
第2章 加权正负关联规则的挖掘 |
2.1 关联规则挖掘概述 |
2.1.1 关联规则的问题描述和基本概念 |
2.1.2 关联规则的分类 |
2.1.3 关联规则挖掘算法 |
2.2 加权关联规则概述 |
2.2.1 加权关联规则的概念 |
2.2.2 加权关联规则的算法与分析 |
2.3 加权关联规则算法的改进算法 |
2.3.1 加入权重后引出的问题及解决方法 |
2.3.2 规则生成中存在的问题 |
2.3.3 算法实现 |
2.3.4 实验分析 |
2.3.5 小结 |
2.4 负关联规则概述 |
2.4.1 负关联规则的研究背景 |
2.4.2 负关联规则的相关概念 |
2.4.3 负关联规则存在的问题及解决办法 |
2.4.4 负关联规则的算法研究 |
2.5 小结 |
第3章 基于相关性的加权正负关联规则挖掘算法 |
3.1 加权正负关联规则的提出 |
3.2 加权负关联规则中支持度与置信度的计算 |
3.3 相关性问题的提出 |
3.4 基于相关性的加权正负关联规则挖掘算法——PNWAR 算法设计 |
3.5 PNWAR 算法的验证性实验 |
3.6 小结 |
第4章 基于兴趣度及卡方检验的加权正负关联规则挖掘算法 |
4.1 问题的提出 |
4.2 兴趣度的引入 |
4.3 几种典型的兴趣度模型 |
4.3.1 基于差异思想的兴趣度模型 |
4.3.2 基于概率相关性的兴趣度模型 |
4.3.3 基于信息量的兴趣度模型 |
4.3.4 基于综合的兴趣度模型 |
4.4 基于兴趣度的加权关联规则挖掘算法的研究 |
4.4.1 基于兴趣度关联规则挖掘算法设计——PNIWAR 算法 |
4.4.2 算法的实验分析 |
4.4.3 小结 |
4.5 基于卡方检验的加权正负关联规则挖掘算法 |
4.5.1 χ~2 检验的研究现状 |
4.5.2 假设检验相关知识 |
4.5.2.1 假设检验的基本概念 |
4.5.2.2 假设检验的一般步骤 |
4.5.2.3 几种重要的假设检验方法 |
4.5.3 基于χ~2 检验的加权正负关联挖掘算法设计 |
4.5.3.1 χ~2 检验的定义 |
4.5.3.2 PNWC 算法设计 |
4.5.3.3 算法的实验验证 |
4.5.4 小结 |
第5章 基于多支持度的加权正负关联规则挖掘算法 |
5.1 多支持度的必要性分析 |
5.2 多支持度的相关概念 |
5.3 基于多最小支持度的加权负关联规则的挖掘算法的设计与实现 |
5.3.1 WPNMS 算法设计 |
5.3.2 实验结果分析 |
5.4 小结 |
第6章 非频繁项集中挖掘加权正负关联规则的研究 |
6.1 非频繁项集的提出 |
6.2 已有的非频繁项集挖掘算法研究 |
6.3 非频繁项集中挖掘加权正负关联规则的算法 |
6.3.1 非频繁项集的挖掘 |
6.3.2 非频繁项集中挖掘关联规则的算法WNRIF |
6.4 实验分析 |
6.5 小结 |
第7章 总结与展望 |
7.1 全文总结 |
7.2 展望 |
参考文献 |
致谢 |
在学期间主要科研成果 |
一、发表学术论文 |
二、其它科研成果 |
(7)多水平模型和关联规则联合研究胃食管反流病影响因素(论文提纲范文)
摘要 |
ABSTRACT |
缩略词表 |
第一部分 前言 |
一、研究背景 |
(一) 胃食管反流病 |
(二) 关联规则挖掘 |
(三) 多水平模型 |
二、研究内容与方法 |
(一) 研究内容 |
(二) 研究方法 |
(三) 研究目的与意义 |
(四) 资料来源、分析工具 |
第二部分 中国大陆GERD 流行病学调查 |
一、调查内容 |
(一) 被调查者的基本信息 |
(二) 反流性疾病问卷 |
(三) 简化的ROME II 组合问卷 |
二、调查过程 |
(一) 准备工作 |
(二) 抽样 |
(三) 质量保证机制 |
第三部分 关联规则挖掘基本理论、实现及规则有趣性的度量 |
一、关联规则挖掘基本理论 |
(一) 关联规则挖掘的基本概念 |
(二) 关联规则挖掘的分类 |
(三) 关联规则挖掘的主要算法 |
二、关联规则挖掘的实现 |
(一) 数据的预处理 |
(二) 参数的设置及规则的产生 |
(三) 规则的显示 |
三、关联规则的有趣性度量 |
(一) 主观度量 |
(二) 客观度量 |
(三) 常用的客观度量指标 |
第四部分 关联规则挖掘应用于GERD 影响因素分析 |
一、数据来源及数据的预处理 |
(一) 数据来源 |
(二) 数据的预处理 |
二、规则的产生及初步筛选 |
(一) 规则的产生 |
(二) 规则的初步筛选 |
(三) 多项规则的裁剪 |
三、规则有趣性的度量 |
(一) 度量指标的相关性分析 |
(二) 利用度量指标选取有趣的规则 |
四、小结 |
第五部分 多水平模型的理论框架 |
一、多水平模型的基本理论 |
(一) 多水平数据的基本形式 |
(二) 多水平模型的基本形式 |
(三) 模型估计及假设检验 |
二、多水平模型的建模步骤 |
(一) 运行空模型 |
(二) 将组水平解释变量纳入空模型 |
(三) 将水平1 解释变量纳入随机截距模型 |
(四) 检验水平1 解释变量的随机斜率 |
(五) 检验模型中的跨水平交互作用 |
三、自助法多水平模型 |
(一) 非参数残差自助法多水平模型 |
(二) 参数残差自助法多水平模型 |
第六部分 多水平模型研究GERD 影响因素 |
一、数据来源和变量描述 |
二、多水平模型的拟合 |
(一) 运行空模型 |
(二) 将水平2 解释变量纳入空模型 |
(三) 将水平1 解释变量纳入随机截距模型 |
(四) 模型中随机斜率的检验和确定 |
(五) 检验跨层交互作用,确定最终模型 |
三、残差自助法多水平模型的拟合 |
四、小结 |
第七部分 讨论 |
一、中国大陆GERD 流行病学调查的意义和必要性 |
二、关联规则挖掘进行胃食管反流症状影响因素分析 |
三、多水平模型研究应用于GERD 影响因素分析 |
四、GERD 影响因素综合分析 |
五、研究的特色和创新点 |
六、尚待继续探讨的问题 |
参考文献 |
致谢 |
综述 |
综述一:关联规则挖掘算法综述 |
综述二:多水平模型研究综述 |
附录1:反流性疾病问卷 |
附录2:简化的ROME Ⅱ组合问卷 |
附录3:SAS 程序 |
附录4:博士研究生期间公开发表的文章 |
(8)关联规则挖掘的相关问题研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 数据挖掘概述 |
1.1.1 数据挖掘的定义 |
1.1.2 数据挖掘的功能 |
1.1.3 数据挖掘的过程 |
1.1.4 数据挖掘的对象 |
1.2 数据挖掘的应用及发展趋势 |
1.2.1 数据挖掘的应用 |
1.2.2 数据挖掘的发展趋势 |
1.3 论文的工作 |
1.4 论文的组织 |
2 关联规则数据挖掘 |
2.1 关联规则概述 |
2.1.1 关联规则的基本概念 |
2.1.2 关联规则的分类 |
2.1.3 关联规则的挖掘步骤 |
2.2 频繁模式挖掘算法 |
2.2.1 频繁模式的基本概念 |
2.2.2 频繁模式的典型挖掘算法 |
2.2.3 频繁模式的研究状况 |
2.3 小结 |
3 频繁闭合模式挖掘算法 |
3.1 频繁闭合模式的概念和当前研究成果 |
3.1.1 频繁闭合模式的基本概念 |
3.1.2 当前研究成果 |
3.2 FCI-Miner 算法介绍 |
3.2.1 算法基本思想和描述 |
3.2.2 算法示例 |
3.3 算法的性能测试和分析 |
3.3.1 性能测试环境 |
3.3.2 FCI-Miner 算法性能测试和分析 |
3.3.3 FCI-Miner 算法的可扩展性实验 |
3.4 小结 |
4 最大频繁模式挖掘算法 |
4.1 最大频繁模式的概念和当前研究成果 |
4.1.1 最大频繁模式的基本概念 |
4.1.2 当前研究成果 |
4.2 BFP-Miner 算法介绍 |
4.2.1 算法基本思想和描述 |
4.2.2 算法示例 |
4.3 BFP-Miner 算法性能测试和分析 |
4.3.1 性能测试环境 |
4.3.2 BFP-Miner 算法性能测试和分析 |
4.3.3 BFP-Miner 算法的可扩展性实验 |
4.4 小结 |
5 最大频繁模式更新挖掘算法 |
5.1 关联规则更新挖掘概述 |
5.1.1 频繁模式的更新挖掘 |
5.1.2 频繁闭合模式的更新挖掘 |
5.1.3 最大频繁模式的更新挖掘 |
5.2 综合更新挖掘算法IUMFPA 介绍 |
5.2.1 算法基本思想和描述 |
5.2.2 算法示例 |
5.3 IUMFPA 算法性能测试和分析 |
5.4 小结 |
6 关联规则兴趣度研究 |
6.1 兴趣度描述 |
6.1.1 兴趣度的引入 |
6.1.2 兴趣度的研究状况 |
6.2 一种新的兴趣度度量方法 |
6.2.1 兴趣度定义及描述 |
6.2.2 算法示例 |
6.2.3 实验分析 |
6.3 小结 |
7 总结 |
7.1 本文总结 |
7.2 未来工作的展望 |
致谢 |
参考文献 |
附录 |
(9)基于改进FP-树的最大频繁项目集研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 数据挖掘概述 |
1.1.1 数据挖掘的产生发展 |
1.1.2 数据挖掘技术与应用 |
1.1.3 数据挖掘的数据来源 |
1.1.4 数据挖掘的主要过程 |
1.2 数据挖掘的热点与难点 |
1.3 本文研究的内容和意义 |
1.3.1 课题来源 |
1.3.2 本文研究的内容 |
1.3.3 本文研究的意义 |
1.4 论文结构 |
第2章 关联规则挖掘理论与分析 |
2.1 引言 |
2.2 关联规则挖掘理论 |
2.3 关联规则算法及分析 |
2.4 关联规则的深入研究 |
2.4.1 多层次关联规则 |
2.4.2 多维关联规则 |
2.5 本章小结 |
第3章 最大项目集算法与改进FP-树研究 |
3.1 引言 |
3.2 最大项目集挖掘算法研究 |
3.2.1 最大项目集挖掘算法及分析 |
3.2.2 ISS-DM 算法及分析 |
3.3 改进FP-树研究 |
3.4 本章小结 |
第4章 基于改进FP-树的最大项目集挖掘算法 |
4.1 引言 |
4.2 改进FP-树的深入研究 |
4.3 基于IFP-树的最大频繁项目集挖掘算法概述 |
4.4 基于IFP-树的最大频繁项目集挖掘算法实现 |
4.5 算法实例分析和比较 |
4.6 本章小结 |
第5章 基于FP-树的敏感性关联规则的隐藏 |
5.1 引言 |
5.2 算法基本思想 |
5.3 基于IFP-树的敏感性关联规则隐藏算法 |
5.4 算法实例分析 |
5.5 算法效率分析 |
5.6 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
(10)关联规则改进算法在分布式系统中的研究与实现(论文提纲范文)
中文摘要 |
英文摘要 |
第一章 引言 |
1.1 课题的研究背景及意义 |
1.2 国内外研究动态以及应用前景 |
1.3 本文的主要研究内容 |
1.4 本文的组织结构 |
第二章 关联规则挖掘 |
2.1 数据挖掘定义 |
2.2 数据挖掘的处理过程 |
2.3 数据挖掘系统基本框架 |
2.4 数据挖掘的相关技术 |
2.5 关联规则挖掘 |
2.6 关联规则挖掘的相关定义及性质 |
2.7 关联规则挖掘的分类 |
2.8 关联规则挖掘算法 |
2.9 本章小结 |
第三章关联规则算法分析及改进 |
3.1 APRIORI 算法 |
3.1.1 APRIORI 算法基本思想 |
3.1.2 APRIORI 算法实例分析 |
3.1.3 APRIORI 算法的特点 |
3.1.4 APRIORI 算法的不足之处 |
3.2 APRIORI 算法的改进 |
3.2.1 APRIORPRUNE 算法设计思路 |
3.2.2 HASH 函数 |
3.2.3 频繁2 项集的处理 |
3.2.4 分组表 |
3.2.5 预处理 |
3.2.6 APRIORIPRUNE 算法分析 |
3.2.7 APRIORIPRUNE 算法的复杂性分析 |
3.3 本章小结 |
第四章分布式关联规则挖掘的基本原理和方法 |
4.1 概况 |
4.2 分布式挖掘算法分析 |
4.2.1 CD 算法 |
4.2.2 DD 算法 |
4.2.3 FDM 算法 |
4.3 分布式系统下实现关联规则挖掘的两种方案 |
4.3.1 方案(一) |
4.3.2 方案(二) |
4.3.3 两种方案的比较 |
4.4 本章小结 |
第五章 分布式关联规则的系统实现 |
5.1 系统设计 |
5.2 系统运行过程 |
5.3 关联规则挖掘系统测试 |
5.4 本章小结 |
第六章 结论与展望 |
参考文献 |
致谢 |
在学期间发表学术论文和参加科研情况 |
四、挖掘所关注规则的多策略方法研究(论文参考文献)
- [1]基于本体与关联规则的煤矿监控预警模型的设计与研究[D]. 朱佳. 安徽理工大学, 2019(01)
- [2]基于多策略分类方法的微博情绪对股票市场影响研究[D]. 姚云露. 东南大学, 2017(04)
- [3]关联规则挖掘在天猫商城中的应用研究[D]. 王亨杰. 五邑大学, 2013(05)
- [4]基于兴趣度的数据流频繁模式散列挖掘算法[J]. 琚春华,殷贤君. 系统工程理论与实践, 2012(12)
- [5]基于数据挖掘技术的精准营销系统的设计与实现[D]. 陈秋阳. 浙江大学, 2010(08)
- [6]加权负关联规则挖掘技术的研究[D]. 赵园园. 山东轻工业学院, 2009(03)
- [7]多水平模型和关联规则联合研究胃食管反流病影响因素[D]. 马修强. 第二军医大学, 2009(10)
- [8]关联规则挖掘的相关问题研究[D]. 张铁军. 西安科技大学, 2009(07)
- [9]基于改进FP-树的最大频繁项目集研究[D]. 朱孟杰. 哈尔滨理工大学, 2009(03)
- [10]关联规则改进算法在分布式系统中的研究与实现[D]. 张书茂. 华北电力大学(河北), 2009(11)