监测数据的机器学习分类预测-专题定制-三峡大学图书馆

基于数据分类的高速铁路运营事故预测方法

高宁波胡启洲张兵郑丽媛

南京理工大学自动化学院南京210094华东交通大学土木建筑学院南昌330013

来源

维普期刊数据库

同方期刊数据库博看期刊超星期刊更多详细信息

A MACHINE-LEARNING METHOD TO INFER FUNDAMENTAL STELLAR PARAMETERS FROM PHOTOMETRIC LIGHT CURVES

Miller, A. A. Bloom, J. S. Richards, J. W. Lee, Y. S. Starr, D. L. Butler, N. R. Tokarz, S. Smith, N. Eisner, J. A.

CALTECH Jet Prop Lab Pasadena CA 91109 USACALTECH Pasadena CA 91125 USAUniv Calif Berkeley Dept Astron Berkeley CA 94720 USAUniv Calif Berkeley Lawrence Berkeley Natl Lab Div Phys Berkeley CA 94720 USAWise Io Berkeley CA 94704 USAChungnam Natl Univ Dept Astron & Space Sci Taejon 305764 South KoreaArizona State Univ Sch Earth & Space Explorat Tempe AZ 85281 USASmithsonian Astrophys Observ Cambridge MA 02138 USAUniv Arizona Steward Observ Tucson AZ 85721 USA

来源 ebsco(ASP/aph) 详细信息

关键词： methods: data analysis methods: statistical stars: general stars: statistics stars: variables: general surveys DIGITAL SKY SURVEY AUTOMATED SUPERVISED CLASSIFICATION HIGH-RESOLUTION SPECTROSCOPY VARIABLE-STARS RANDOM FORESTS CATALOG SELECTION BIAS II.

摘要： A fundamental challenge for wide-field imaging surveys is obtaining follow-up spectroscopic observations: there are >10(9) photometrically cataloged sources, yet modern spectroscopic surveys are limited to similar to fewx10(6) targets. As we approach the Large Synoptic Survey Telescope era, new algorithmic solutions are required to cope with the data deluge. Here we report the development of a machine-learning framework capable of inferring fundamental stellar parameters (T-eff, log g, and [Fe/H]) using photometric-brightness variations and color alone. A training set is constructed from a systematic spectroscopic survey of variables with Hectospec/ Multi-Mirror Telescope. In sum, the training set includes similar to 9000 spectra, for which stellar parameters are measured using the SEGUE Stellar Parameters Pipeline (SSPP). We employed the random forest algorithm to perform a non-parametric regression that predicts Teff, log g, and [Fe/H] from photometric time-domain observations. Our final optimized model produces a cross-validated rms error (RMSE) of 165 K, 0.39 dex, and 0.33 dex for T-eff, log g, and [Fe/H], respectively. Examining the subset of sources for which the SSPP measurements are most reliable, the RMSE reduces to 125 K, 0.37 dex, and 0.27 dex, respectively, comparable to what is achievable via low-resolution spectroscopy. For variable stars this represents a approximate to 12%-20% improvement in RMSE relative to models trained with single-epoch photometric colors. As an application of our method, we estimate stellar parameters for similar to 54,000 known variables. We argue that this method may convert photometric time-domain surveys into pseudo-spectrographic engines, enabling the construction of extremely detailed maps of the Milky Way, its structure, and history.

农业数据分类预测算法的研究

白玉彬

中国人民解放军信息工程大学

来源详细信息

关键词： 农业数据库数据挖掘分类预测程序语言

摘要： 目前，随着互联网的迅猛发展，农业网站也在不断进步，而农业网站中农业数据每天都以惊人的速度不断地持续增长。并且农业数据的种类丰富多彩，有宏观的农业数据、科技数据、市场数据和科学文化数据等。但是这些农业数据只是具有大量不确定的、不完整的、带有噪声以及冗杂数据的原始资料,无法直接为人们提供有价值的信息和知识。我们迫切需要一种技术帮助我们从茫茫无际的农业数据海洋中获取与农业生产、管理、经营相关的信息，从而做出正确的农业决策，引导农业高效生产。数据挖掘技术对数据进行深层次的分析与挖掘的一种技术,是伴随现代科学技术应运而生。因此，本文采用数据挖掘技术对农业数据进行有效的采集，进而深度分析数据，为用户提供方便的分类预测，为用户提供有利的农业决策，提高农业数据的利用率。\n 本研究主要内容包括：⑴介绍了农业网站中农业数据的特征以及对农业数据的使用现状，描述了数据挖掘技术的基本理论和思想，通过分析农业数据的特征和数据挖掘技术处理数据的思想,探讨了数据挖掘技术在农业方面的应用研究。⑵提出了加权的极限学习机分类算法。对基于朴素贝叶斯、支持向量机和极限学习机的农业数据分类预测算法的进行了分析和比较后，提出了的加权极限学习机分类算法，通过与极限学习机分类算法的实验对比，证明了其较好的分类效果。⑶设计了农业数据分类预测模型。分析农业数据分类预测流程，采用了基于缠绕法的农业数据属性筛选，进行对农业数据的预处理；通过分析作为数据源的农业网站的Web页面结构特征和HTML语言的结构特征，提出针对农业网站的Web页面提出用于抽取Web页面中相关农业数据的抽取算法，并应用于农业数据分类预测模型的设计。⑷实现了农业数据分类预测模型。采用C#编程语言，***技术完成农业数据分类预测模型中的分类预测模块，选择Visual Studio2013作为为前端开发环境，设计系统界面，并显示和输出价格预测结果。

基于机器学习方法的药物靶标挖掘研究

王腾蛟

国防科学技术大学

来源详细信息

关键词： 药物靶标机器学习树状贝叶斯蛋白质信号通路数据挖掘

摘要： 药物的发展历史甚久，中国古代就有神农尝百草的故事以及本草纲目等名著。从人类基因组计划基本完成的那一刻起，生物数据作为一种非物质的新型生产资料正在逐渐引发着生物医学的变革，新药的研发迈入了一个全新的阶段。近年来“大数据”概念受到越来越多的关注，而随着生物科技的不断进步，高通量测序技术得到快速发展，使得生命科学研究获得了强大的数据产出能力，海量产出了包括基因组学、转录组学、蛋白质组学、代谢组学等各种生物学数据。这些数据具有“4V”特点：数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)。如果能合理地收集，管理并利用好这样的生物数据，从中挖掘有用的生物信息，将对人类疾病的诊疗送来福音。为了提高新药研发的效率，给疾病患者尽早带来福音，作为新药研发的首要步骤，利用机器学习的方法挖掘潜在药物靶标已成为生物制药领域的研究热门。对此，本文完成了如下几个方面的研究工作：\n (1)基于蛋白质序列信息的潜在药物靶标预测研究。尽管研究者已经总结出了部分药物靶标的特征，但是药物靶标的完整特征仍在摸索阶段。而药靶蛋白质的序列信息只依赖于测序技术，相对于各种生物假设是独立的。因此利用蛋白质的序列信息预测潜在的药物靶标，能够避免对于药物靶标生物假设的片面性和盲目性。本文首先从细胞组件，分子功能以及生物过程三个方面，对载体、转运以及酶三类药靶蛋白质进行了对比分析，从而确保了三组已知药物靶标蛋白质数据可以作为一个正面训练集整体进行机器学习的可行性。进一步采用较为成熟的计算软件，基于蛋白质的序列信息提取了多种物化属性作为特征集。接着设计了两种策略从蛋白质样本的测试集中提取分类器所需要的阴性数据集，并使用三种核函数对训练数据进行学习，比较了三种支持向量机核方法的分类性能。第一种策略的特点是“不放过”测试集中的潜在的药物靶标。第二种策略的特点是对于测试集中潜在的药物靶标“不选错”，两种策略各有优势。本文结果表明在对药靶蛋白质进行大批量筛选时，推荐使用第一种策略。而对药靶蛋白质进行精选时，推荐使用第二种策略。最后分析了预测的药物靶标蛋白质中具有富集效应的通路，并在通路中标出了具有研究意义的靶点，这些靶点对于药物开发具有一定的研究价值。\n (2)基于经典贝叶斯分类方法提出了一种新的分类方法BFC(Bayesian Forest Classifier)。首先分析了基于贝叶斯分类方法的分类器的研究现状，着重介绍了朴素贝叶斯分类器与贝叶斯网络分类器的原理，并指出现有方法在处理有限样本多维特征数据方面的不足。然后基于朴素贝叶斯的框架提出了一种新的多树结构的贝叶斯分类器BFC。BFC利用隐变量分类模型的策略建立协变量间相互依赖的关系。首先把协变量按照他们与分类变量之间的关系以及变量互相之间的关系分成四个大组。在协变量互相之间有关联的组中，再采用树状模型又把这些互相关联的协变量不断划分重组为子组块，从而最终实现协变量的有效分类。利用细节平衡的MCMC采样步骤时，这种树组策略在仿真数据和实际应用中都能够取得很好的效果。本文进一步从理论上证明了算法中所设计的MCMC采样的细致平衡性。最后通过三组仿真实验以及15组真实基准数据测试了BFC的分类能力，并与11种常用的分类方法细致的比较研究。新的分类方法不仅可以用在药物靶标的筛选、蛋白质调控关系的预测等方面，而且在机器学习与模式识别的各个领域都能有广泛的应用。\n (3)基于蛋白质序列信息以及蛋白质互作用网络的拓扑特征的潜在药物靶标挖掘研究。本文从三种视角对药物靶标蛋白质的拓扑属性进行了分析：药靶蛋白质作为网络的中介，药靶蛋白质作为信号源以及药靶蛋白质的群簇特征。总共比较了网络的节点度、介数、平均距离、偏心距、聚类系数、核数以及社区性等7个拓扑特征。发现药靶蛋白质在6、9、12、18核的子网络中具有较高的全局比，在偏心距为7、8、9的位置具有较高的概率密度，与药靶蛋白质相互作用的蛋白质也都存在于较高连接度的群簇，对于这些特征的分析有助于从系统的角度进一步理解药物靶标的作用机理。本文进一步利用网络特征从测试蛋白质集合中提取阴性训练集，比较了三种分类器(SVM、AdaboostBayes以及BFC)对训练数据的分类性能，从测试集中预测得到了102个潜在的药物靶标。最后对预测得到的药靶中富集显著的通路进行了分析，并在通路中标出了具有进一步实验价值的相关靶点。\n (4)提出了一种针对信号通路中蛋白质间激活与抑制调控关系的预测方法。药物与靶标蛋白质相结合，通过靶标蛋白质对其他蛋白质的相互作用对整个信号通路起到调节的作用。因此，对于信号网络中蛋白质调控关系的研究有助于发现新的药靶蛋白质。本文给出了信号通路研究的数据资源，并介绍了基因本体以及蛋白质结构域两组数据资源以及其特点

基于机器学习方法的城市对外客运交通需求预测研究

刘俊涛

哈尔滨工业大学

来源

同方学位论文库详细信息

关键词： 对外客运需求机器学习降噪自编码随机森林

摘要： 城市对外客运交通需求预测是城市开展城市综合交通系统规划与设计的基础工作,合理准确的交通需求预测可为城市的对外客运枢纽系统选址、布局、方案比选等工作提供数据支撑,实现既满足城市居民出行需求,又节约项目建设资金的目标。由于对外客运需求预测研究中相关影响因素之间存在日趋增加的相关性关系以及统计数据中的异常值等原因,传统的时间惯性与相关因素原理预测模型表现欠佳。近几年由于社会统计工作的逐渐完善,可供选择研究统计数据不断积累增多,为学者使用新型方法进行研究提供了相关基础。本文采用机器学习中降噪自编码、随机森林两种方法进行交通需求预测,以缓解浅层机器学习方法在交通需求预测问题中的不足。首先引入深度学习理论中降噪自编码方法:降噪自编码方法通过数据的逐层自编码、解码过程获得良好的交通需求预测网络初始化参数,使得网络初始总体损失值较优,缓解了浅层需求预测方法的局部极值与梯度弥散问题。此外人工主动随机噪声,迫使网络在输入包含噪声的情况下重构原始输入,进而训练所得交通需求预测网络鲁棒性、泛化能力更强,不易过拟合。另外考虑对外客运出行需求的相关影响因素间的关联性和时间惯性,将时间序列数据研究中的窗口滑移与机器学习中的随机森林方法相结合,提出时间窗-随机森林组合方法的对外客运总体需求预测方法。随机森林方法在训练过程中共进行两重随机过程,第一重随机为在宏观交通相关数据总体训练样本中随机抽取部分样本训练决策树模型,未被抽取数据用以评价所得交通需求决策树预测模型泛化性能,多次随机抽样获得多颗决策树构成交通需求预测森林模型;第二重随机为在单棵决策树节点分裂过程中随机选取部分属性。两重随机过程使得模型过度拟合特定样本的概率大大减少,预测模型的泛化性增强。同时以北京市宏观经济影响因素数据集为基础进行实例分析,模型精度良好,验证了方法的可行性和有效性,可运用于对外客运需求预测工作。本研究侧重基于机器学习方法的对外客运需求预测,分别从方法由来、数学原理与方法实现等方面进行了详细阐述,可对省份、城市等范围区域进行交通运输发展规划研究工作提供参考与借鉴。对机器学习理论与交通问题的结合有着积极的作用。

A machine learning approach for planning valve-sparing aortic root reconstruction

Hagenah, J. Scharfschwerdt, M. Schlaefer, A. Metzner, C.

Institute for Robotics and Cognitive Systems University of Lübeck GermanyDepartment of Cardiac Surgery University Hospital Schleswig-Holstein Lübeck GermanyInstitute of Medical Technology Technical University Hamburg-Harburg Germany

来源 EI-期刊德古意特期刊

详细信息

面向疾病智能诊断的机器学习方法研究

王冉冉

华东交通大学

来源详细信息

关键词： 智能诊断机器学习疾病诊断模型支持向量机优化方法

摘要： 研究疾病智能诊断模型，对提高疾病诊断的正确性、实时性，减轻医务人员的劳动强度，具有十分重要的意义。机器学习方法不仅可以对医疗检测出的数值结果进行主动学习，而且能在繁杂模型中快速的做出智能决策。近年来，机器学习方法被广泛应用于各种医疗诊断系统。然而，并非单一的机器学习方法在对未知数据进行预测时就能达到较高的泛化能力，在机器学习算法应用中，还需要综合考虑多种技术的融合和优化。　　论文在研究机器学习和疾病诊断方法的基础上，重点研究了以支持向量机(SVM)为基础的疾病诊断模型及其优化方法，主要研究内容和工作成果如下：　　1、对传统的机器学习诊断系统进行了深入分析，考虑到疾病数据具有不平衡、冗余和高维特性，研究了数据预处理，降维及不平衡数据处理方法，以典型分类方法为基础，分别建立了基于决策树与SVM的乳腺癌诊断模型，试验结果表明，SVM诊断方法表现了更好的预测性能。　　2、针对SVM的性能易受其超参数(如惩罚因子C和RBF核的核宽γ)影响，将网格参数寻优算法引入到SVM的诊断模型。考虑到网格参数寻优的低效性和敏感性，利用智能计算技术，分别设计了基于遗传算法(GA)和粒子群优化算法(PSO)的SVM诊断模型。实验结果表明该类模型可以有效地筛选出最重要的致病特征，准确地对乳腺癌病情做出诊断。　　3、集成学习因其能显著提高一个学习系统的泛化能力而得到了机器学习界的广泛关注。利用Adaboost方法改变样本分布，获得一组具有差异性的基分类器，从而建立基于Adaboost的SVM集成诊断模型，并设计了实验验证。另外，在分析集成学习及选择性集成方法缺陷的基础上，尝试从准确性与多样性二者均衡的角度，对集成系统质量评价问题展开研究，提出了一种新的评价策略FDA（F-Measure based on Diversity and Accuracy，FDA），该策略源于信息检索F值均衡思想，为有效提高集成系统泛化能力提供了参考。　　本文所提出的三种智能疾病诊断模型，都分别在UCI数据资源库中的疾病数据集上得到了验证。

CLASSIFICATION OF P-GLYCOPROTEIN-INTERACTING COMPOUNDS USING MACHINE LEARNING METHODS

Prachayasittikul, Veda Worachartcheewan, Apilak Shoombuatong, Watshara Prachayasittikul, Virapong Nantasenamat, Chanin

Mahidol Univ Fac Med Technol Ctr Data Min & Biomed Informat Bangkok 10700 ThailandMahidol Univ Fac Med Technol Dept Clin Microbiol & Appl Technol Bangkok 10700 ThailandMahidol Univ Fac Med Technol Dept Clin Chem Bangkok 10700 Thailand

来源 ebsco(ASP/aph) 详细信息

关键词： P-glycoprotein ADMET multidrug resistance QSAR data mining MULTIDRUG-RESISTANCE DRUG DISCOVERY INHIBITORS MODELS CANCER TRANSPORTER PHARMACOKINETICS MECHANISMS PREDICTION DOCKING

摘要： P-glycoprotein (Pgp) is a drug transporter that plays important roles in multidrug resistance and drug pharmacokinetics. The inhibition of Pgp has become a notable strategy for combating multidrug-resistant cancers and improving therapeutic outcomes. However, the polyspecific nature of Pgp, together with inconsistent results in experimental assays, renders the determination of endpoints for Pgp-interacting compounds a great challenge. In this study, the classification of a large set of 2,477 Pgp-interacting compounds (i.e., 1341 inhibitors, 913 non-inhibitors, 197 substrates and 26 non-substrates) was performed using several machine learning methods (i.e., decision tree induction, artificial neural network modelling and support vector machine) as a function of their physicochemical properties. The models provided good predictive performance, producing MCC values in the range of 0.739-1 for internal cross-validation and 0.665-1 for external validation. The study provided simple and interpretable models for important properties that influence the activity of Pgp-interacting compounds, which are potentially beneficial for screening and rational design of Pgp inhibitors that are of clinical importance.

基于规则与机器学习方法的中文微博情感分析研究

沈磊

安徽大学

来源

同方学位论文库详细信息

关键词： 中文微博情感词典情感分析多特征融合类序列规则主题模型

摘要： 在当今互联网高速发展的时代下,社交网络和移动终端技术的快速发展,兴起了很多社会媒体和社交网站平台,而微博就是其中最为流行的一种社交网络平台。微博作为一种社交网站的主要媒体形式,它短小、精悍、快捷,越来越受到人们的喜爱。人们也越来越倾向于通过微博获取新闻、评论、娱乐、知识学习等信息,不知不觉间,微博对网络舆情的传播施加了越来越重要的影响。由于用户热衷于通过微博来表达观点、态度和情感等,所以挖掘这些微博信息的情感对于政府的舆情监控、商家的市场分析、用户评论的分析与决策等等有着十分重要的意义。传统的微博情感分析即对短文本的情感分析,仅仅是将微博文本进行倾向性判断,最终只分析出微博的情感倾向性是褒义、中性还是贬义。由于微博短文本语言的特殊性,它与一般普通的文本不同,常常会出现极其简短、口语化、语法不规范、网络新词频繁出现等现象。因此,针对微博语言的这些现象,对微博进行更细粒度的研究显得尤为重要。本文将微博情感分为高兴、喜欢、生气、厌恶、恐惧、悲伤和惊讶七大类,分别使用基于词典与规则结合的语义加权方法和基于有监督的机器学习方法对选取的微博文本进行细粒度的情感分类,对微博文本的情感分析工作分为主题相关的情感分析和主题无关的情感分析。本文的主要研究内容如下：(1)对微博文本中的语言特点现象进行了研究,针对这些现象分析微博文本中各种对后面分类有利的特征,并介绍了目前情感分析的研究基础和现状,有关情感分析的国内外评测会议和情感分析的应用研究。(2)设计构建了文本的中文微博情感词典,情感词典的类别包括高兴、喜欢、生气、厌恶、恐惧、悲伤和惊讶七大类;除此之外,还构建了网络新词词典、程度副词词典、连词词典和表情符号的扩展。情感词典是以大连理工大学情感词汇本体为基础,对其进行扩充,并进行了基于大连理工大学的情感词典和文本词典的实验对比,实验结果证明了本论文构建的词典效果更好。(3)以构建的词典为基础,文本使用了基于词典与规则结合的语义加权算法对微博进行情感值的加权,以此作为基于词典与规则的方法,并与后面基于机器学习的方法进行对比。(4)本文提出一种基于类序列规则的多特征融合的情感分析方法。利用基于词典和传统SVM两种方法得到微博各个句子的两个标签,将微博文本表示成为序列形式,结合连词挖掘其中的序列规则作为特征再对分类器进行训练,最终利用提取的情感词特征、标点符号特征、句子结构特征和类序列规则特征进行训练,经过参数调节后得到分类效果较好的分类器。(5)针对主题相关的微博数据,还考虑到提取主题特征对训练的影响,实验证明,通过主题模型得到的概率分布作为特征也能提升最终的分类效果。(6)本文采用的数据集是COAE(中文倾向性分析评测)2014会议上提供的微博数据。训练数据包含4000条微博和14526个句子,测试集包含5000条微博和16785个句子,每条微博的情感类型均已被标注,所有的这些微博文本均来自新浪微博。最后进行了各种方法的实验对比。

Machine Learning Approaches for Early DRG Classification and Resource Allocation

Gartner, Daniel Kolisch, Rainer Neill, Daniel B. Padman, Rema

Carnegie Mellon Univ H John Heinz Coll 3 Pittsburgh PA 15213 USATech Univ Munich TUM Sch Management D-80333 Munich GermanyN Carolina State Univ Edward P Fitts Dept Ind & Syst Engn Raleigh NC 27695 USA

来源 EI-期刊 ebsco(BSP/buh) ebsco(ASP/aph) 详细信息

关键词： machine learning diagnosis-related groups attribute selection classification mathematical programming FEATURE-SELECTION VISUALIZATION

摘要： Recent research has highlighted the need for upstream planning in healthcare service delivery systems, patient scheduling, and resource allocation in the hospital inpatient setting. This study examines the value of upstream planning within hospital-wide resource allocation decisions based on machine learning (ML) and mixed-integer programming (MIP), focusing on prediction of diagnosis-related groups (DRGs) and the use of these predictions for allocating scarce hospital resources. DRGs are a payment scheme employed at patients' discharge, where the DRG and length of stay determine the revenue that the hospital obtains. We show that early and accurate DRG classification using ML methods, incorporated into an MIP-based resource allocation model, can increase the hospital's contribution margin, the number of admitted patients, and the utilization of resources such as operating rooms and beds. We test these methods on hospital data containing more than 16,000 inpatient records and demonstrate improved DRG classification accuracy as compared to the hospital's current approach. The largest improvements were observed at and before admission, when information such as procedures and diagnoses is typically incomplete, but performance was improved even after a substantial portion of the patient's length of stay, and under multiple scenarios making different assumptions about the available information. Using the improved DRG predictions within our resource allocation model improves contribution margin by 2.9% and the utilization of scarce resources such as operating rooms and beds from 66.3% to 67.3% and from 70.7% to 71.7%, respectively. This enables 9.0% more nonurgent elective patients to be admitted as compared to the baseline.

科研专题资源库更多>>

监测数据的机器学习分类预测

限定内容

核心刊收录

日期分布

学科分类号

主题

机构

作者

语言

专题定制

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

科研专题资源库 更多>>

监测数据的机器学习分类预测

限定内容

核心刊收录

日期分布

学科分类号

主题

机构

作者

语言

专题定制

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

科研专题资源库更多>>