监测数据的机器学习分类预测-专题定制-三峡大学图书馆

Adaptive Machine Learning Approaches to Seasonal Prediction of Tropical Cyclones

Michael B. Richman Lance M. Leslie

The University of Oklahoma Norman OK 73072 USA

来源

ElsevierScienceDirec...

详细信息

关键词： Prediction Kernel Methods Support Vector Regression Cross-Validation Tropical Cyclones

摘要： Tropical cyclones (TCs) are devastating phenomena that cause loss of life and catastrophic damage, owing to destructive winds, flooding rains and coastal inundation from storm surges. Accurate seasonal predictions of TC frequency and intensity are required, with a lead-time appropriate for preemptive action. Current schemes rely on linear statistics to generate forecasts of the TC activity for an upcoming season. Such techniques employ a suite of intercorrelated predictors; however, the relationships between predictors and TCs violate assumptions of standard prediction techniques. We extend tradition linear approaches, implementing support vector regression (SVR) models. Multiple linear regression (MLR) is used to create a baseline to assess SVR performance. Nine predictors for each calendar month (108 total) were inputs to MLR. MLR equations were unstable, owing to collinearity, requiring variable selection. Stepwise multiple regression was used to select a subset of three attributes adaptive to specific climatological variability. The R 2 for the MLR testing data was 0.182. The SVR model used the same predictors with a radial basis function kernel to extend the traditional linear approach. Results of that model had an R2 of 0.255 (∼ 40% improvement over linear model). Refinement of the SVR to include the Quasi-Biennial Oscillation (QBO) improved the SVR predictions dramatically with an R2 of 0.564 (∼ 121% improvement over SVR without QBO).

机器学习方法学创新研究及其在SSRF生物医学数据理解中的应用

王靖琰

中国科学院研究生院

来源详细信息

关键词： 蛋白质组学医学成像机器学习上海同步辐射光源医学图像数据

摘要： 上海同步辐射光源(Shanghai Synchrotron Radiation Facility,SSRF)是一台高性能的第三代同步辐射光源,是我国迄今为止最大的科学研究装置和公共实验平台。利用上海同步辐射装置的高亮度、短波长的同步辐射光在空间分辨上的优势,将可以进行许多前沿学科的探索,尤其是生命科学领域。利用BL17U—生物大分子晶体学光束线站,生物学家能获得生物大分子的三维结构,进而研究其结构与功能之间的关系;而利用BLl3W1一X射线成像及生物医学应用光束线站,医学家则可以揭示活体肿瘤和脑血管病的发生和发展机制,为发展重大疾病的早期诊断与治疗提供关键理论基础和技术支撑。\n 目前利用上海光源已经产生了大量的蛋白质和医学图像数据,单纯地利用传统的生物和医学实验方法,或者根据专家经验将很难快速且全面的处理如此多的数据,从而必然制约了上海光源在生命科学领域应用的快速发展。在这种情况下,利用计算机自动的理解这些数据的生物信息学和医学图像处理应运而生。\n 本文中讨论利用机器学习的方法,对这些蛋白质结构和医学图像数据进行分类、检索以及相关特性的预测。旨在运用机器学习的理论和方法来研究蛋白质结构与功能特性,以及医学影像和疾病特点之间的内在联系,在已有数据的基础之上发现相应的规律和知识并进而用来进一步指导与解释新产生的蛋白质和医学影像,加速对生命本质特征的认识。本论文在机器学习及生物信息学、医学图像理解理论与方法上进行了深入的研究与探索。分别提出了新颖的医学图像检索,基于医学图像的组织分类,蛋白质数据库检索,以及蛋白质折叠类心预测算法。相关成果发表于顶级期刊Pattern Recognition,BMCBioinformatics和IIEEE Transactions on Medical Imaging等期刊上。论文的主要内容和创新点如下:\n 1.基于内容的医学图像检索指的是,给出一幅医学图像,系统根据图像的内容相似度,从数据库中检索出若干相似的医学图像。这对医学研究人员和医生判断医学图像所隐含的疾病信息很有帮助。基于“特征袋”这一图像表达模型,对医学图像的局部特征量化分配问题进行了创新研究,并应用于医学图像检索。建立了局部特征到量化的视觉词典的贡献函数,并基于二次规划方法,提出了一种新的分配侧率QP分类。进一步地,对视觉词的加权进行了研究,提出了为每个视觉词构建弱分类器,再通过AdaBoost算法学习每个视觉词权值的算法。\n 2.医学图像中的组织进行自动分类,对医疗诊断和研究有着重要的意义。我们提出了利用基于“特征袋”方法的组织分类方法。“特征袋”方法最重要的两个环节就是视觉词典的学习,以及视觉词的加权。虽然目前针对这两个问题有很多研究,但是都是相互独立的。而实际上他们存在着密切的联系。我们提出了视觉词典及其加权矢量的联合学习算法,在一个目标函数中统一这两个参数,并且在算法中迭代地优化。\n 3.蛋白质数据库检索,或者蛋白质的最近邻分类,指的是给出一个查询蛋白质,从数据库中找出若干性质(如折叠类型)相同的蛋白质。这以过程中关键的步骤就是如何定义“相似度”的问题。传统的相似测度只考虑了两个蛋白质,而最近提出的上下文敏感的相似测度则可以同时考虑数据库中的其他样本。我们通过定义“参考集合”来考察到底数据库中的哪些样本会起到影响的作用。进而提出了最短路径传播算法,指出两个蛋白质之间的最短路径上的蛋白质起到的作用最大。\n 4.目前为止,所有的上下文相关的相似度学习都未用到数据库中蛋白质的类别标号(如折叠类型的标号)。这阻碍了这一领域的发展。我们创造性的提出了利用蛋白质类别标号的监督式上下文敏感的相似度学习方法。利用数据库中的同类蛋白质对(相关的),以及异类蛋白质对(无关的),我们计算他们的上下文相似度矢量,来训练一个SVM模型来对一对未知的蛋白质对的相似度进行规整,得到新的相似度。而基于新的相似度,我们又重新确定他们的上下文。如此,我们提出了新的上下文敏感相似度计算方法。\n 5.最后,我们利用我们提出的机器学习的方法,对上海光源产生的医学图像和蛋白质结构进行了检索和分析的示例。对BLl3W1一X射线成像及生物医学应用光束线站城乡形成的肺癌图像,进行了数据库检索试验。对BL17U-生物大分子晶体学光束线站产生的蛋白质结构数据3EOP,进行了数据库检索和折叠类型预测的实验。实验结果证明我们提出的算法能有效应用于SSFR数据的分析。

基于稀疏性的机器学习方法研究

韩月

西安电子科技大学

来源详细信息

关键词： 稀疏中心核图矩阵半监督分类核低秩编码子空间分割

摘要： 随着信息技术的飞速发展，机器学习已经发展成为当前人工智能领域的研究热点之一。稀疏性理论已被成功应用于许多机器学习方法中。核学习和谱图理论易于理解且具有较强推广能力，是当今机器学习领域的热点问题。本文将稀疏性引入到核函数的构造和图矩阵的构造问题中，构造了几种稀疏学习算法，采用标准测试问题验证了其性能。研究内容主要包括以下几方面：\n (1)在现有的稀疏编码分类算法的基础上，提出一种稀疏中心核编码分类算法。该方法首先通过k近邻思想在字典中选择中心样本，然后利用所有中心样本构造稀疏核函数，将字典和测试样本通过稀疏核函数映射至特征空间，最后在特征空间内对映射后的测试样本进行稀疏编码，利用得到的稀疏系数和误差判别函数进行分类。由于核映射时使用的是稀疏核函数，既增强了数据的可分性又减少了计算核函数的次数，使得该算法既能达到较高的识别精度，又能减少识别消耗时间。在常用的标准人脸数据库和手写体数字数据库上进行的仿真实验验证了该算法的有效性。\n (2)提出了一种基于核l1图的半监督分类算法。在现有的l1图方法的基础上，通过引入核的思想，使得线性不可分的样本在特征空间内变得线性可分。将核l1图方法构造的图矩阵与半监督分类方法结合，构造了基于核l1图的半监督分类。由于获得的图矩阵增强了同类样本间的相似性以及不同类样本之间的差异性，因此在后续分类中可获得更高的分类正确率。在标准人脸数据库和手写体数字数据库上进行实验仿真，结果显示：与同类算法相比，分类正确率有明显提高。\n (3)提出了一种基于核低秩编码的子空间分割算法。在该算法中，先通过核函数将样本集合映射至特征空间，再对新的样本集合联合求解得到低秩编码系数矩阵，从而构造无向图进行谱聚类。由于核映射加强了数据的可分性，使得后续子空间分割争取率有所提高。在人工数据集、标准的人脸数据库和手写体数据的实验仿真表明：该算法与现有方法相比，分割正确率有所提高且对噪声具有鲁棒性。

基于机器学习方法的MHC结合肽的预测分析研究

梅慧赵文光朱晓巍凌宏立杨昱

广州中医药大学广东广州510006

来源

维普期刊数据库超星期刊

同方期刊数据库详细信息

基于机器学习方法的药物不良反应预测

王昊

厦门大学

来源详细信息

关键词： 机器学习药物不良反应呼吸困难新药开发特征向量贝叶斯网络模型

摘要： 严重药物不良反应(Severe Adverse Drug Reaction,SADR)是新药开发中导致药物失败的一个主要因素。当前,评估严重药物不良反应的方法主要是通过临床实验的方法进行的。这样会给患者造成不必要的痛苦并且花费巨大。因此,在药物开发的早期阶段开发一个可行的方法能够对候选药物分子进行严重药物不良反应的评估是非常有必要的。在本次研究中,我们利用机器学习(Machine Learning,ML)方法来进行药物不良反应的预测。\n 在这次研究中,我们选择了一个普遍发生的致命严重不良反应—呼吸困难(Dyspnea)作为一个方法性探索的实例来构建一个药物不良反应的预测模型。我们搜集了1168个上市药物结构和其相关的药物不良反应信息。搜集到的每一个药物分子结构都通过MOE QSAR描述符模块将其转成包含成333个描述符作为建模的特征向量。经过特征提取总共有152个分子描述符被选出与所研究的严重不良反应—呼吸困难有较强的关联性。基于这些分子描述符,我们使用3种优秀的并且比较成熟的算法分别构建了3个独立的预测模型。然后,我们利用十重交叉验证对着三个模型的预测性能进行评估。三个模型的总体预测准确率均高达82%。对于预测性能最佳的贝叶斯网络模型,我们利用外部测试集对其进行了进一步的评估。经过对预测后的结果分析,我们发现贝叶斯网络预测模型对导致呼吸困难发生频率在1%以上的药物的预测预测准确率可以达到86.76%。此外,预测模型在非处方药(Over The Counter,OTC)的总体预测准确度也能达到80.00%。在利用Y-randomization对模型的评估中发现所建立的模型并没有偶然关联性。经过我们的研究分析,我们认为我所构建的机器学习模型能够作为一个有效的工具在药物开发的早期阶段进行药物安全性的评估。

基于高斯过程机器学习方法的证券预测模型研究

周楠

电子科技大学

来源

同方学位论文库详细信息

关键词： 高斯过程核方法贝叶斯学习回归分析

摘要： 运用贝叶斯的理论框架解决现实中的一些机器学习难题,是最近几年在机器学习领域中一个热门方向。而高斯过程机器学习的方法是将贝叶斯方法用于机器学习的一种重要方法。本文主要介绍了高斯过程,并且讨论了如何将高斯过程同机器学习的领域联系起来,以及怎样将高斯过程机器学习的方法其运用于股票数据及期货数据的预测上。本文主要从贝叶斯线性回归模型的问题出发,最终揭示如何将高斯过程机器学习的方法运用于回归分析,并将其运用于证券的预测上。对高斯过程的介绍主要通过特征向量在特征空间的投影和函数空间两个方面。我们通过介绍几种常用的协方差函数及其特性,发现高斯过程的协方差函数是学习研究高斯过程的关键。介绍了如何通过一些简单、熟悉的协方差函数来构造新的、复杂的协方差函数,以及如何使其具备各向同性、非各向同性、平稳及变周期等性质。协方差函数的性质是通过协方差函数的结构及其超参数的大小来体现。通过观察协方差函数的结构,很多类型的协方差函数我们很容易理解其超参数的含义。根据我们所研究的问题来选择一个合适的协方差函数类型,有关协方差函数的选择问题也就是模型的选择问题。最后,我们介绍了如何运用高斯过程机器学习的方法来预测证券。一种是基于时间序列的高斯过程机器学习方法,主要用于短期的预测。还有一种增强变量的高斯过程机器学习方法,该方法运用于长期预测简单且易实现。运用以上两种不同的高斯过程机器学习的方法通过Matlab强大的矩阵运算能力对数据进行回归分析,达到预测的目的,其实验结果令人满意。

机器学习方法在雷达定量测量降水及临近预报中的应用研究

蒋志

中国气象科学研究院

来源

同方学位论文库详细信息

关键词： 降水 TREC 临近预报人工神经网络支持向量机

摘要： 本论文中，利用合肥的中国新一代S波段雷达资料和覆盖区域内的雨量计资料，引入径向基函数网络（RBF）、广义回归网络（GRNN）、小波BP网络（BPNN）三种人工神经网络（ANN）应用于雷达定量降水估测，与传统Z-R关系法进行了对比;在TREC的基础上，结合ANN和支持向量机（SVM），对雷达反射率因子进行一小时的临近预报研究，并与交叉相关法（TREC）外推预报的结果进行了比较。研究所用资料是利用雷达的原始体扫资料经过补漏测方位处理、水平方向双线性插值、垂直方向线性插值后得到的直角坐标下的等高度上雷达回波CAPPI资料。使用相关系数CC、均方根误差RMSE、平均相对误差Wabs，平均偏差Bias和平均相对均方根差σ五个评价参数来综合比较人工神经网络和Z-R关系的定量测量降水的效果;使用命中率（HR）、虚警率（FAR）、漏报率（NAP）、临界成功指数（CSI）、相关系数（CC）和均方根误差（RMSE）这六个指标检验人工神经网络、支持向量机和TREC的预报效果。下面是本论文的主要研究结果和结论：（1）基于人工神经网络解决非线性问题的能力，建立雷达反射率因子-降雨强度的人工神经网络模型结构性能较好，推广能力较强，能够从时空变率复杂的反射率因子-降雨强度序列中找出一定的演变规律，在相似的降雨过程能够对降雨进行较高精度的估测。（2）相比于Z-R关系，人工神经网络每小时估测降水量与实测值较为吻合，即使降水强度较大时（＞20mm/h）,估测值与实测值的误差也相对较小。而Z-R关系对于强降水中心强度（＞45mm/h）会出现明显的高估,对于降水强度介于5-45mm/h时，Z-R关系会出现明显的低估。（3）神经网络的性能受其结构和参数设置的影响较大。当结构选的不理想或者参数设置不合理时，网络的性能较差。（4）使用RBF、GRNN、小波BP网络以及支持向量机可以预报雷达反射率因子回波的时空分布。（5）在使用HR、FAR、NAP和CSI检验预报效果时设定的阈值对预报结果的评价有影响。以小阈值使用多个个例平均的命中率、虚警率、漏报率和临界预报成功指数并结合相关系数和均方根误差评价SVM和TREC的预报效果表明：当预报时间较短时（约小于30min），TREC的预报效果较好而当预报时间较长时（约大于30min），SVM的预报效果较好。（6）与TREC相比，支持向量机（SVM）比TREC总体上能更好地预报未来1小时以内强对流性天气的发展变化情况

基于基因表达谱的癌症分类问题研究

张君丽

上海师范大学

来源

同方学位论文库详细信息

关键词： 生物信息学机器学习方法结肠癌特征基因提取动态聚类

摘要： 关于癌症问题的研究是目前世界各国都很关注的问题。众所周知，产生癌变的因素很多，包括基因突变，抑癌基因的功能丧失，原癌基因的激活，以及其它与癌症相关的因素。抑癌基因功能丧失和原癌基因激活都有可能导致癌症的形成，许多抑癌基因很早就被确定，但目前被确定的致癌基因却很少，所以发现更多的癌基因对癌症的治疗具有重要意义。早期的微生物基因组研究局限于简单的靶基因与功能相联系。随着生物信息学的发展，基因芯片分析成为癌基因确定的一个重要手段。基因表达谱代表了每个基因的即时表达数据，从这些数据中挖掘有用的信息，发现与癌症有关的基因，是当前生物信息学研究的热门问题。本文以结肠癌数据为研究对象，分别建立了T-统计，信噪比和动态聚类等分类模型，并对分类结果进行了比较。本文的内容如下：第一章介绍生物信息学产生的背景、概念、发展过程、研究的内容以及本文的研究工作。第二章介绍肿瘤分类问题中的特征基因选取的方法和机器学习方法。第三章基于结肠癌基因表达谱数据集，本文分别建立了三种聚类模型。对比分类结果，发现动态聚类的分类效果好，预测的精度平均达到90.62%。聚类的结果有助于结肠癌的诊断和治疗。

基于词汇对齐和机器学习方法的中文文本推理研究

徐幸

北京大学

来源详细信息

关键词： 词汇对齐机器学习中文文本推理目标识别自然语言处理

摘要： 文本推理的目标是识别文本对之间的蕴含关系和矛盾关系,这是一项语义层面的自然语言处理问题。文本推理可以应用于智能检索和问答系统等诸多领域。　　本义的研究对象是简体中义义本的推理关系识别,主要围绕NTCIR-9会议的文本推理评测任务展开。该评测任务要求判定给定文本对之间的推理类型,推理类型包括蕴含关系及其方向性、矛盾关系和独立关系。　　本文介绍了一个基于词汇对齐和机器学习方法的自动文本推理系统。算法的核心思想是将句子推理的问题转化为词语推理的问题。文本推理过程可以分为词汇推理和句子推理两个阶段。　　在词汇推理阶段,本文使用了中文数字编译器、中文概念词典CCD和网络资源来对文本对间的蕴含词对进行识别和提取,并计算蕴含概率。在句子推理阶段,本文提出了基于阈值的方法和基于机器学习的方法:基于阂值的方法直接对词汇蕴含概率求算术平均得到句子蕴含概率,然后通过与设定的阈值进行比较得到推理类别:而机器学习方法则通过已经得到的词汇蕴含概率和句法结构信息计算出特征.并训练得到一棵决策树模型来对测试语料中的文本推理关系对进行预测。　　在数据分析阶段,本文对基于阈值的方法和基于机器学习方法的实验结果进行了比较,发现使用机器学习方法可以带来系统性能的提升。

机器学习方法在蛋白质翻译后修饰位点预测中的应用

牛申

中国科学院大学

来源详细信息

关键词： 蛋白质翻译后修饰机器学习硫酸化位点

摘要： 蛋白质翻译后修饰(PTMs)是对蛋白质中的一个或几个氨基酸残基加上修饰基团或通过蛋白质水解剪切改变蛋白质的性质。蛋白质翻译后修饰在生物学过程中发挥重要作用，且和多种疾病相关。目前研究蛋白质翻译后修饰的实验方法主要有突变筛选、蛋白质印记和放射性标记等低通量方法以及二维凝胶电泳、质谱和蛋白质芯片等高通量方法。实验方法研究蛋白质翻译后修饰耗时耗力且比较耗资源，因此需要发展计算方法预测研究蛋白质翻译后修饰。现在对于不同蛋白翻译后修饰类型进行预测的计算工具不断发展，多种机器学习方法都有较多应用并在不断完善。　　本文使用包括序列保守性、残基结构不规则、氨基酸因子、溶液可及性、二级结构、进化过程中氨基酸的获得/失去、残基倾向于蛋白质表面或相互作用面、侧链碳原子组成差异、配对残基序列距离和氨基酸出现频率特征构成候选的总体特征集合。通过应用最大相关最小冗余、增量特征筛选、最近邻和刀切交叉验证方法，本文构建了用于预测蛋白质酪氨酸硫酸化、氧化、酰胺化、肽段间和肽段内二硫键和去磷酸化位点的计算方法，并筛选分析了对于每种翻译后修饰类型位点确定有重要影响的优化特征。　　蛋白质硫酸化修饰研究部分，使用筛选出的145个优化特征，预测准确率达到0.9001。特征分析表明保守性、结构不规则和氨基酸理化特征可以影响蛋白质硫酸化位点确定。优化特征的位点分布表明硫酸化位点本身对于硫酸化影响最大，其邻近的位点也有重要的影响。蛋白质氧化修饰研究部分，使用16个特征作为优化特征集，预测MCC值达到0.7582。这16个优化特征可能为深入理解蛋白质氧化机制以及后续实验研究提供线索。蛋白质肽段间和肽段内二硫键修饰研究部分，预测方法的准确率对于肽段间和肽段内二硫键分别达到87.02％(使用128个特征)和92.19％(使用261个特征)。比较肽段间和肽段内二硫键优化特征集的前列特征，揭示了形成两种二硫键的部分共有和不同的机制。蛋白质酰胺化修饰研究部分，使用59个优化特征，预测模型的MCC值达到0.8385。优化特征集的位点分布显示酰胺化位点和C-端临近位点对于酰胺化有最重要的影响。蛋白质去磷酸化修饰研究部分，对于酪氨酸、丝氨酸和苏氨酸去磷酸化位点预测的MCC值分别达到0.873、0.940和0.963。特征分析表明氨基酸频率特征对于去磷酸化位点的确定影响最大，预示着去磷酸化位点附近有特定的序列模式。　　本文研究工作不仅开发了多种预测蛋白质翻译后修饰的计算方法，筛选出的优化特征以及特征分析可能为揭示翻译后修饰位点影响机制以及后续实验研究提供有益的线索。构建的机器学习模型的预测表现以及优化特征集和先前研究结果的一致，展示了机器学习方法在蛋白质翻译后修饰位点预测及相关领域研究中可以发挥重要的作用。

科研专题资源库更多>>

监测数据的机器学习分类预测

限定内容

核心刊收录

日期分布

学科分类号

主题

机构

作者

语言

专题定制

在线全文

在线全文

在线全文

在线全文

在线全文

科研专题资源库 更多>>

监测数据的机器学习分类预测

限定内容

核心刊收录

日期分布

学科分类号

主题

机构

作者

语言

专题定制

在线全文

在线全文

在线全文

在线全文

在线全文

科研专题资源库更多>>