监测数据的机器学习分类预测-专题定制-三峡大学图书馆

于向乐

对外经济贸易大学

关键词： 用户消费行为画像 GBDT算法模型 Xgboost算法模型 RandomForest算法模型电商APP用户

摘要： 从20世纪60年代左右开始,随着全世界计算机、互联网,以及近年来大数据技术等的飞速发展。各类应用软件、手机APP从不同方向、多维度不断改变着我们的日常生活。同时各类应用软件、网站、APP等也不断记录着我们的信息,这些信息也呈多维度、超体量、多深度的爆炸式增长。多维度、超体量、多深度的数据开启了我们新时代的转型,各个领域的企业家们逐渐意识到数据的深层次价值,数据、软件研发工作者们也开始深入研究如何利用海量数据,提取对企业更有实用价值的深层次衍生数据。各类手机电子商务APP的猜你喜欢的商品、抖音APP的个性推荐等数据化产品应运而生,这些数据模型就是利用用户的日常消费行为,购买偏好习惯等数据,通过一系数据分析方法,不断迭代数据模型,从而构建出用户画像,然后为企业精细化运营提供强有力的数智化、自动化工具支撑。对于各大电商平台,以及应用软件APP商家来说抓住数据先机,就会抓住了新时代的商机。然而过去传统的数据收集工具、构建工具,分析目标用户群体特征的方法等,数据分析结果偏差大,计算分析速度不高等问题亟待解决。近年来海内外的学者们针对这些问题进行了深入的研究与创新,迭代出各种基于多种算法模型研究用户精准画像的方法。本文的样本数据来源于某电商APP的真实脱敏用户数据,研究用户画像的基本概念、模型构建方法、最优算法组合模型等。先从单一实验模型开始,比较了GBDT算法模型、Xgboost算法模型、Random Forest算法模型,然后把这三种模型结合,构成组合模型,通过实验得出最理想的的组合算法模型,进而用于预测未来电商平台的客户购买意愿。依此为电商APP平台提供定制化的用户消费目标群体画像。通过实验得出GBDT算法模型-Xgboost算法模型-RandomForest算法模型组合可达到最好的用户画像构建、用户购买意向预测效果。借助此混合模型可应用于电商APP平台实现线上精准营销等。

基于气象-水文-机器学习方法的岩滩水电站入库流量集合预报研究

刘俊江

南京信息工程大学

来源

同方学位论文库详细信息

关键词： 流量陆面水文模型 LSTM 集合预报梯级水库

摘要： 水库调度是管理水资源的重要手段,有利于防洪、抗旱和水电能源开发。径流预报能够为水库调度提供未来的径流信息,具有重要的指示作用。然而,大部分陆面水文模型难以细致刻画水库调度对河流流量的动态影响,限制了水文气象集合预报在梯级水库流域的应用。另一方面,机器学习方法可以基于数据建模,近年来被广泛用于径流模拟,但其预见期有限,需要与物理模型有机结合。鉴于此,本论文利用气象集合预报驱动陆面水文模型进行流量模拟,使用机器学习方法校正结果,以广西红水河岩滩水电站区间流域为研究对象,进行了洪水可预报性来源分析和回报试验,对入库流量预报技巧及预报系统的各部分相对贡献进行系统性的评估。在了解开放流域在小时尺度上的径流特性的基础上,提升了径流预报的精度。主要有以下结论:1)利用率定后的陆面水文模型揭示初始水文条件和气象强迫对小时、日、月尺度的径流预报影响。经对联合地表地下过程模型(CSSPv2)的产流及汇流参数率定后,CSSPv2对月尺度和日尺度的流量模拟较好,在2003-2017汛期径流模拟的纳什效率系数(NSE)分别为0.96和0.92。逐小时流量模拟的NSE可达到0.61。基于该模型开展水文可预报性试验并采用确定性指标评估,发现不考虑流域上游放水情况时,初始水文条件对岩滩水电站逐小时入库流量预报的影响时效在1日以内,其中初始水文条件影响时效在4月和7月达到最大,且影响时效随降雨量的增加而缩短。若采用概率性预报指标,则初始水文条件影响时效有所增加。当考虑上游来水影响时,初始水文条件和土壤湿度对径流预报的相对贡献也随之减小。此外,初始土壤湿度对径流预报的相对贡献和与其记忆性存在较大关联。2)耦合数值天气预报及长短期记忆模型(LSTM)后显著改善了小时尺度的径流预报。经偏差校正后的TIGGE-ECMWF降水和气温集合平均预报优于51个成员中的最佳预报结果,其中降水预报的均方根误差(RMSE)为14.6mm/d,相关系数为0.44;气温预报的RMSE为1.3K,相关系数为0.87。对于逐小时的入库流量预报,加入数值天气预报(TIGGE-ECMWF)后流量确定性预报误差和概率预报误差较传统的集合径流预报均减小了6%。经LSTM长短期记忆模型校正后,在前72小时预见期,流量预报误差得到进一步缩小,RMSE平均减小6%,最大可减少25%。然而,仅使用历史观测入库流量作为输入的LSTM模型预报误差,在24小时预见期后迅速增加。3)进一步,在此基础上构建了基于气象-水文-机器学习的径流预报系统,并于广西红水河岩滩水电站区间流域进行实时预报和评估。实时预报评估结果表明:24小时、48小时、72小时预见期的日流量预报合格率分别为87.3%、70.4%、75.5%,达到甲级或乙级预报精度标准,满足发布正式预报的精度要求;6小时短临流量预报产品的NSE达到0.73,合格率达到62.7%,为丙级预报精度标准,满足发布参考性预报的精度要求。本论文针对受上游来水影响的岩滩水电站区间流域,评估了初始条件和气象强迫对洪水预报的影响时效,同时结合了机器学习方法以及陆面水文模型的优势,使陆面水文模型可更好地应用在水库入库流量的预报。

识别移动支付欺诈风险的机器学习方法研究

马明月

上海财经大学

来源

同方学位论文库详细信息

关键词： 移动支付欺诈识别机器学习逻辑回归神经网络 XGBoost

摘要： 互联网、大数据等新兴技术已经在中国的大地上蓬勃发展了很多年,拥有快捷、便利等优势的电子商务系统雨后春笋般涌现,移动支付已然成为人们茶余饭后的谈资,网购、线上交易对现代人来说已经不可或缺。显而易见,便捷的确是互联网金融带来的优点,但同时而来的欺诈问题也需要引起高度警惕。《中国互联网络发展状况统计报告》揭示出的数据真是触目惊心!2020年,超过20%的互联网用户的信息被走漏,多达10%的网民碰到木马病毒的攻击,账号、密码被窃取的用户占比将近8%,逾15%的用户已经成为网络电信诈骗的目标。为了躲避网络安全部门的监控,不法分子一般会利用多类软、硬件进行作弊,捏造子虚乌有的身份信息进而欺诈攫取利润,目前已经构成一条完整的欺诈犯罪产业链。这条产业链行动迅速、协同多边,对互联网金融业务的浸透简直无孔不入,每年涉及的犯罪金额数超过千亿元。鉴于应用场景众多,移动支付是互联网金融举足轻重的组成部分,如影随形的是与此有关的安全问题。相关黑产从业者无所不用其极,利用采取包括伪造Wi-Fi、散布木马病毒以及山寨手机软件等在内的一系列恶劣行径,非法获取了用户的姓名、身份证号、手机号、住址等隐私,进而实施欺诈变现,令人防不胜防。可想而知这威胁的主体不仅是千千万万的个人用户,更挑战了整个互联网金融、电商体系的安全性,对整个经济社会产生不利后果。互联网金融业务在持续发展壮大,更理当重视与之有关的风险,提前防范。因此目前最紧要的是运用先进的大数据处理技术,构建细致、高效、广泛的智控模型,结合定性、定量分析方法精确甄别欺诈风险,获得事半功倍的效果。本文首先整理参考了目前现有的国内外关于识别移动支付欺诈风险的方法以及机器学习方面的文献,经过深入细致的研究发现:移动互联网、大数据等信息科学技术与日俱进,移动支付技术日新月异,趋近完善、成熟。目前,拥有着管理方便,隐私性强,空间、时间限制性小,综合性强这四大特点的移动支付,已经深入到了人们生活中的各个角落,并在世界各地疾速扩张。然而利用移动支付的优势进行网上洗钱的欺诈风险接踵而至。为了避免移动支付欺诈而带来的各种社会经济问题,就必须对移动支付确定监督对象、确立监督体系、改进移动支付运行环境、监管往来资金、防止洗钱行为、减少信用风险、强化资金监管等。国内外学者对移动支付及其欺诈风险识别等相关方面做了大量研究。现有研究包含了定性分析法、定量评估法。定性分析法包括专家调查、流程图等;定量评估法包括决策树、支持向量机、贝叶斯网络分类器等,拓展了人们对移动支付欺诈风险甄别的认知。然后本文借助于Kaggle网站(网址:https://***/)的《Synthetic Financial Datasets For Fraud Detection》中所提供的样本进行建模。被称为Pay Sim的模拟器合成了本次的数据集,模拟器使用来自真实数据集的数据生成类似于正常交易操作的合成模拟数据集,并注入欺诈行为,有助于研究者建立反欺诈模型并评估其性能。Pay Sim从来自非洲国家的移动支付服务中提取到一个月交易流水日志,参考以上日志模拟出新的移动支付交易。原始日志由一家跨国公司提供,该公司是移动支付金融服务的供应商,目前在全球14个国家(地区)运营。最后的实证研究阶段,本文建立了行业众所周知的逻辑回归模型,同时以此为准绳,实践了神经网络、XGBoost两个模型的构建,过程中具体介绍了上述三类模型以及相关联的其他算法模型,探索并调节模型的参数以取得最优学习效果。实践中发现:使用原始数据代入模型取得的结果一般,于是依流平进,着眼原始数据特征效果的局限性,采用“多项式扩展、交互项扩展”、“高斯核函数”两种措施对原始数据进行特征工程改进。实验对比了无特征工程和进行了“多项式扩展、交互项扩展”以及“高斯核函数”特征工程后,逻辑回归、神经网络和XGBoost分别在精确率、召回率、误杀率、AUPRC等指标上的性能。末了得出结论:本次研究实践效果一枝独秀的是XGBoost算法,性能上相较其他二者无出其右,可用于移动支付欺诈检测的日常践行。结尾审视了本次研究中的诸多不足之处,并对移动支付反欺诈的前景满怀憧憬。

基于机器学习方法预测anti-CRISPR蛋白

刘梦露

电子科技大学

来源

同方学位论文库详细信息

关键词： Anti-CRISPR蛋白序列预测特征编码机器学习网站服务

摘要： CRISPR-Cas作为基因编辑的工具近年来被广泛研究。Anti-CRISPR蛋白是一种广泛存在于细菌、古菌和病毒中的蛋白质。它可以在CRISPR-Cas的干扰阶段将其失活,因此可以作为一种潜在的调节基因编辑的工具。深入研究anti-CRISPR的特性和功能对于基因编辑技术的安全实现有着极其重要的意义。然而,目前对于anti-CRISPR蛋白的研究非常有限。已知的anti-CRISPR蛋白数量非常少是限制其进一步研究的因素之一。通过实验发现新的anti-CRISPR非常费时费力,所以使用机器学习的方法构建一个高精度的anti-CRISPR预测模型可以很好的解决这一问题。本文从anti-CRISPRdb数据库和一个用于检索anti-CRISPR名字的统一资源中提取原始数据,经过CD-HIT去冗余和平衡数据集之后,获得了一个高质量的anti-CRISPR蛋白数据集。为了全面的描述蛋白质序列,本文使用了6种特征分别对序列进行编码,并采用方差分析和增量特征选择对特征进行了筛选。基于最优特征子集,分别使用每种特征构建了支持向量机模型。为了进一步提高分类的准确性,对这6个模型进行不同的组合,挑选出了最优的模型。最终的模型在测试集上的准确率和AUC值分别为88.1%和0.952。这是目前为止预测性能最好的模型。使用该模型对全新的11个anti-CRISPR蛋白进行案例分析,正确识别出了其中的10个,说明模型的泛化能力较强。为了发现新的anti-CRISPR蛋白,本文从Gen Bank中下载了所有病毒的蛋白质数据,然后使用模型进行预测。使用者可以根据不同阈值,获得潜在的anti-CRISPR蛋白。阈值越高,预测出来的蛋白质的数目越少,但可信度越高;反之,则数目越多,可信度降低。最后,本文建立了在线服务的网站,里面存放了构建的数据集和从病毒蛋白质中预测出来的anti-CRISPR蛋白。同时提供了预测功能,使用者可以通过输入蛋白质序列和位置特异性得分矩阵进行anti-CRISPR蛋白的预测。网站的地址是,http://***/server/Acr Pred。

面向区域滑坡易发性制图的机器学习方法集成研究

魏槊友

成都理工大学

来源

同方学位论文库详细信息

基于统计机器学习方法的原子在强激光作用下电离的研究

宋红岩

吉林大学

来源

同方学位论文库详细信息

关键词： 统计机器学习不平衡数据强激光作用电离分类方法

摘要： 随着科学技术的日益发展,在很多领域产生了复杂且体量巨大的数据。如何从各种各样的数据中获得有价值的信息是一个值得研究的方向,其中,对数据进行分类则是关键的一步。在传统分类算法中,对于样本中类与类之间的数量以及误分类的代价等方面的研究较少。在处理不平衡数据的问题时,传统分类算法的性能表现有待提高。因此,针对不平衡数据的研究应运而生。不平衡数据在经济、医学等领域十分常见。例如:解决欺诈检测、医疗诊断和垃圾邮件过滤任务。目前很多学者针对不平衡数据的分类进行了大量研究,例如:从数据采样层面、单类学习层面与集成学习层面处理不平衡数据的问题。对于数据采样层面,主要分为欠采样和过采样两种方式,通常用SVM、KNN等传统分类方法作为基分类器。对于单类学习,其训练只包含一类样本的数据,不具有稳定性。单分类器集成是近几年的一种新的方法,是将不同标签数据训练所获得的单分类器集成起来,相比于单分类,效果有了进一步提升。在原子研究领域,强激光场辐照体系下的电离行为是该领域的研究热点。强激光与原子之间的相互作用会产生高次谐波发射以及非次序双电离等非线性的现象。这些现象可以通过“半经典”模型来作出解释:原子在强激光的作用下,可以通过隧穿或者是越垒的方式进行电离。之后,电离的电子在激光场的振荡作用下可能会返回到母体离子发生重碰。现存的原子在强激光作用下电离的研究一般是基于电离之后的轨迹分析,而在电离之后,重碰的行为明显少于非重碰的行为,这使得相关数据集产生了不平衡的现象。由此,基于非平衡分类法的原子在强激光作用下电离的研究是非常重要的。本文的主要目标是增强不平衡的原子电离数据的分类效果,一方面,我们将采样技术与现有的分类方法进行结合,与不平衡数据研究方向中的最新研究成果单分类集成方法进行评比,在评价指标上给出结果。另一方面,将过采样、欠采样与分类方法结合前和结合后的结果进行对比,以求掌握不同采样技术与常用分类方法结合后的整体结果。本文提出一种基于单分类的神经网络的统计机器学习方法来研究强激光作用下原子的电离之后电子的状态分类问题,数据集为电离之后电子的位置数据和动量数据。首先针对数据集进行处理,分别进行了特征生成和主成分分析;然后计算每个样本的集成单分类分数,将其作为每个样本的特征;在得到新特征之后,通过神经网络方法进行分类。本文方法与普通分类方法、过采样与欠采样方法以及集成单分类方法在AUC值、准确率、精确率、召回率和F1分数等几个方面进行了比较,证明了本文所提出的分类模型在原子电离数据上的分类效果更好,能够有效地对电子是否会发生重碰行为做出预测并判定,具有对激光实验中判定电子状态的实际意义,对后续的激光实验中的研究提供了支撑作用。

基于机器学习的肠道微生物对宿主年龄和性别分类的预测

张大可

杭州电子科技大学

来源

同方学位论文库详细信息

关键词： 衰老机器学习肠道微生物居瘤胃解纤维素菌两性差异

摘要： 人体肠道微生物是一个非常庞大的系统,肠道微生物通过代谢产物和宿主进行信息交换,在人一生的成长和衰老过程中发挥着多种重要功能。肠道微生物群比人体细胞的数量高一个数量级,据计算大约有10个细胞组成,由于肠道菌群的庞大和复杂性,以及对饮食、地域、疾病的易感性,使得对肠道微生物的定量研究充满了困难,本文主要通过机器学习对人体肠道微生物样本进行定量研究,通过微生物丰度数据建立宿主年龄和性别预测模型,并识别年龄和性别特异性微生物。本文主要内容如下:(1)通过斯皮尔曼相关系数对样本数据集进行降维,对1580种微生物祛除冗余项,留下19种具有代表性的微生物,输入机器学习回归模型。利用肠道微生物丰度数据预测样本的年龄,对预测值用R和平均绝对误差评价,在Adaboost、随机森林模型以及Xgboost模型中,随机森林模型效果最好,R=0.579,MAE=13.45。利用特征重要性得分识别与宿主年龄高度相关的微生物,识别双歧杆菌和居瘤胃解纤维素菌(Cellulosilyticum),并在百岁老人的样本中发现了和老年人不同的肠道微生物结构,且这种变化不连续。(2)通过机器学习分类模型对样本数据集进行性别分类,本文采用了高斯贝叶斯模型、K-近邻模型、随机森林模型、自适应提升算法以及梯度提升决策树模型构建分类器。其中,随机森林分类模型效果最好,平均准确率达到79.5%。通过调节超参数的变化,对随机森林模型的准确率和F1得分进行检验,确保随机森林分类模型的稳定性。通过特征重要性得分识别对分类模型贡献较大的微生物,在前20种微生物中,有8种微生物属于厚壁菌门,有8种属于拟杆菌门,有3种属于放线菌门,有1种属于疣微菌门。同时,居瘤胃解纤维素菌(Cellulosilyticum)在百岁老人的样本中也发现了两性差异。

基于LIBS光谱数据的敦煌壁画颜料快速识别方法研究

张一鸣

西北师范大学

来源

同方学位论文库详细信息

关键词： 敦煌壁画激光诱导击穿光谱技术颜料识别光谱匹配算法机器学习方法

摘要： 敦煌莫高窟现存世界上规模最大、保存最完好的精美壁画,但大多数壁画中所使用的颜料记录已无法查证,确定其彩绘层的颜料种类已成为壁画保护和修复工作的一项重要任务。开展壁画颜料的快速识别方法研究不仅有助于追溯古代壁画中颜料的组成和制作过程,而且能够为其他相关领域的文物保护和修复提供重要参考。由于壁画的珍贵性和快速检测要求,传统的损伤性取样分析和非原位实验室检测方式已表现出很大的局限性,发展新型壁画快速检测与识别方法已成为目前文物保护领域的热点问题。对于敦煌壁画颜料,目前尚无一种准确的、快速的识别方法和相应的光谱数据库。因此,本文基于激光诱导击穿光谱(LIBS)技术在元素检测方面的独特优势,利用LIBS光谱数据,将光谱匹配算法和基于多元统计技术的机器学习模型相结合,确定了最适用于壁画分析的识别模型,并构建了相应的光谱数据库。主要研究内容如下:1.以模拟壁画为研究对象,根据不同实验参数下获得的LIBS光谱信号和激光对彩绘层表面的烧蚀情况,确定了适用于壁画分析的最优参数,包括延迟时间、激光聚焦位置和激光脉冲能量。在最佳条件下,对常见的11种矿物颜料样品进行了光谱采集,确定了各种颜料的特征元素分布。2.以常见的矿物颜料为研究对象,基于LIBS光谱数据,研究了光谱匹配算法对于矿物颜料的识别能力。根据同一颜料的两种类型样品之间的相似性,确定了LIBS光谱的最佳波段范围。通过比较压片和模拟壁画样品的光谱相似性,建立了矿物颜料LIBS数据库,并成功地用于压片样品、模拟壁画样品和真实壁画残块样品上未知颜料的识别。结果表明,除了以Cu为主要元素的三种矿物颜料外,该模型具有初步对矿物颜料进行识别分类的能力。3.以Cu为主要元素的三种矿物颜料为研究对象,基于LIBS光谱数据,分析了五种机器学习方法对化学成分相似矿物颜料的识别能力。利用Select KBest算法,确定了三种颜料间差异最大的300条特征谱线。分别建立了K-邻近算法(KNN)、随机森林(RF)、支持向量机(SVM)、反向传播人工神经网络(BpANN)以及卷积神经网络(CNN)的分类模型,并分别进行了参数优化。将优化后的模型用于精度验证,结果表明,对于模拟壁画样品,除KNN模型以外,其余模型的准确率均达到99%以上。而对于真实壁画样品,只有2D-CNN模型的精度达到90%以上。因此,确定了2D-CNN模型为最适用于壁画颜料识别分析的模型。

软件缺陷预测中不平衡数据分类算法研究

饶珍丹

哈尔滨师范大学

来源

同方学位论文库详细信息

关键词： 软件缺陷预测类不平衡过采样 XGBoost

摘要： 随着信息社会的发展和科技的进步,人们对软件系统的依赖逐渐加深,软件质量的可靠性保障越来越重要。软件缺陷预测作为检测缺陷模块的重要手段之一,可以通过对历史仓库的挖掘,描写与之相关的度量信息形成数据集,利用机器学习等方法对数据集进行学习,构建有效的预测模型。以测试出包含高缺陷的模块,对其进行检测,优化测试资源的分配。然而现实中有缺陷的数据样本较少,会导致机器学习训练后,更易将测试数据划分成多数类,在软件缺陷预测中严重影响模型的分类性能。因此采用一定的方法缓解类不平衡问题是很有必要的。本文主要工作有:（1）在数据预处理层面,为了利用缺陷数据自身周围分布的类别特性,以进行准确的过采样形成合理而平衡的数据集,本文提出了一种新的多层次自适应判断合成随机过采样方法AJCC-Ram（Adaptive Judgment Cure Clustering Random Sampling）,该方法基于改进的ADASYN自适应过采样和CURE-SMOTE过采样,分别在类边缘和类中心多层次生成新样本形成平衡数据集,再通过CLNI进行平衡数据集的噪声过滤清理。实验在软件缺陷预测常用数据集AEEEM和NASA中与多种采样方法在朴素贝叶斯分类器中进行了对比,实验评价指标F1结果表明:AJCC-Ram方法可以获得更稳定,更高效的预测结果。（2）在算法分类方面,为进一步改善分类器在类不均衡数据中的分类效果,对XGBoost（e Xtreme Gradient Boosting）集成学习器进行了理论研究,并进行数据集AEEEM和NASA下的适度调参,将调参后的XGBoost集成学习器与各式机器学习分类器进行了对比实验研究,证明了XGBoost学习器的有效性。（3）在模型构建阶段,本文在上述的研究基础上,建立了一个基于过采样和集成学习的不平衡数据软件缺陷预测模型XG-AJCC（AJCC-Ram+XGBoost）。实验比较了AEEEM和NASA数据集在多个采样集成的不平衡数据处理中的应用。以评价指标F1值,表明了:XG-AJCC预测模型可以有效地降低数据不平衡对软件缺陷的预测影响,以获得更稳定,更高效的预测结果。

基于单分类方法对高维不平衡数据的预测研究

王琪

南京财经大学

来源

同方学位论文库详细信息

关键词： 不平衡数据单分类异常值检验降维变量选择 PR曲线

摘要： 随着信息技术的飞速发展与数据挖掘能力的增强,不平衡数据的预测变得越来越常见。由于少数类的稀疏,传统的二分类方法无法捕捉到足够的异常值信息,其预测结果往往偏向多数类,对于少数类的识别能力不足。而单分类方法对于类别分布的情况不做过高的要求,仅需单类数据的信息就可以构建有效的异常值检测模型。针对高维不平衡数据的预测问题,除了要应对类别不平衡的问题,还要对高维特征进行降维。所以本文在特征提取与特征选择这两种降维方式下,建立了基于单类支持向量机(OCSVM)、变分贝叶斯(CAVI)、逻辑回归(GEL)的单分类模型。为了体现单分类算法的优越性,本文还对比了基于SMOTE算法的二分类方法。在评价指标选取方面,ROC曲线比较注重模型整体的性能,对于数据集分类比例的变化并不会产生很大的波动,而PR曲线对于两类数据占比的变化十分敏感,相比ROC曲线更能体现出模型对少数类的预测精度。故本文以PR曲线的AUC值作为评价指标。为了探究预测模型的稳健性,本文进行了数值模拟。在实证分析部分,使用了福建某商业银行的小微企业信用贷款数据和中国家庭金融调查与研究中心收集的信用卡交易数据,在原有变量的基础上引入了各个变量之间的交互项,建立了一个高维不平衡数据。数值模拟和实际数据的结果表明:(1)单分类方法可以对高维不平衡数据进行有效的异常值检测,而传统二分类器在同等条件下丧失了对异常值的预测能力。(2)单分类方法的异常值检测能力会因为正常样本的占比的减少而减弱。(3)自变量之间的相关性越高,单分类方法的异常值检测能力就越弱。(4)无论是特征维数是否大于总体样本数量,单分类方法的预测能力都是很稳健的。(5)在PCA降维下单分类模型的表现要优于LASSO、XGBoost降维下的单分类模型。

科研专题资源库更多>>

监测数据的机器学习分类预测

限定内容

核心刊收录

日期分布

学科分类号

主题

机构

作者

语言

专题定制

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

科研专题资源库 更多>>

监测数据的机器学习分类预测

限定内容

核心刊收录

日期分布

学科分类号

主题

机构

作者

语言

专题定制

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

在线全文

科研专题资源库更多>>