浙江易网科技股份有限公司

数据分析领域中最为人称道的七种降维方法

2015-09-30 23:51:48 来源: 浙江易网科技股份有限公司(杭州)
近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。
近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。
最新的一个例子是采用 2009 KDD Challenge 大数据集来预测客户流失量。 该数据集维度达到 15000 维。 大多数数据挖掘算法都直接对数据逐列处理,在数据数目一大时,导致算法越来越慢。该项目的最重要的就是在减少数据列数的同时保证丢失的数据信息尽可能少。
以该项目为例,我们开始来探讨在当前数据分析领域中最为数据分析人员称道和接受的数据降维方法。
缺失值比率 (Missing Values Ratio)
该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。


您给我们信任,我们给您惊喜!
易网10年对大数据技术和行业趋势的深入洞察和积淀后,结合中国企业的实际情况和特色,已经探索出了一条商业智能可持续发展之路,形成了成熟的中国“平台一体,智慧应用”的产业推进模式。
一向本着稳健的原则开拓与绝对领先的研发实力,保证公司在行业内的市场信用度和企业形象,使得公司能够在智能科技领域保持领先地位。
联系 Contact
057188848892
传真:057187157782
邮箱:webmaster@eoner.com
地址:浙江省杭州市西湖区双龙街199号金色西溪商务中心1号楼1至2层
留言 Message
Copyright © 2012 The things 浙江易网科技股份有限公司 make. All rights reserved. 浙ICP备09052236号-7
网站名称 网站名称 御金匠 网站名称 杭州镭速清洗设备有限公司 网站名称 网站名称 重庆骏精赛自动化机械有限公司 中国艺术网 黄石市爱康医院