数据分析是1项科学、严谨的工作,分析结果常被作为企业决策的重要指点,因此必须确保分析结果的可靠性。但是,在进行数据分析时工作人员很容易犯1些常见毛病,致使分析结果不准确,为企业决策带来失误。今天小编就来盘点1下数据分析中的常见毛病,希望大家能够及时规避。
1、分析目标不明确
“海量的数据其实其实不能产生海量的财富”,许多数据分析人员由于没有制定清晰的分析目标,常常在海量数据中混乱,要末是搜集了毛病的数据,要末搜集的数据不够完全,这会致使数据分析的结果不够准确。
但如果1开始就锁定了目标,你究竟要分析甚么?再以结果为导向去思考,你就会知道需要用甚么样的数据去支持你的分析?从而肯定数据的来源、搜集方式和分析指标。
2、搜集数据时产生误差
当我们捕获数据的软件或硬件出错时,就会出现1定的误差。例如,使用日志与服务器不同步,则可能丢失移动利用程序上的用户行动信息。一样,如果我们使用像麦克风这样的硬件传感器,我们的录音可能会捕捉到背景噪音或其他电信号的干扰。
3、样本缺少代表性
在进行数据分析时,1定要有可信的数据样本,这是确保数据分析结果靠不靠谱的关键,如果数据样本不具代表性,终究分析的结果也就没有价值。因此,对数据样本,也要求完全和全面,用单1的、不具代表性的数据来代替全部数据进行分析,这类片面的数据得到的分析结果有可能完全是毛病的。
例如,Twitter的用户可能遭到更高教育且收入更高,其年龄也会偏大1些。如果用这类有偏的样本来预测目标观众是年轻人的电影票房,其分析结论可能就不会公道了。所以确保你得到的样本数据代表了研究整体。否则,你的分析结论就缺少坚实的基础。
4、相干关系和因果关系混乱
大部份的数据分析人员在处理大数据时假定相干关系直接影响因果关系。使用大数据来理解两个变量之间的相干性通常是1个很好的实践方法,但是,总是使用“因果”类比可能致使虚假的预测和无效的决定。要想实现数据分析的最好效果,必须理解相干关系和因果关系二者的根本区分。相干关系常常是指同时视察X和Y的变化,而因果关系意味着X致使Y。在数据分析中,这是两个完全不同的事情,但是许多数据分析人员常常忽视了它们的区分。
“数据科学中相干关系不是因果关系”。如果两个关系出现彼此相干的情况,也不意味着是1个致使了另外一个的产生。
5、脱离业务实际
1个专业的数据分析人员,必须非常熟习所分析项目的行业情况、业务流程和相干知识,由于数据分析的终究结果是解决项目中存在的问题,或给行业的决策者提供参考意见。如果不能很好地将业务知识和数据分析工作结合起来,脱离业务实际而只关心数据,在这类情况下得到的分析结果将不具有参考价值。
6、热中高级分析
有的数据分析人员会过分寻求所谓尖真个、高级的、时兴的分析技术,面对1个分析项目时,首先想到的是选择1个最尖真个技术去解决,而不是从课题本身的真实需求动身去思考最公道、最有性价比的分析技术。如果能用简单的方法得到相同的结果,就没有必要援用复杂的数据分析模型。
任何1个数据分析项目,最少都会有两种以上的不同分析技术和分析思路。不同的技术常常需要不同的资源投入,而产出可能也是不同精度和不同表现情势。这其中孰优孰劣,根据甚么做判断呢?我们要根据需求本身的精度、资源限制等来做出选择。
7、过度依赖机器
机器不是万能的,但还是有人在建模进程中,认为分析软件可以最大程度代替分析师手工劳动,过分的依赖机器的“智能”。
在数据发掘项目中,80%的时间是花在数据的熟习、清洗、整理、转换等数据处理阶段。在这个阶段分析软件可以大量取代手工进行规范化、重复性的操作,但是背后隐藏的是怎样的业务逻辑,如何取舍等核心问题是需要分析人员去判断去决定的。另外,即便是经验丰富的优秀数据分析人员,在层见叠出的新业务需求和新业务场景眼前,也常常出现已有的经验、原理等没法有效解决新问题、新挑战的情况。
8、没有定期重复验证
许多数据分析人员缺少耐心,很容易忘记定期对数据分析结果进行验证。可能你的分析模型取得了预期的效果,但这还不够。你应当进行后续验证看能否得到相同的结果,还要看其他分析人员能否重现你的预测分析结果。这是由于事物在是不断变化的。为了不这类情况,数据分析人员最好的解决方式就是定期对含有新数据的数据模型进行评分,或基于模型的关系变化快慢逐日逐月评分。
不要只进行1次分析。要定期验证你之前的结论,如果做不到,可能会致使毛病的结果。
9、忽视业务落地环节
1些数据分析人员1旦将模型搭建好并验证通过以后,就将其丢给业务部门去利用,至于业务方具体如何利用,则不是他们所在乎的。而且如果在利用进程中出现问题或瓶颈,分析人员也不愿意主动去进行分析诊断。
要真正给企业带来价值,重点在于其后的业务落地利用环节。这个环节需要更多团队、多专业的调和和配合,更离不开数据分析人员延续地跟踪、讨论、修正和建议。
10、没有选择适合的可视化工具
“1张图片胜过1000个单词。”数据分析人员不但要熟习自己经常使用的数据可视化工具,也要理解数据有效可视化的原理。
可视化不是单纯的数据展现,其真正价值是设计出可以被读者轻松理解的数据展现。设计进程中的每个选择,终究都应落地于读者的体验,而非设计者个人。
如果不能选择适合的可视化图表,监控探索性数据分析和展现分析结果,那末即便是最好的数据分析模型,它的价值也不能到达最大化。事实上,许多数据分析人员根据他们的审美选择图表类型,而不是斟酌数据集的特点。这个可以通过定义可视化的目标避免。
数据分析结果被有效可视化,才可以理解数据模式的不同,取得企业所需要的洞察力。
11、疏忽小几率事件
17世纪之前的欧洲人认为天鹅都是白色的,乃至常常用“世界上没有黑色的天鹅”这句谚语去讽刺那些无中生有的人。但随着第1只黑天鹅在澳大利亚被发现,这句谚语就变成了笑谈,现在“黑天鹅”1般用来指那些影响很大但难以预测的小几率事件。
2008年美国次贷危机爆发之前,全部北美金融行业都在使用同1个风险价值模型来预测投资风险。这个模型的强大的地方在于它非常精确,它能把华尔街每家公司的资产都进行严格的几率学分析,给出预期收益和损失值。并且还能给这些海量的市场信息整合成1个简洁的风险指标提供给美联储和财政部参考,比如分析了以往市场变动数据后,金融家会根据这个模型给出某项投资在特定周期内可能让公司蒙受的损失,而这类预测可以覆盖高达99%的市场风险。
但是这个模型有1个被疏忽的致命问题,它的几率学模型参照的是过去20年的市场行动,不能对未知的之外情况作出预测,所以它预测不了黑天鹅的出现。这只黑天鹅就是2007年美国商业银行放贷业务的崩溃,虽然它产生的几率只有不到1%,但悲剧确切产生了。直接致使了1次全球大范围的金融危机,失业率到达了10%,很多国家和政府都堕入清偿务危机。这虽然是1个小几率事件,可它确切产生了!
疏忽小几率事件,有时会造成严重的后果。
数据分析能够有效改良企业产品和服务,并更好地满足市场。但是分析数据的进程中会出现各种各样的毛病,及时规避方能使数据发挥更大的价值。
作者:Barry