做一般的数据分析,很多工具都可以。例如R, Python, Matlab等等。不过就社区规模和质量与学习成本与前景,最好学R,如果想更偏向于General purpose programming,最好还要学Python或者近年来发展迅猛的F#,个人推荐F#,函数式编程是未来的大势所趋,况且F#有神奇的Type Provider,可以方便地调用R, Java,很快PythonProvider和MatlabProvider也会发布了,这样就把几大社区的资源都整合在一起了。如果做大规模数据分析,当然要懂数据库的东西,可以学SQL,用SQLite, MySQL等等来操作关系型数据。如果想做大数据,可以学Hadoop, Hive以及Storm等等,基于大数据平台做数据分析应该没有必要了解太多技术细节,知道如何操作非关系数据,以及实时数据即可。当然,都掌握最好。
从事数据分析一定要选一门编程语言和工具,技多不压身嘛。数据分析的工具有很多,按功能和侧重点来分有统计工具、可视化工具等等。应用最广的也是最常被提到的,无非是Excel、SAS、Python、R等等。那么,这么多工具是否都要学?都适用于什么情况?又应该如何使用呢?ExcelEXCEL是其中最简单的,倒不是容易而是人人都会。但如果是用来分析的话,图表只是基础,还要学会使用透视图以及VBA函数。Excel的功能其实非常强大,尤其是通过学习VBA,几乎能解决所有的问题,但成本就高了,而且Excel的数据处理量并不是很大,几十万而已,大数据量还要另寻方法。
SPSS最初是社会科学统计软件,如果刚入门数据分析,懂点SPSS事非常有好处的,当然前提是要懂SQL。SPSS得使用对人的能力要求不高,编程模块很少使用,通常用于科学、市场之类的调研,在院校中使用较多。近几年的互联网潮,R语言流行起来了,在互联网行业运用较多。R语言是开源的,学习起来并不容易,需要一个长期的过程。SPSS刚刚有提到,适用于市场研究,上手较快。如果会编程的话,功能还是蛮强大的。SAS一般是金融行业应用较广,特别是银行业和医学统计,包括一些制造业也很多。银行业通常会用SAS来做统计,数据挖掘也会用到,价格昂贵,学起来比较难,建议网上寻找一些课程和教材来学。所以打击爱可以针对自己的行业和实际情况来做选择,以上列举的只是大致情况。
Qlikview相对tableau有点丑,不要喷,毕竟人家走数据处理路线,作为BI产品,数据处理速度还是不错的,取个数不至于像tableau慢。两者像互补兄弟,各有优势,但都一样贵,哈哈!所以对数据处理要求较高的话,建议尝试。国内的可视化软件,bi工具。无功无过,重在稳定和应用,国内有一定市场,企业应用挺广。有一定数据分析基础的同学,应该说很快就能上手,免费版无限用!总体来将,每个工具各有优势,但最关键的还是对于业务的熟悉度,没有远离和思路,任何工具都用不起来,所以在做数据分析时,一定要扎根学习业务和数据建模方法,工具不是万能的!