数据分析入门指南
step0
说起学习计划,先说说学习目标,数据挖掘是干什么的?我的理解啊,加上之前看的一些知乎
工作领域介绍
目前国内的数据挖掘人员工作领域大致可分为三类。
- 数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。
- 数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
- 科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
我觉得吧最可能做的事是前两者,更大概率是数据分析师。
这个是网上给出的要求
所需技能介绍
说说各工作领域需要掌握的技能。
- 数据分析师
- 需要有深厚的数理统计基础,但是对程序开发能力不做要求。
- 需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。
- 经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
- 数据挖掘工程师
- 需要理解主流机器学习算法的原理和应用。
- 需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。
- 经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
这些呢,是大概对这个职业的介绍,也是我目前了解到的。
step1
数据分析的第一步当然是分析语言啦,作为正统科班出身的程序员来说,掌握一门新的统计语言肯定是小case。
在我的了解中,数据分析中常用的有Python,以及R语言。这两种语言都有丰富的第三方库,当然个人更推荐用Python一些。如果可能还是学习Python3吧,主流的统计库都有了Python3的版本,推荐下载各种库的集成版本Anaconda Python,这个发行版集成了数据分析,数据挖掘,机器学习中会用到的一些第三方库,特别方便。
step2
数据分析需要看,或者了解一些知识,很大程度上与机器学习有关,我推荐我看过的两本书:
第一本
- 机器学习 国内特有名的一本机器学习入门书籍,基础介绍了机器学习中用到的各种方法(当然不是很深入,但是入门已经够了)。
第二本
- 数据挖掘:概念与技术 也是特棒的一本书
我看网上还有别的推荐
- 利用Python进行数据分析(亚马逊) 包括各种案例
- SciPy and NumPy (豆瓣) 数据分析中最常用的两个库
- Python for Data Analysis作者是Pandas这个包的作者,一个大牛写的书
step3
对整体有一个大概的概念后,可以去网上找些公开课,这些网易云课堂上有挺多的,以及Coursera上也有很多的,这些上面都有免费的优质课程资源。
step4
在看公开课的同时,可以找一些项目进行练手,这些在知乎的Python中文社区中可以找到大量丰富的资源,可以关注下这个社区。
step5
感觉自己学有所成,小宇宙爆发后,可以去打些比赛,关于数据挖掘,数据分析方面的。 国内有名的比赛平台就是阿里天池,以及国际上最出名的平台Kaggle,这两个平台上都有各种比赛项目,主要是有各路大神分享经验,对自己提高挺好的。
step6
哈哈哈哈哈哈,我也是一个萌萌的新人,可能知道的不全,一起在学习中成长呗。