数据分析学习路线(完整攻略)

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解,并消化,从而最大化地开发数据的功能,发挥数据的作用。上述定义有三个关键词语:

  • 统计分析
  • 大量数据
  • 发挥数据作用

其中统计分析是分析手段,大量数据是待分析的对象,发挥数据作用是数据分析的目的。数据分析是数据科学的一个分支,我们所熟知的文本分析、图像识别、语音识别、视频分析都属于数据分析的一种,只不过它们更偏向数据挖掘,或者深度学习方向。

提到数据科学,我们就不得不提到时下最火的编程语言—— Python,它同样适用于数据分析,在数据分析的各个环节中,Python 都提供了相应的模块,比如数据处理模块 Pandas、Vaex,数据可视化模块 Matplotlib 、Seaborn,数据建模模块 Scikt-learn 等,本学习路线主要围绕 Python 在数据分析中的应用进行介绍。

如果您立志成为一名数据分析师,并且对 Python 数据分析比较感兴趣,那么本路线将非常适合您阅读,您将从这份学习路线中获得启发,帮助您更好地规划和安排如何学习。

行业发展现状

1. 大数据

数据分析在我国虽然起步较晚,但发展迅猛。进入21 世纪以来,伴随着互联网的飞速发展,大数据时代应运而生,越来越多不同行业的数据被挖掘出来,形成了“海量数据”,比如电商、医疗、教育、交通、制造业等等。

所谓大数据一般要求数据量级达到上亿条以上,按照文件的存储大小来说,一般会达到 GB,甚至 TB 量级。面对如此大规模的数据,企业对数据分析师也提出了更高的要求,只掌握传统数据分析手段,已经远远不能满足企业的用人标准,假如在二十多年前,您可能只需熟练掌握 Excel 就能找到一份数据分析相关的工作,但如今简直是天方夜谭。

2. 高标准

近些年,数据分析发展已趋于成熟,形成了流程化的操作模式,数据分析大致分为以下几个步骤:

  • 数据收集与导入
  • 数据清洗与质量控制
  • 数据管理与存储
  • 数据分析与可视化
  • 数据建模与模型管理

一个优秀的数据分析师能够独立完成上述所有工作。除此之外,企业对于从业人员的要求也逐渐攀高,当然随之而来是高额的薪资报酬,学历自不必说,专家级数据分析要求硕士及以上学历,最初级的数据分析专员也要求大专及以上学历。

最关键的硬实力“技能”要求也十分严格,除要精通  SQL 语句、一些常用数据分析工具之外,还要掌握一门编程语言(Python 语言或者 R 语言),同时对于业务逻辑、数据建模也要有深刻的见解。

3. 多元化

也许你还未曾察觉,或者是后知后觉,数据分析其实与我们的生活密不可分,,比如大型商超分析顾客的购物习惯来摆放商品,APP 根据用户的点击习惯来分布菜单的布局,城市智慧交通根据车流量的大小决定红绿灯放行时间等等。数据分析已经融入到了你我生活的每一角落,虽说数据分析是一个职位的统称,但细分起来又看似不同。

图片[1]|数据分析学习路线(非常详细)
数据分析涉及行业

对于从事不同行业的数据分析研究人员来说,它们要具备所研究业行业的业务领域知识,这样才能更好的胜任数据分析的工作。

数据分析数据学习路线

Python 作为时下最火的数据分析工具之一,其在数据分析过程中主要用于较大规模的数据处理、数据可视化和数据建模等工作。在面试时掌握 Python 的数据分析师,也更容易获得企业的青睐,从而从众多竞争者中脱颖而出。

但是对于没有接触过编程的初学者来说,前期需要耗费大量的时间学习 Python 语言基础知识,当初步掌握了 Python 基础语法和一些编程方法后才可以尝试学习  Python 的数据分析模块,其实对于初学者而言,这并不是最佳的学习路线,前期学习时间成本高,而且没有任何积极的正向反馈,很可能导致您失去学习数据分析的兴趣。

因此对于刚刚学习数据分析的初学者而言,千万不要一上来就从 Python 着手学习,这是一钟错误的学习方法。那么我们到底如何规划数据分析的学习路线呢?才能实现就业、转行,成为一名合格的数据分析师。下面就是我精心为您准备的答案——数据分析师成长之路。

夯实基础Excel

Microsoft Excel 作为 Office 办公软件全家桶的一员,自诞生以来就致力于解决数据分析的相关问题,其功能全面、并且容易上手,因此备受好评。时直至今日,仍然是数据分析师不可或缺的工具之一,熟练掌握 Excel 是企业对于数据分析师的基本要求。

其实在我们的日常工作中,我们只是使用了 Excel 的皮毛而已,它的功能其实真的非常强大,对于小规模的数据数据(十万行以内的数据)非常适用,要不微软不可能花费这么大力气维护、运营 Excel,其中必有其道理。但是 Excel 功能点虽多,但是较为零碎,也需要花费一段时间去学习,但这总比编程语言好学多了。

注意:学习 Excel 途径有很多种,比如微软官方提供的学习视频,或者您也可以直接去 B 站找一些与 Excel 相关的学习视频。最后我建议您也要好好掌握 PPT,它虽然不能为您数据分析出力,但是当你向客户或者老板汇报工作室,PPT 就派上了用场,因此掌握微软的办公全家桶还是非常有用的。

掌握BI工具

BI 工具(Business Intelligence,商业智慧),随着数据的规模的越来越大,Excel 的不足之处也逐渐的显露出来,比如当数据超过 100 万行的时候,Excel 就玩法胜任了,再者由于 Excel 自动化程度较低,制表过程又较为繁琐,而且有时还需重复制作,这就极大的降低了数据分析师的工作效率,因此数据分析工作急需一种能够自动化的生成图表的工具。

1、PowerBI

PowerBI 同样是微软推出一框数据分析工具,只不过要比 Excel 更加强大。如果你有听说 Excel 里面的三大插件 Power Query、Power Pivot、Power View 的话,这个PowerBI 就是整合了这三大插件,并加入了社交分享的功能。

所有的数据分析过程都可以分为三步,获取数据、数据建模、可视化展示。这三步的最终目的是用数据来讲故事,告诉听众分析的结果,说服听众采纳自己的建议。你的故事是否生动,是否能打动人。PowerBI 就好比一个全自动咖啡机,让你用最少的时间,做出香醇的咖啡,即用最少的时间完成数据处理和分析的工作,快速交付可视化结果。

2、Tableau

Tableau 同样是一款时下比较流行的 BI 工具,它起源是 21 世纪初期,由斯坦福大学与 2003 年正式推出,它是一框非常容易上手的数据分析工具,分为个人版和商业版,它可以结合 PowerBI 和 SAS、SAPSS 等大型数据存储仓一起使用, 同时用户可以使用 Tableau 的拖放功能迅速实现数据可视化。

上述两个工具不仅可以处理更大规模的数据(千万数量级别),而且还能将整个数据处理流程发布到服务器上,自动实现从数据库取数,让您每时每刻都能看到最新的数据面板。这两个工具都掌握最好,当然也可以根据应聘企业的要求选择性的掌握其中之一,切记,BI 工具是每一位数据分析师必须要掌握的。

必备能力SQL语句

SQL 语句也是每一位数据分析师必须要掌握的内容,在企业面试时,SQL 语句可谓是高频考点。SQL 作为关系型数据库的通用语法,对于数据分析工作比较友好,可以让数据分析师容易找到数据维度间的相关联系,因此相比非惯型数据库,SQL型数据库应用更为广泛。

正规互联网公司的数据一般都会有自己的数据仓库,数据分析师要想分析数据必然要和数据库打交道,从中取出您先想要的数据,然后对数据进行筛选和清洗工作,当数据分析工作完成后,你好需要将分析出来的结果,在存回到数据仓,以备下次使用。

对于数据分析而言 SQL 语句增删改查是必须要掌握的,于此同时还要锻炼自己的取数逻辑,怎么最快,效率最高的查询到自己需要的数据。

进阶技能—Python四件套

Python 之所以放在最后学习,并不因为她不重要,而是学习成本较高,当您掌握前面提及的知识后,在学习 Python 你也有信心,否则一上来就学习 Python 如何做数据分析,很容易被代码、编程所劝退。

在正式学习 Python 数据分析模块前,你需要做很多准备工作,比如学习 Python 编程的基本知识和常用的编程方法,在掌握上述知识后,才可以尝试性的学习 Python 数分模块,在学习过程您还会遇到许多的问题,反正就是哪里不会补哪里,周而复始,最后掌握 Python 常用的模块。

Python 是数据分析师面试时的加分项,凭借 Python 可以处理上亿级别的数据量,而且代码和处理模型还以复用,对于使用 BI 工具处理起来比较麻烦的的数据分析任务,选择 Python 处理是一个非常不错的选择,掌握 Python 绝对是数据分析师简历上的闪光点。

要想使用 Python 做数据分析就要掌握以下模块:

1、NumPy

NumPy(官网:http://numpy.org) 是 Python 语言的一个扩展程序库,是 Numerical Python 的简写,支持大量的维度数组与矩阵运算,它提供了关于数组的大量的数学函数库以及大部分和 Python 数值计算有关的接口,它是 Python 数值计算的基础包,一般配合其他的第三方包使用,比如 Matplotlib、Pandas 等。

NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发。2005 年, Numeric 结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展,从而诞生了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。它主要有以下优势:

  • 快速高效且多维的数组对象 ndarray。
  • 基于元素的数组计算或数组之间数学操作函数。
  • 用于读写硬盘中基于数组的数据集工具。
  • 线性代数操作、傅里叶变换以及随机数生成。

2、Pandas

Pandas 是基于 NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas 提供了大量能使我们快速便捷地处理数据的函数和方法。它是使 Python 成为强大而高效的数据分析环境的重要因素之一。

Pandas 是 Python 的一个数据分析包,最初由一家著名的量化投资公司 AQR 于 2008 年 4 月开发,并于 2009 年底开源出来,主要开发者是韦斯▪麦金尼 。目前它由专注于 Python 数据包开发的 PyData 开发团队继续开发和维护,属于 PyData 项目的一部分。Pandas 最初被作为金融数据分析工具而开发出来。在后续章节中这将是我们关注的重点模块。

3、Matplotlib

数据分析最后的结果要以可视化的形式呈现,对于 Python 来说 Matplotlib(官网:http://matplotlib.org) 是最流行的绘图库,它由 John D.Hunter 创建,主要用于 2D 绘图和一部分3D 绘图。让我们可以非常快捷的使用 Python 完成数据的可视化工作,并且将输出的结果保存为想要的图片格式。所以将 Matplotlib 作为默认的可视化工具是一个不错的选择。

4、Scikit-learn

Python 做数据分析优势就在于可以实现数据建模,Scikit -Learn 是 Python 机器学习的常用库,它集成了大量的算法模型,比如线性回归、随机森林、决策树、支持向量机等算法模型,该模块能够实现开箱即用,极大的缩减了数据分析师构建模型的时间,提供了工做的效率。

在数据挖掘领域,自然语言处理、文本处理等领域,Scikit-learn 都得到了大量的应用,因此掌握该模块,对于数据分析师未来的发展有非常积极的作用,但是算法学习是一个非常枯燥的过程,不仅要学习底层的实现原理,还要接触大量的数学、统计学知识,因此必定是一个非常难熬的过程,各位初学者一定能做好心理准备。

学习完上述知识,就可以使用 Python 做一些数据分析的业务,您可以使用这些模块完成数据清洗、数据可视化、数据建模等任务。在实际工作中,Python 主要的任务还是完成大规模的数据处理和数据建模的工作,至于数据可视化等其他工作,还是通过 BI 工具来完成,因为编码确实是一个烧脑的过程,在工作中还是要以“效率”为先,不能舍本求末,把宝贵的时间都浪费在 Debug 代码上。

核心技能—逻辑与商业分析

一个优秀的数据分析师,其实不光是掌握工具怎么用,代码怎么写,他们身上最重要的特质是拥有有些的逻辑思维能力和商业分析头脑,这可不是一朝一夕锻炼出来的。

做数据分析工作人员,一般都是数学、经济学、统计学、计算机专业毕业的人较多,但是不妨有许多转行的人员,数据分析的最终目的是为公司的商业决策提供帮助,因此透过数据了解市场动态,找出其中的关键因素,这是一个优秀数据分析必不可缺的能力。在面试时,也要拿出具体的实战案例,比如自己亲身经历过的某个项目,拿到数据以后,自己是如何分析的,最终结果是怎么的,又有怎样的成就。

如何锻炼自己逻辑和商业思维能力,这就要求您广涉猎、多看书,多思考,多上手,充实知识储备,这里推荐一本《深入浅出数据分析》一书,这本中包含了大量的数据分析真实场景,能够帮助您初步建立商业分析的能力,同时书中也介绍了多种数据分析思路,大家阅读的过程中要不断吸取养分。当然只有这些还远远不够的,您需要做的是持续不断的学习,直到能够可以清晰地给其他人讲解您是如何完成一份数据分析任务的,也就是拥有“讲故事”的能力,千万不要小看这个能力,它也许直接决定您能否面试成功。

总之一句话,任重而道远,想要成功上岸拿到比其他高的薪水,就要付出超出常人的汗水与努力,但请相信“天道酬勤”,努力学习的您,一定会梦想成真。

© 版权声明
THE END
喜欢就支持一下吧
点赞0赞赏
分享
评论 共1条
HarryPotter的头像|艾奇编程网

昵称

取消
昵称表情