我的数据分析师转型之路,从零到字节跳动数据分析师_从零进阶互联网数据分析师(已完结)百度云下载-程序员宅基地

技术标签: 数据分析  大数据  

从一个什么都不懂的小白,到现在字节跳动的数据分析师,我用了大概1年的时间,在这里想给大家分享一下我的转行经历,希望能有一些帮助。

我的数据分析师转型之路,从零到字节跳动数据分析师
出于隐私考虑,我就全部打码了。。。

先说一下个人背景,本科是工科相关,非计算机非统计学,硕士是金融相关,基本也算是和数据分析没什么关系,毕业之前有过迷茫,因为自己其实也不知道到底适不适合金融行业,而且上学的时候没有认真搞过什么银行、券商的实习,基本毕业就是凉凉的节奏。所幸毕业前,在和友人的一次偶然交谈中,得知了数据分析这个职业,发现自己似乎比较感兴趣,当时也没有其他路可以选,就决定孤注一掷,all in 数据分析,在此也感谢一下那位友人,人生确实是在于你能否做对几个关键的选择。

决定转型后,先是到网上恶补了一下数据分析师这个行业的整体情况,现在数据分析师其实很杂,不同企业对数据分析师有不同的定位,但大概总结一下的话,是可以分为两种:

偏技术型数据分析师和偏业务性数据分析师

技术型分析师更接近于数据挖掘工程师、算法工程师、大数据工程师这种概念,一般来说是需要比较好的数据结构知识和算法知识,对于非计算机专业的同学,转型会有一定难度。其实一开始我考虑的是这种分析师,但在后面刷了几百道leetcode题之后,决定放弃这条路(太难了)。

第二种就是偏业务型的数据分析师,也是市面上岗位最多的数据分析师,这种分析师的门槛会相对比较低一点,但做不好的话,很有可能就变成报表分析师,提数分析师。不过毕竟门槛还是比较低的,对于想转型的同学,业务型数据分析师会更加友好一些

明确了转型方向后,对于从零转型的同学来说,会有两个比较迫切的问题,我该从什么地方下手和我简历上啥都没有怎么办。对于第一个问题,我的选择是先列了一个我认为的业务型数据分析师所需要的能力矩阵,再针对性准备,简单来说主要包括这几个层面:

我的数据分析师转型之路,从零到字节跳动数据分析师

基本工具

数据分析师三板斧:Excel、SQL、Python

Excel、SQL、python是数据分析师必知必会的3个基本工具,下面我们一个个来看:

Excel

对于Excel的学习,如果你的意向的岗位不是那种纯excel的数据分析师岗位的话,建议大家不需要花费太多时间在excel上,我个人是几乎没花什么时间在excel上,主要的是要掌握vlookup、透视表和一些常用图表,不会的函数就直接百度。

SQL

核心!sql一定要熟,笔试基本必考,面试时候大概率让你手撕sql,写不出的话很容易凉凉。对于sql的学习,完全没有基础的同学可以先看这本《sql必知必会》,了解sql的一些基本知识,增改删查,主要看查询的部分。

我的数据分析师转型之路,从零到字节跳动数据分析师

看完这本书后你对sql的语法应该有了一些基本的了解,但如果不多练习的话,面试手写sql的那种场景,脑子很容易宕机,在这里强推几个练习网站。

1.牛客网编程

牛客网在线编程,强力推荐,可以自动批改sql正误,纯中文,还有题目讲解,这个题库我刷了2遍

我的数据分析师转型之路,从零到字节跳动数据分析师

2.Leetcode

也是一个比较知名的网站了,学计算机的可能都知道。英文的代码在线练习网站,但今天看了一下发现有中文了,但是很多题目都变成了收费题目,牛客网刷完感觉不够的话可以再来这看看

我的数据分析师转型之路,从零到字节跳动数据分析师

总结一下:对于sql的掌握就是看书了解基础,多刷题巩固,在面试中一般问题不大,当然也不排除有一些变态sql笔试题,这种就看缘分了。

Python

相对上面两个工具,python的学习难度会稍微大一些。python能干很多事,对于数据分析师来说,主要应掌握基础语法和数据科学的模块,主要包括pandas numpy 和机器学习库sklearn等,有同学可能会问业务型数据分析师也需要会算法吗?答案是虽然不是必须项,但是加分项,尤其是在从零转型情况下,是增加自己份量的一个筹码。

对于python的学习,建议大家不要报班交智商税,在coursera上有大把的资源,我学习的是密歇根大学的python课程《Python for everybody》,看完入门的话不是问题,课程是免费的。

我的数据分析师转型之路,从零到字节跳动数据分析师

学完这个课程你对python就有基本的了解了,但和sql一样,还是需要多练多运用才能真正融汇贯通。那么怎么练习python呢,在这里推荐一个可能很多人都知道的数据竞赛平台,没错就是kaggle,相信不少人都看过泰坦尼克号生存预测这个项目,这个项目的来源就是kaggle。在kaggle上打比赛,既能让你练习python,又能让你有一些项目可以放到简历上,一举两得。

我的数据分析师转型之路,从零到字节跳动数据分析师
红圈内就是泰坦尼克项目

入门的话可以先从泰坦尼克或者房价预测入手,但放到简历上的话,建议大家挑几个正式的比赛去做一下,这两个项目过于泛滥,含金量比较低了。我在kaggle里面打过很多个项目,最后选择了一个信用卡违约风险预测的项目,《Home Credit Default Risk》放到了简历上,除了kaggle之外,还有其他很不错的数据比赛平台,后面在项目篇会给大家再详细讲一下。

数据分析理论知识

统计学和机器学习两手都要抓、两手都要硬

理论知识这块,数据分析师最需要掌握知识是统计学和机器学习,但掌握到什么程度、掌握哪些领域,还是有些门道。

统计学

如果不是统计学专业的同学,一般面试官心里都有数,不会问你很难的问题,大学统计学范畴。对于统计学基础不怎么好,或者已经忘干净的同学,可以看网易公开课里可汗学院的课程恶补一下,我在准备的时候复习了一遍,感觉效果不错,捡回了不少遗忘的知识。​如果说没有时间看完全部课程,应该重点掌握哪块知识呢?假设检验,假设检验,假设检验,重要的事情说3遍,假设检验绝对是面试中统计学最高频的问题,和以后的工作也会最息息相关(a/b test)。

我的数据分析师转型之路,从零到字节跳动数据分析师

机器学习

机器学习相关的知识学习成本会比较高,对某些同学来说可能会有一定难度,但对于业务型数据分析师来说,一般不会要求你去推导算法公式,能做到明白不同算法的适用场景、优缺点、原理大概懂就基本可以了。

在机器学习这一块,我的学习路径是这样的:


视频课程:

首先入门强推吴恩达大牛的coursera(www.coursera.org)机器学习课!!千万别花钱报班了,入门看这个就够了!

我的数据分析师转型之路,从零到字节跳动数据分析师

看完觉得不过瘾想要进阶的话,可以继续看吴恩达大牛斯坦福大学的公开课,难度会比coursera上的课程更高一些,对于可以翻墙的同学,可以去youtube上找台湾国立大学林轩田老师的《机器学习基石》和《机器学习技法》,难度会再高一些。我当时是连续刷完了这3门课程,虽然刷完之后部分知识还是有理解不够深入的情况,但应付面试已经差不多了。

我的数据分析师转型之路,从零到字节跳动数据分析师
youtube机器学习课程

书籍

阅读书籍可以帮助你更好的把知识沉淀下来,除了上面视频课程之外,我还刷了2本书籍。第一本是西瓜书,第二本书是李航的统计学习方法,这两本就不用多说了,经典读物。内容可以挑着看,主要看一下常用的机器学习模型,svm、随机森林之类的。

我的数据分析师转型之路,从零到字节跳动数据分析师

 

我的数据分析师转型之路,从零到字节跳动数据分析师

数据分析项目实战

kaggle打的好,工作也好找

如果你已经学完了上面的python和机器学习课程的话,就可以进入实战阶段了,我的选择是去打比赛,既可以巩固学到的知识同时又可以解决简历中没有相关项目的问题。

打比赛和真实的数据分析工作其实非常接近,对于大部分常规数据科学比赛而言(比如泰坦尼克号/房价预测这种),大部分人的模型最后其实都大差不差,lgb/xgb搞一搞,再做个模型融合,决定成绩好坏的关键往往是在特征工程上,有时候一个magic feature就能让你的排名上升数百名。magic feature从何而来?是来自你对比赛业务的理解,只有你真正理解了业务,才能构思出好的特征,从而取得好的名次,这个业务型数据分析师的本质也是相通的,理解业务,改进业务。

我举个简单的例子,以我做的信用卡风险项目为例,比赛目标是根据用户的个人信息和一些行为数据来判断用户是否会违约。其中有一个特征是用户的工资,第二个特征是用户信用卡已使用的额度,从业务的角度考虑,如果一个用户使用信用卡的额度远高于他的工资,那么这个用户是不是很有可能就没有钱还信用卡,违约风险会比较大?基于这个假设,我设计了一个 信用卡使用额度 / 工资的特征,经过可视化发现,确实是这个比值越大,用户违约的风险就会越高,把这个特征放到模型里面,我的模型分数有了显著的提高。

这个就是一个基于业务理解做出假设、通过数据验证假设、改进业务的闭环,这也是你在面试中,应该向面试官表达的。

下面推荐几个常见的数据科学比赛平台:

1. Kaggle

首推,强烈推荐!kaggle的优势不仅在于比赛众多,更重要的是里面会有很多选手分享他们的思路和代码,是分享做的最好的一个平台,我的python和数据挖掘基本就是从kaggle练起来的。

2. 阿里天池

国内最有牌面的数据比赛平台,如果你能在阿里天池拿一个不错的名次,含金量就相当高了,但是难度很大,对于转型的同学基本不太可能,可以看看新人赛和一些分享之类的。

3.DataFountain

某数据比赛平台,难度相对天池会低一些,且比赛内容对于国内hr来说,可能会更熟悉一些,在这个平台上,我打了一个招商银行的比赛,1867个参赛选手中拿到了第34名,算是成绩最好的一次。

我的数据分析师转型之路,从零到字节跳动数据分析师

数据分析思维

没有比这个更重要的能力了

分析思维是数据分析师最最核心的竞争力,上面所学习的python、sql、机器学习知识等都是在工具层面,要想使用好他们,还需要分析思维的驾驭。在面试中,对分析思维的考察也是相当重要的一环。

对于分析思维的学习,我建议新人也是从读书开始,我看过的且比较推荐的书包括:

数据分析类:

《精益数据分析》、《增长黑客》、《数据化管理:洞悉零售及电子商务运营》、《数据挖掘与数据化运营实战 思路、方法、技巧与应用》

产品思维类,如果是想要从事互联网行业的数据分析师的话,产品思维也是必须要具备的,面试考察点之一

《从点子到产品:产品经理的价值观与方法论》、《俞军产品方法论》、《产品思维》

逻辑思维类:在面试中逻辑清晰的回答面试官的问题,会为你大大的加分

《金字塔原理》、《学会提问》、《麦肯锡思维》

看完这些书,我相信你已经具备了基本的数据分析思维。但书中的知识和实际工作毕竟还是有一些差距,在这里我结合我的工作经验,给大家列几个数据分析师真实工作场景中常遇到的问题,问题会比较偏向互联网行业,其他行业的同学可以作为参考。

1、假设抖音的人均活跃时长下降了,你该如何分析这个问题?

2、网易云音乐之前有一个每天给你推10首歌的功能,如果让你设计指标来衡量这个功能的效果,你会设计哪些指标?

3、很多信息流app在新用户第一次注册时,都会让他们去选择兴趣标签,如果想让你做这个功能的专题分析,你会怎么设计你的报告框架?

最后,希望大家都能找到理想的工作。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zl1zl2zl3/article/details/104689559

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk

随便推点

matlab(4):特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析 时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;amp;gt;Jni-&amp;amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法