女生零基础学大数据分析可行么
发布网友
发布时间:2022-04-22 16:41
我来回答
共7个回答
热心网友
时间:2022-04-09 16:23
数据分析的流程,一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目。按照这个流程,每个部分需要掌握的细分知识点如下:
高效的学习路径是什么?就是数据分析的这个流程。按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。
每学习一个部分,你就能够有一些实际的成果输出,有正向的反馈,你才会愿意花更多的时间投入进去。以解决问题为目标,效率自然不会低。
按照上面的流程,我们总结学习路径如下:
python基础知识
python爬虫
SQL语言
python科学计算包:pandas、numpy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib
接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。
一、数据获取:公开数据、Python爬虫
如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。但还是建议每一个数据分析师,都兼备外部数据获取的能力。
外部数据的获取方式主要有以下两种。
第一种是获取外部的公开数据集,一些科研机构、企业、*会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站:
UCI:加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用。
另一种获取外部数据费的方式就是爬虫。
比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。
以及,还需要了解如何用 Python库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从 urllib和 BeautifulSoup开始。(PS:后续的数据分析也需要 Python的知识,以后遇到的问题也可以在这个教程查看)。
网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。
掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫*。
除此之外,常用的的电商网站、问答网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。
二、数据存取:SQL语言
你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也至少要懂得SQL的操作,能够查询、提取公司的数据。
SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:
提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。
数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。
数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理*度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。
SQL这个部分相对来说比较简单,可以去这个教程:
当然,还是建议你找几个数据集来实际操作一下,哪怕是最基础的查询、提取等。你可以去调用一些公司的数据来进行实际的演练。
三、数据预处理:Python(pandas)
很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。
比如销售数据,有一些渠道的销售是没有及时录入的,有一些数据是记录重复的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。
那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。
对于数据预处理,学会 pandas (Python包)的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:
选择:数据访问(标签、特定值、布尔索引等)
缺失值处理:对缺失数据行进行删除或填充
重复值处理:重复值的判断与删除
空格和异常值处理:清除不必要的空格和极端、异常数据
相关操作:描述性统计、Apply、直方图等
合并:符合各种逻辑关系的合并操作
分组:数据划分、分别执行函数、数据重组
Reshaping:快速生成数据透视表
网上有很多 pandas的教程,主要是一些函数的应用,也都非常简单,如果遇到问题,可以参看 pandas操作的官方文档。
四、概率论及统计学知识
数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:
基本统计量:均值、中位数、众数、百分位数、极值等
其他描述性统计量:偏度、方差、标准差、显著性等
其他统计知识:总体和样本、参数和统计量、ErrorBar
概率分布与假设检验:各种分布、假设检验流程
其他概率论知识:条件概率、贝叶斯等
有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了:比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何……
你可以使用 Seaborn、matplotlib等(python包)做一些可视化的分析,通过各种可视化统计图,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,以验证结果是否在可接受的范围。
推荐书:《深入浅出统计学》
五、Python数据分析
如果你有一些了解的话,就知道目前市面上其实有很多 Python数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用 Python实现不同案例的假设检验,其实你就可以对数据进行很好的验证。
比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。这部分需要掌握的知识点如下:
回归分析:线性回归、逻辑回归
基本的分类算法:决策树、随机森林……
基本的聚类算法:k-means……
特征工程基础:如何用特征选择优化模型
调参方法:如何调节参数优化模型
Python数据分析包:scipy、numpy、scikit-learn等
在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。
当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类。
然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。
你可以通过 Python中的 scikit-learn来实现数据分析、数据挖掘建模和分析的全过程。
六、系统实战与数据思维
到这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战,练习解决实际问题的能力。如何进行实战呢?
上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。
另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。
开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。
如果在分析思路和报告撰写过程中遇到困难,你也可以看看专业的行业分析报告。
热心网友
时间:2022-04-09 17:41
学习大数据分析,关键区别不在于男生还是女生,而是个人的能力。
数据分析这个行业有着天然的专业鄙视链(文理科的逻辑思维功底、编程语言接受程度上以及数理统计基础实实在在的存在差别,这也是甲方更信赖理工科出身的重要原因,因为社科或文艺类专业,很少有学校会严格地按照数理逻辑去制定学生的课程培养计划),但是并不代表文科生没有任何机会,因为大学以前,其实我们都没正式接触过编程或统计学,大学本科更多的是提升一个人的思维、而不是过硬的专研能力。所以文科专业的朋友,兴趣和决定也是重要因素,不能单单凭借客观的专业背景就否定自己。
如果你要坚定的选择这条路,就必须克服各种依赖症,比如安装一个R语言或Python软件,从庞大的数据中得出客观的结论过程,用学到的知识去分析数据的价值等等,一定要动手动脑去实战,不要单凭以前的文科思维(更注重思维的创造和个性的发扬),理性思维和客观科学更重要。
其实文科生学习数据分析或零基础转行的痛快和纠结大家都有,但任何的时间节点上,倘若一直停滞不前、犹豫不决,那么所有可以有或可能有的机会都会错失。庆幸我虽然浑浑噩噩,一路上也是披荆斩棘,但时光不负我,付出终究收获成果!愿所有文科生想进入数据分析行业或转行的小伙伴一切都顺利。
热心网友
时间:2022-04-09 19:16
可行,这跟个人能力和学习态度有关,不存在女生学大数据就比男生吃力这种说法,学习的关键在个人,与性别无关,需要你认真努力的学。
女生学习大数据怎么样?
首先,薪资比较高,就不用加米谷多说了吧;其次,只要你真有技术,对学历、证书等不会很看重,就业相对顺利;还有,IT男是攻城狮,程序猿, 但IT女只有一个标签…女神。
不过,做这行的,可能会经常加班哦。
热心网友
时间:2022-04-09 21:07
可以学的,现在都没有男女之分了,女生学习这个一样可以,很吃香!
热心网友
时间:2022-04-09 23:15
学习大数据分析,关键区别不在于男生还是女生,而是个人的能力。 数据分析这个行业有着天然的专业鄙视链(文理科的逻辑思维功底、编程语言接受程度上以及数理统计基础实实在在的存在差别,这也是甲方更信赖理工科出身的重要原因
热心网友
时间:2022-04-10 01:40
我是来自农村的一名很普通的女孩,17年大学毕业,现在在杭州一家大数据公司做分析师。想跟大家分享一下,我是如何从刚毕业的一张白纸,成长为一名大数据分析师的,希望我的学习成长心路历程,能够给到现在想往大数据分析行业发展的小伙伴一些参考。
我刚毕业的时候和现在许多学弟学妹一样,都非常迷茫,因为我对自己未来并没有一个非常清晰的职业规划,我不知道自己能够做什么?心里还有一些自卑,因为即便我很爱我的大学,但不得不承认,它只是一个很普通的大学,并非985、211。在如今大学生多如牛毛,激烈的就业环境中,我的学历和专业并没有太大竞争力,也有些后悔为什么大学期间没有再认真努力一些,但为时已晚。毕业,意味着新的人生起点,必须要勇敢面对,未来只能靠自己的能力在社会上生存和发展。
于是,就这样,带着对母校和同学们的不舍、对社会的彷徨、对自己内心的恐惧、以及家人给予我的期望迈入社会,开始了我的求职之路。找了半个月的工作,面试20来家,有3家成功的,但是开的工资最高3500一个月,并且2家是销售岗位,1家也不是我本专业的岗位(我的专业是信息与计算科学),我算了一下,就算我接受这些陌生并且不喜欢的岗位,在杭州这样的城市,合租房包水电物业费也得1500左右,公交一个月最少200,生活费最少900,电话费100,3500一个月的工资还要扣除五险一金,每个月还要倒贴。我简直快奔溃了,感觉自己很没用,连独立在城市生存下去的能力都没有,心里非常的沮丧。
也许命运就是这样,当你面临几乎绝望的时候,往往能审视自己,明白自己真的想要什么,静下心来的时候,我问自己,为什么企业不要我这样的学生?答案其实大家都知道,一是没有工作经验,二是啥都不懂不能为企业创造价值;三是面试的时候紧张、不自信、没有很好的表现自己。按这个逻辑分析下去,再找半个月我也不指望能出现奇迹,可能连我最后一点的自信都会被打击光。我隐约的感觉到需要重新定位自己,需要与其他同学拉开区分度,目前我学的这个专业和知识好像与企业要求的能力相差太大,如此分析后,摆在我面前的路有三条,一是接受3500的工作,熬个一年半载希望能加点工资,让自己在杭州生活下去,以后再谋发展;二是回老家的小城市随便找个工作以后结婚过日子;三是选择一个现在人才缺口大的行业,并且未来有前景的职业从头开始学习,这样至少我还比别人快一步。
去年社会上最热门的字眼就是人工智能、大数据,当时我在网上查了很多信息,看了很多新闻,也在招聘网站上查询大数据岗位的薪资和招聘人数及技术要求等情况,我发现大数据行业分二个方向,一是大数据工程开发类,二是大数据分析类,开发类的编程要求比较高,而分析类的编程技术要求相对低些,在网上找了一些分析课程听了一下,感觉还挺有意思的,也能听懂,相比与开发类,自己更喜欢也更适合分析类,所以就下定决心往数据分析这个方向进行学习。后面我花了10来天的时间去了解数据分析的前景和学习路径,但是网上的信息太杂乱,只能了解一个大概,在网上买了一些课,也买了好几本书,一个星期下来还是毫无头绪,本以为把HADOOP学会就能入门了,结果发现HADOOP搭建会了后面的SPARK太吃力;这时候我感觉还是需要去正式培训一下,自学找不到方向,也比较浪费时间;上天还是比较眷顾我的,我记得是去年的7月初,我在网上查大数据分析培训的时候,发现阿里云和他的内容提供商杭州决明数据科技联合推出一个《阿里云大数据分析师企业实战训练营》,需要选拨才能进入,抱着对阿里云品牌的信任,我进行了考试筛选,当时考的内容是两部分,一是数据库、二是C语言和JAVA;说真的JAVA一窍不通,没想到第二天接到通知说通过了,接下来需要电话面试,我当时就怀疑是不是骗人的,在电话面试的时候我就问了负责的老师,老师说是从250多个报名参加的学生中选10个人参加,主要是为新研发出来的课程体系做实验,我作为计算机相关专业、不懂JAVA只懂数据库的学生样本被选中了,另外面试沟通表达能力必须通过。突然有种被实验的感觉,这不是拿我做小白鼠嘛,我问还有其他样本是怎么样的,负责老师说,有一个是大三未毕业数学统计专业的、有一个机械工程三本学生、有一个软件开发专业的一本学生、有一个工作三年软件开发的学生、有一个工商管理专业的学生……我的个神了,当时就蒙圈了,这玩意万一实验失败我钱不就白花了,还浪费1个多月时间,我给父母说后没一个人支持我的,直到7月9号正式开营的前一天我才想明白一件事,在中国连阿里云这样的企业目前都没有一套完整的科学的课程体系,那其他家肯定也没有,如果是骗人的负责老师也没必要把做实验这事情给我说的这么清楚,最后一天选择了这个训练营,其实心里非常忐忑不安。
集训营10个同学一起学习35天,近2个月时间,经过系统的训练,我们10个同学被杭州7家企业录用,全部是数据分析岗位,有去电信的、有去外贸企业的、有去金融企业的、有去阿里系相关企业的,我和那个大三的学弟一起去了阿里系的企业,我试用期,他实习期,大家都非常的开心,说真的非常感谢阿里云和阿里云的合作伙伴决明数据科技的老师们,当时给我们上课的全部都是决明的老师,老师们都非常的专业负责,公司本来就是做企业商业数据咨询的,所以有很多商业案例跟我们分享,用的实验平台是九道门商业数据分析实验平台。
从小白鼠到入行,到现在也有小三年工作经验的我,给大家一个学数据分析师的学习路径,仅供大家参考;
1、 建议大家先学习MYSQL关系数据库,在分析师岗位上数据库是经常要用到的,也是必须要会的;
2、 建议大家接下来学习数据建模、数据仓库,ETL数据清洗,特别在工作中数据质量管理是比较重的,ETL是经常用的(当然数据清洗工具也有其他的,ETL是大家通用的);
3、 HADOOP分布式其实在分析师这个岗位上用的比较少,了解就可以了,因为现在分布式这块大公司都有现成的工具用,连搭建都不需要,直接用就可以了,非常方便。
4、 分析工具还是需要好好学一下的,建议大家学Python,现在公司里面大部分都是用这个,EXCEL也需要学习学习,一些小的数据集和简单的BI报表还是比较方便的。当然分析工具比较多比如R、SPSS,SAS等都是工具,就看你自己用什么了,会用一个熟练的工具就可以了。另外Python功能非常强大,也不需要研究太深,其实工作做在做项目的时候经常用很快就能学会的,毕竟只是个工具,就像EXCEL要想全部弄清楚所有功能那可不是一天二天的事情,而我们日常经常用的也就是那点东西。
5、 接下来需要学习机器学习,原来叫数据挖掘,现在叫机器学习,也有的叫人工智能,这个需要大家花点时间去学习了,我现在经常用的比如决策树、回归问题、分类问题、聚类问题、降维问题等,还有预测、无监督、最优化也经常用到,这门学科可能是需要我们长时间学习和研究的。
6、 算法方面其实我没有学过,在项目组里面有专门的算法工程师,另外有些通用算法是可以套用的,所以这方面我觉得项目组团队可以配合来做,这方面本人没有经验不做建议。
7、 我现在觉得分析师最重要的是看待问题、处理问题的思路,在这一年工作中我发现团队的大牛们解决问题的思路和我们真不一样,在每次项目组会议的时候我感觉学到的东西最多,那就是解决问题的思路和能力;而且分析师还需要对业务深入了解,因为不同的行业数据结构和业务逻辑都是不一样的,需要花时间去理解和学习;同时我也感觉到作为数据分析师还需要学习商业思维和营销知识。
8、 另外一个就是数据可视化,这个主要是把我们分析出来的数据结构用图像、动画等按时呈现出来。我现在正在做的就是数据大屏,工具很多,BAT公司都有自己的工具,当时老师教我们的时候教的是 Tableau,个人感觉非常好用,这个随便自己喜好了,做大屏可能需要一点美术功底,当然现在模板比较多,也可以套用。
9、 其实在学习的过程中要想学得快,最好是从项目案例入手,当时阿里云和他的内容提供商决明数据就是先让我们训练九道门实验平台上的23个场景案例,数据集全部做好放在服务器里,和我们现在工作的场景很像。老师上午讲知识点,下午和晚上我们就是做实操实验,工具老师基本上都不讲,在做案例项目的时候用到什么临时去查,二次下来工具就上手了。最后一周是加拿大的赵强老师给我们训练了一个大项目,模拟一个企业的数据分析项目,那5天是我最刻苦铭心的,虽然压力很大,分组进行,但是5天时间把我们原来所学的东西全部串起来了,一下子思路就通了,最后每个人还要上台去讲,也培养了自己的沟通能力和演讲能力,整个项目流程下来,受益匪浅。赵老师原来为世界500强企业做过数据咨询项目的,又是加拿大舒立克商学院的MBA教授,项目经验丰富,确实是国内少有的专家大咖,是决明科技的创始人,也是我现在上班这家公司的项目顾问,多亏了赵老师的悉心指导,让我在成为大数据分析师的学习之路上少走了很多弯路,真的蛮感谢赵老师的,也希望大家在学习的路上都能遇到这样的良师益友。
10、 最后一个建议就是大家还需要学习学习PPT制作和演讲,最近我们项目要陆续交付,每次交付都需要向客户进行讲解,每个人做的部分由自己讲,所以PPT制作和演讲都需要训练,亚历山大。
说了这么多,只能代表我这一年来的经历和感受,也不知道对学弟学妹有没有帮助,反正如果你们想往大数据分析师这个职业发展的话,建议大家一定要从项目入手去学习,工具要学但是不要研究太深,会浪费时间,工作后用起来上手非常快,如果自学没有头绪,培训还是很有必要的,但一定要找专业方面的人进行培训,我觉得我还是非常幸运的,遇到了阿里云以及杭州决明科技的老师们,如果学弟学妹们有这样的想法,可以去了解一下,当时我们是第一批培训的,不知道他们现在还在不在做,他们集训就是从项目入手,跟我现在工作内容十分相似,虽然集训过程很辛苦学的也很累,但收获与影响是巨大的。
我当时集训结束的时候就拿到了两个个公司的OFFER,一个是全球排名前十的游戏营销咨询公司,一个是我现在上班的XX云公司;当时选择的时候其实很痛苦,两个个公司都非常不错,因为我是在阿里云实验班出来的,我还是选择了阿里系的企业。
如愿以偿进入了大数据分析职业,天天做项目,非常开心,我相信我自己能在杭州好好的工作,好好的生活下去,毕业季,也祝小伙伴们能和我一样幸运,找到自己喜欢的工作。
最后感谢阿里云和决明数据科技的老师,同时也推荐想学大数据分析的学弟学妹们去九道门商业大数据分析实训中心,因为专业所以认同。
热心网友
时间:2022-04-10 04:21
首先需要有足够的数学基础, 线性代数,微积分这是最基础的。
其次:业务知识,需要在相关领域有一定的业务积累,才能发挥功效,简单来说,就是工作经验
第三:数据来源。
当然可以到俺校看看,毕竟初中起步就可以入学