发布网友 发布时间:2023-01-02 20:50
共1个回答
热心网友 时间:2023-09-24 11:41
数据可视化实训总结
总结是对某一阶段的工作、学习或思想中的经验或情况进行分析研究的书面材料,它能使我们及时找出错误并改正,让我们一起认真地写一份总结吧。总结怎么写才不会千篇一律呢?下面是我精心整理的数据可视化实训总结,仅供参考,希望能够帮助到大家。
数据可视化是指将数据间的关系利用图表直观地展示出来。通过数据可视化将大量的数据集构成数据图像,同时将数据的各个属性值以*数据的形式表示,可从不同的维度观察数据,从而对数据进行更深入的观察和分析。
一、数据分析可视化常用的图表类型有如下几种:
1、表格
2、散点图
3、折线图
4、柱状图
5、条形图
二、可视化分析
2.1想分析购买数量前10名的用户是否是回头客还是客单量大?
对该项分析使用 表格 分析,按购买数量排名前10的用户根据购买日期的次数分析:都是一次性购买,并非回头客用户,企业应该想办法维护这些大客户群。
2.2 根据2.1分析结果继而想到那些回头客购买力度怎么样呢?从而再次对后买日期统计,分析购买次数多的用户:得出本次共分析29944个用户,回头客只有25个,占比0.083%;其中只有1名用户是购买4次的, 其余24名用户只购买2次。商家需要拉些回头客,考虑是否质量过关,是否活动力度不够?
使用一个饼状图更直接看出回头客比重之小
2.3 根据商品种类cat_id统计出销量前10名的商品种类,使用条形图做了可视化分析:
2.4 对20xx年和20xx年总销量分别按照月度和按照季度做 折线图 可视化分析,很明了看出销售变化趋势如下;11月度销量最高,第四季度销量最高。
2.5 分析表2数据,想知道哪个年龄段的儿童服装销量比较高?如下分别用 柱形图 和 散点图 进行可视化图表分析(感觉点状图效果稍好一些),可以看出相同年龄段的男女生销量走势是一致的,且随着年龄增长销量呈下降趋势。
若以3岁为一个阶段,0—3岁为婴儿期间的销量最高,淘宝和天猫市场需求量大。
三、作为数据分析职责的思想总结
在此总结下两篇初步学习数据分析的心得:数据分析首先要掌握常用的数据分析方法,数据分析工具,然后再根据自己公司的产品调整,灵活组合。接下来我要系统学习数据分析知识。数据分析师是一个实践的职位,要在实际项目中不断的训练,才能成为高手。
作为数据分析师我认为的主要职责是要将业务数据清晰、准确、明了的呈现给数据使用者和决策者,比如预测用户的流失,对用户进行自动分类等。你能提供的价值大了。决策者和管理者能够根据呈现的数据结果及时合理调整业务活动,以使企业得到利润最大化。
一、数据可视化的定义
数据可视化(Data Visualization)是涉及信息技术、自然科学、统计分析、图形学、交互、地理信息等多种学科交叉领域,通过将非数字的信息进行可视化以表现抽象或复杂的概念和信息的技术。简单的说,这种技术将数据以图表的方式呈现,用以传递信息。人类有五官,能通过5种渠道感受这个物质世界,那么为什么单单要青睐可视化的方式来传递信息呢?这是因为人类利用视觉获取的信息量巨大,人眼结合大脑构成了一台高带宽巨量视觉信号输入的并行处理器,具有超强模式识别能力,有超过50%功能用于视觉感知相关处理的大脑,大量视觉信息在潜意识阶段就被处理完成,人类对图像的处理速度比文本快6万倍,所以数据可视化是一种高带宽的信息交流方式。
如果我们的视野再开阔些,数据可视化从广义上来说包含了三个分支:科学可视化(Scientific Visualization),信息可视化(Information Visualization)和可视分析学(Visual Analytics)。科学可视化是跨学科研究与应用领域,关注三维现象的可视化,在建筑学、气象学、医学或生物学方面的各种系统中有广泛的应用,这个领域研究的数据具有天然几何结构(如磁感线、流体分布等)。
scientific_data_viz。png
信息可视化则研究抽象数据的交互式视觉表示以加强人类认知。抽象数据包括数字和非数字数据,如地理信息与文本,这个领域研究的数据具有抽象的结构,比如柱状图,趋势图,流程图和树状图,这些图表将抽象的概念转化成为可视化信息,常常以数据面板的形式体现。
info_data_viz。png
可视分析学结合了交互式视觉表示以及基础分析过程(统计过程、数据挖掘技术),执行高级别、复杂的活动(推理、决策)。
viz_analysis。png
二、在数据科学全过程中的位置
数据科学的主要组成部分包含三个大的阶段:数据整理,探索性数据分析和数据可视化。站在一个更高的位置来看,数据可视化在数据科学中的位置是比较靠后的,是属于最后的成果展示阶段。如果要从头说起的话,首先,在数据整理阶段,我们的主要任务是数据的获取和解析,包括一系列对原始数据的清洗和加工工作,这一块的知识领域主要涉及计算机科学。紧接着是探索性数据分析阶段,这个阶段要大量使用统计和数据挖掘方面的专业知识,也需要绘制图表来解释数据和探索数据,这个阶段的主要任务是过滤和挖掘。但这个阶段的可视化分析只是你和数据之间的“对话”,是数据想要告诉你什么,而数据可视化则是数据和你的读者之间的对话,是你通过数据想要告诉读者什么,这是它们之间最大的区别。完成了上面两个阶段的内容,才到了我们最后的数据可视化阶段,这是一个多学科交叉的领域,涉及到图形设计,信息可视化和人机交互,我们的主要任务是对信息进行精炼,然后通过可视化表示出来,并与读者产生交互。然而,如果将数据科学的这三个阶段理解为按严格顺序进行的“线性”的模型那就大错特错了,它经历的是一个迭代的,非线性的过程。后面的步骤会让你更了解之前所做的工作,可能到了数据可视化阶段,才意识到还有太多疑点要弄明白,我们需要回到上一步重新进行之前的工作,就像画家翻来覆去才能最终完成一幅杰作一样,数据可视化的过程并不是给数据分析这个刚出炉的蛋糕加点糖霜,,而是有一个反复迭代,不断优化的过程。
三、数据可视化的技术栈
数据可视化是一个再典型不过的多学科交叉领域了,可以说数据可视化所需要用到的知识,就是数据科学庞大知识体系的一个剪影。你会感受到数据科学理性的.一面,同样也会感受到她感性的一面。你可以穷尽自己的一生,在这个浩如烟海的领域中尽情的探索,常学常新,其乐无穷。
四、数据可视化过程
数据可视化的本质,是充分理解业务的基础上对数据进行深入分析和挖掘,然后将探索数据所得到的信息和知识以可视化的形式展现出来。也就是说我们做的工作其实就是从数据空间映射到图形空间。我们要做的第一步工作是充分的结合业务理解数据,然后采用某些方法选择合适的图表类型,这又要求我们先对图表类型有个比较全面的了解。绘制完图表是不是就完成了呢?其实不是。我们还要对图表进行优化,优化所针对的对象是各种图表元素,对此我们有一系列的设计技巧,下面将一步一步的来介绍这些知识。
4.1 结合业务理解数据
离开对业务的理解谈数据分析都是耍流氓。这里介绍一种快速了解数据与业务以开展进一步的探索与分析的方法,叫“5W2H法”。
步骤一:WHAT,这是关于什么业务的什么事?数据所描述的业务主题是什么?
步骤二:HOW,即如何采集的数据?采集规则会影响后续分析,比如如果是后端数据埋点,那么数据一般是实时的;而如果是前端数据埋点,那么就要进一步弄清楚数据在什么网络状态会上传?无网络状态下是如何处理的?这些都会影响最后数据的质量进而影响分析质量。
步骤三:WHY,为什么搜集此数据?我们想从数据中了解什么?数据分析的目标是什么?
步骤四:WHEN,是何时段内的业务数据?
步骤五:WHERE,是何地域范围内的业务数据?
步骤六:WHO,谁搜集了数据(Who)?在企业内可能更关注是来自哪个业务系统。
步骤七:HOW MUCH,各种数据有多大的量,足够支持分析吗?数据充足和不足的情况下,分析方法是有所不同的。如果七个问题中有一个答复不能令人满意,则表示这方面有改进余地。
4.2 选择图表类型
用简单的三个步骤就可以选择合适的图表类型:一看数据类型,二看数据维度,三看要表达的内容。
我们有两种数据类型,每种数据类型又有两个子类别。首先,我们有分类数据和定量数据。分类数据用来表示类别,比如苹果,香蕉,梨子和葡萄,就是水果的4种类别,称为分类定类;有的分类变量是有一定顺序的,比如可以把红酒的品质分为低,中,高三档,人的身材有偏瘦,正常和肥胖等等,这种特殊的分类变量称为分类定序。定量数据也可以进一步分为两类,一类叫连续值数据,比如人的年龄;一类叫离散值数据,比如猫咪的数量。