问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python大数据挖掘系列之基础知识入门 知识整理(入门教程含源码)

发布网友 发布时间:2022-10-12 20:57

我来回答

1个回答

热心网友 时间:2023-10-05 05:10

Python在大数据行业非常火爆近两年,as a pythonic,所以也得涉足下大数据分析,下面就聊聊它们。

Python数据分析与挖掘技术概述

所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信息,比如统计平均数,标准差等信息,数据分析的数据量可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖倔,得到一些未知的,有价值的信息等,比如从网站的用户和用户行为中挖掘出用户的潜在需求信息,从而对网站进行改善等。
数据分析与数据挖掘密不可分,数据挖掘是对数据分析的提升。数据挖掘技术可以帮助我们更好的发现事物之间的规律。所以我们可以利用数据挖掘技术可以帮助我们更好的发现事物之间的规律。比如发掘用户潜在需求,实现信息的个性化推送,发现疾病与病状甚至病与药物之间的规律等。

预先善其事必先利其器

我们首先聊聊数据分析的模块有哪些:

下面就说说这些模块的基础使用。

numpy模块安装与使用

安装:
下载地址是:http://www.lfd.uci.e/~gohlke/pythonlibs/
我这里下载的包是1.11.3版本,地址是:http://www.lfd.uci.e/~gohlke/pythonlibs/f9r7rmd8/numpy-1.11.3+mkl-cp35-cp35m-win_amd64.whl
下载好后,使用pip install "numpy-1.11.3+mkl-cp35-cp35m-win_amd64.whl"
安装的numpy版本一定要是带mkl版本的,这样能够更好支持numpy

numpy简单使用

生成随机数

主要使用numpy下的random方法。

pandas

使用 pip install pandas 即可

直接上代码:
下面看看pandas输出的结果, 这一行的数字第几列,第一列的数字是行数,定位一个通过第一行,第几列来定位:

常用方法如下:

下面看看pandas对数据的统计,下面就说说每一行的信息

转置功能:把行数转换为列数,把列数转换为行数,如下所示:

通过pandas导入数据

pandas支持多种输入格式,我这里就简单罗列日常生活最常用的几种,对于更多的输入方式可以查看源码后者官网。

CSV文件

csv文件导入后显示输出的话,是按照csv文件默认的行输出的,有多少列就输出多少列,比如我有五列数据,那么它就在prinit输出结果的时候,就显示五列

excel表格

依赖于xlrd模块,请安装它。
老样子,原滋原味的输出显示excel本来的结果,只不过在每一行的开头加上了一个行数

读取SQL

依赖于PyMySQL,所以需要安装它。pandas把sql作为输入的时候,需要制定两个参数,第一个是sql语句,第二个是sql连接实例。

读取HTML

依赖于lxml模块,请安装它。
对于HTTPS的网页,依赖于BeautifulSoup4,html5lib模块。
读取HTML只会读取HTML里的表格,也就是只读取

显示的是时候是通过python的列表展示,同时添加了行与列的标识

读取txt文件

输出显示的时候同时添加了行与列的标识

scipy

安装方法是先下载whl格式文件,然后通过pip install “包名” 安装。whl包下载地址是:http://www.lfd.uci.e/~gohlke/pythonlibs/f9r7rmd8/scipy-0.18.1-cp35-cp35m-win_amd64.whl

matplotlib 数据可视化分析

我们安装这个模块直接使用pip install即可。不需要提前下载whl后通过 pip install安装。

下面请看代码:

下面说说修改图的样式

关于图形类型,有下面几种:

关于颜色,有下面几种:

关于形状,有下面几种:

我们还可以对图稍作修改,添加一些样式,下面修改圆点图为红色的点,代码如下:

我们还可以画虚线图,代码如下所示:

还可以给图添加上标题,x,y轴的标签,代码如下所示

直方图

利用直方图能够很好的显示每一段的数据。下面使用随机数做一个直方图。

Y轴为出现的次数,X轴为这个数的值(或者是范围)

还可以指定直方图类型通过histtype参数:

图形区别语言无法描述很详细,大家可以自信尝试。

举个例子:

子图功能

什么是子图功能呢?子图就是在一个大的画板里面能够显示多张小图,每个一小图为大画板的子图。
我们知道生成一个图是使用plot功能,子图就是subplog。代码操作如下:

我们现在可以通过一堆数据来绘图,根据图能够很容易的发现异常。下面我们就通过一个csv文件来实践下,这个csv文件是某个网站的文章阅读数与评论数。


先说说这个csv的文件结构,第一列是序号,第二列是每篇文章的URL,第三列每篇文章的阅读数,第四列是每篇评论数。


我们的需求就是把评论数作为Y轴,阅读数作为X轴,所以我们需要获取第三列和第四列的数据。我们知道获取数据的方法是通过pandas的values方法来获取某一行的值,在对这一行的值做切片处理,获取下标为3(阅读数)和4(评论数)的值,但是,这里只是一行的值,我们需要是这个csv文件下的所有评论数和阅读数,那怎么办?聪明的你会说,我自定义2个列表,我遍历下这个csv文件,把阅读数和评论数分别添加到对应的列表里,这不就行了嘛。呵呵,其实有一个更快捷的方法,那么就是使用T转置方法,这样再通过values方法,就能直接获取这一评论数和阅读数了,此时在交给你matplotlib里的pylab方法来作图,那么就OK了。了解思路后,那么就写吧。

下面看看代码:

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
宁波社保卡办理需要什么材料 宁波社保卡如何申领 有什么高性价比的隔离霜可以推荐? 防晒效果好的隔离霜有哪些值得入手? 下雨天经常爬在房子墙上的那种软体动物,不是蜗牛没壳的,可以在墙上把身... 原来是美男啊里面插曲、主题曲都有哪些? 请问下各位大虾,我在外地用外地农行卡网上转账到本地邮政卡星期六转账的... 为什么用支付宝买东西明明我余额足够,付款时却说我余额不足?2个... 萍乡烛式过滤器品牌 衡水烛式过滤器品牌推荐 早上喝茶对身体好吗? 与“部落”相关的词语或字的组合 有那些表示组织性的、团体性的名词啊?例如大本营、部落等等~ 工会,协会,堂,集团,联盟,部落,求类似这样意思的词,就是一个后缀,越多越好 思乡著名的现代诗歌 现在幼儿园找幼师用什么证件吗? 明史列传第八十二孙交翻译 求明史列传第二十八的全文翻译,谢谢。 11题,文言翻译 华为nova4边框坏了,能换吗 一节好课活动总结 小学数学,求1,2,3的面积 济南大明湖公园门票多少钱,能坐什么公交车。谢谢 淄博的玉带湖好玩吗?坐公交车怎么去? 东丽湖华桥城坐公交车几路车到东丽医院 哪些公交车到神女湖? 在哪里可以坐? 武汉东西湖有什么好玩的吗?坐公交车怎么走? 想去东钱湖旅游,怎么坐公交车可以直接到达呢? 东钱湖哪个景点好玩呢?是跟女朋友一起去,2个人。 去长岭湖在哈西站坐公交车怎么坐 济南的趵突泉、大明湖都坐什么公交车能到? 药企工作总结心得报告 淘宝上有哪些冷门但是好吃的零食呢 刚买的电煮锅加热后底部有白点是怎么回事? 河北工程大学学临床医学的学生考研可以考到哪个学校。 还有历年考研分数线是多少。 谢谢_百度问一问 小型草缸里适合养那些小型热带鱼? 观赏鱼草缸中适合养哪些种 做医生用英语怎么说 测你的他是真的爱你还是只爱你的身体 做糖醋鱼要提前腌一下么 糖醋鱼怎么腌制比较好 梦见自己被批评 独有宦游人,偏惊物候新。的下一句是什么啊? 拜谢造句-用拜谢造句 酱腌菜的加工制作 穿什么样的衣服呢 水冷摩托车可以加汽车无水防冻液吗? 孔子是什么学派得呢? 明星怎么整牙 fast fw306r 突然连不上网了 想学舞但是没有任何的基础,韧带坚硬,有什么舞适合? FW306R路由器设置好后为啥连接不上网