问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

【Kaggle】pandas数据分箱之pd.cut()

发布网友 发布时间:2024-09-30 15:33

我来回答

1个回答

热心网友 时间:2024-11-22 06:58

在进行数据处理工作时,我们常常会遇到需要对连续型数值进行分档的需求。例如,对销售员的销售业绩进行分档,如未完成任务、完成任务、超额完成任务等。为了实现这一目标,我们需要首先对销售业绩的数值进行判断,然后根据判断结果进行分类。实际上,这需要对连续型数值进行分箱操作。实现分箱的方法有很多种,但效率各有高低。在这里,我们介绍一种效率较高且易于理解的方法,即使用DataFrame中的pd.cut()函数进行分箱操作。

pd.cut()函数的参数介绍

首先,让我们来看一下pd.cut()函数包含哪些参数,以及每个参数的含义和作用。

x:一维数组,对应前文提到的销售业绩。

bins:整数、标量序列或间隔索引,是进行分组的依据。

right:布尔值,默认为True,表示包含最右侧的数值。

labels:数组或布尔值,可选。指定分箱的标签。

retbins:是否显示分箱的分界值。默认为False。当bins取整数时,可以设置retbins=True以显示分界值,得到划分后的区间。

precision:整数,默认3,存储和显示分箱标签的精度。

include_lowest:布尔值,表示区间的左边是开还是闭,默认为false,即不包含区间左边。

plicates:如果分箱临界值不唯一,则引发ValueError或丢弃非唯一。

pd.cut()代码示例

以下是一个pd.cut()函数的代码示例:

先来看一下数据源df_f = pd.read_excel(r"D:\data\football\球队排名比分2019.xlsx"),df_f读入的数据是2019年英超各球队的积分:

进行分箱,bins取整数,即指定箱子个数。

分箱结果:直接指定箱子个数,分成等宽的3份,感兴趣的同学可以求一下每个箱子内的极值,应该是约相等的。

前文提到,这种分箱方式看不到分界值是多少,但是可以通过参数进行设置显示分界值:

分箱结果:与上一次代码结果相比,多了一个array([13.953, 29.66666667, 45.33333333, 61.]),这就是分箱的分界值,我们就能知道分箱的时候是以那个数值作为分界点进行分箱的了。

如果不指定每个箱子的标签是什么:

分享结果:只显示每个位置上的数值属于第几个箱子。

bins取标量序列:指定分箱时候的分界点,即0~30,30~40,40~70一共三个箱体,有默认的right=True,即分箱的时候,30包含在0~30的箱体中,40包含在30~40的箱体中,70包含在40~70的箱体中,我们来看下结果,是不是和描述一致:

这里红框部分是要和下文更改参数right后的结果进行对比的,我们来看下:

分箱结果:能够看到,right参数设置对分箱结果的影响。为什么会有这样的影响呢?我们回顾下我们的原数据:

能够发现分界发生变化的数值正好是我们分箱的临界值,可以通过参数进行设置临界值被划分到哪一边的箱体中。

如果需要将分箱的结果展示在原数据框中,直接赋值一列进去就可以了:

结果如下:
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
石料加工服务可以全部交给第三人完成吗 山东沃尔德集团集团所辖公司介绍 齐鲁银行无忧贷和市民贷哪个好 什么叫补按揭 后按揭贷款什么意思 买房者续按揭有什么危害 加按揭是什么意思 八月中国最凉快的地方 八月份哪里最凉快,去哪旅游好?美丽的地方 乱字同韵字是什么意思 南京三日游的一些疑难问题,求助! 为什么我的手机不能接到短信? 过两天去南京一天。去过。夫子庙,中山陵,紫金山。海底世界,雨花台... 烤骨肉相连的做法,烤骨肉相连怎么做好吃,烤骨 骨肉相连(烤箱版)的做法 电影时空线索有个疑问,男主用激光笔照射屏幕,屏幕里的人怎么能感觉到... 10度左右能不能钓鲢鳙,钓深还是钓浅 买的2手三星手机ID号忘记了密码忘记了 ...找回?从新注册也搞不了,说我的手机号码已经注册过? 我的淘宝账号忘记了,邮箱也不记得了,怎么有手机号找回账号和密码? 电视机开机有声音无图像灯丝不亮是什么原因? 腾讯手机管家显示的是这样啊,没有说什么账号不安全啊? 为啥我的手机是4s腾讯管家扫过来是4那? 武装押运属于固定工作吗 2016年天津市东丽区小学毕业考难吗 天津市东丽区中河小学评价怎么样,好不好呀? 华为蓝牙耳机透传和降噪的区别? ...工程师案例分析里怎么区分直接原因与间接原因?老是搞混淆了,请哪... 事故直接原因和间接原因区别 直接原因间接原因的区别 ggplot2 | R语言中的配色方法汇总(Ⅲ):ggplot2的颜色标度函数 关于模型分箱,最容易被忽略的这几点 基于R的信用评分卡模型解析 为什么电脑的图标变大了,整个的东西按照比例都变大了?怎么变回来,我的... 我的电脑是WIN XP 的,今天桌面图标和字体突然全变大了,怎样恢复呀... xp系统,电脑所有的图标,所有的都变大了,是什么原因,驱动还是别的 电脑上面的图标很小,变大以后就是一堆的,如下图,怎样才能变回来? 原神绯红之愿是什么-绯红之愿介绍 ...韵达 中通。快递员派送好干吗,我想去做快递员。有没有做快递... 如何在表格中取消显示网格线? 如何查询微信转账好友是否收到钱 为什么iphone设置了免打扰模式,电话还是打得进来? 求matthew morrison的summer rain的歌词! 除夕前一天晚上叫什么 做空气中氧气含量的测定实验时,为什么必须冷却至室温后再打开弹簧夹... 用按揭买房后离婚怎么办理流程是什么? 东莞至长沙是指常平汽车总站对面的那个火车站吗 东莞到长沙 K9004 为何不能在东莞总站买票? ...了从惠州到长沙的火车票、但我人在东莞,因为这趟车经东莞东站...