问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

15万条数据处理多久python(2023年最新整理)

发布网友 发布时间:2024-10-02 03:13

我来回答

1个回答

热心网友 时间:2024-10-17 17:23

导读:本篇文章首席CTO笔记来给大家介绍有关15万条数据处理多久python的相关内容,希望对大家有所帮助,一起来看看吧。

python处理20万数据多少时间

大概三十多秒。

Python是一种使用较多的解释型、高级和通用的编程语言,具有速度快,效率高,准确度高的特点。

python处理大数据程序运行的越来越慢的问题

最近编写并运行了一个处理1500万个数据的程序,本来最初每秒可以处理150个左右的数据,预计大概15个小时的时间就可以处理完,晚上的时候就开始运行,本以为等到第二天中午就可以得到结果呢,,,

可是,等我第二天的时候一看,什么???还没处理完,当前的数据处理速度变成了一秒5个左右,然后还需要等待300个小时。

然后就查了一下这个问题,原来同样也有很多人在处理大数据的时候遇到了这个问题,大多数的文章分析的原因都是说由于GC(垃圾回收)造成的性能下降。

Python的垃圾回收机制的工作原理为每个对象维护一个引用计数,每次内存对象的创建与销毁都必须修改引用计数,从而在大量的对象创建时,需要大量的执行修改引用计数操作,对于程序执行过程中,额外的性能开销是令人可怕的。回收的触发时机有两种可能,一是用户主动调用gc.collect(),二是对象数量超过阈值。

所以正是GC拖慢了程序的性能,所以我们可以考虑在处理的时候禁止垃圾回收。

通过这样的改进之后速度确度会有很大的提升。但是又有也会另外的一个问题,内存溢出,由于运行的过程中生成大量的对象,一次使用后就没有了引用,由于关闭了垃圾回收机制,一直存在内存中得不到清理,然后程序的内存使用量越来越大。解决的方法就是定期打开gc.enable()再关闭或者主动调用gc.collect(),这样就可以了。

通过上述的改进后程序确实了很多,可是我的程序还是运行的越来越慢,我都怀疑人生了,然后分别测试了各个步骤所花费的时间才知道了原因,我使用了pandas创建一个DataFrame,然后每次迭代得到的结果都添加新的数据到DataFrame中,随着里边的数据越来越多,添加的速度也就越来越慢了,严重的拖累的运行速度。这里的解决方法有两个:

1分段保存结果,间隔一段时间就保存一次结果,最后再将多次的结果合并。

2换一个数据存储方法,我是直接使用了python的字典进行保存结果,它随着数据的增多添加的速度也会变慢,但是差别不是很大,在可接受的范围内,可以使用;或者再加上方法1,分段进行保存再合并也是可以的。

python跑10000个数据集要多久

看具体采集任务的内容,如果是图片,访问地址规范,熟悉规则,也就是一两分钟的事情,如果是复杂网页,并且反爬规则负杂可能需要半个小时,如果类似从天眼查爬取整个公司信息10000个,可能需要一两天,因为一个公司就需要n多信息

Python存200w数据到数据库需要多久

Python存200w数据到数据库需要474秒,因为正常的三万八千条数据仅需要9秒,以此类推出200万需要的时间。

【python存数据库速度】

1、需要从文本中读取三万条数据写入mysql数据库,文件中为用@分割的sql语句,但是在读取的过程中发现速度过慢,三万八千条数据需要220秒,

2、经测试发现,影响速度的主要原因是commit(),因为没过几秒提交一次即可,但是因为提交的字符长度有限制,所以要设置一个合理的时间读取。

3、更改后,写入三万八千条数据仅需要9秒

结语:以上就是首席CTO笔记为大家介绍的关于15万条数据处理多久python的全部内容了,希望对大家有所帮助,如果你还想了解更多这方面的信息,记得收藏关注本站。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
dell电脑散热是按哪个键 风水中的北方与肾的关系 20分+100分 哈尔滨近期招聘会 哈尔滨信息港的基本信息 哈尔滨信息港基本信息 哈尔滨市最近的招聘信息? 黑龙江省招聘查询入口(龙招港黑龙江招生网2020招聘信息)? 小区车位如何配比 身上红点不痛不痒是怎么回事 万家乐LJSQ20-12UF1保修信息 python程序最多计算多少数据(2023年最新整理) 把钢铁是怎样炼成的概括成10个事件 红心火龙果和白心火龙果的区别,红心火龙果和白心火龙果的区别在哪里 100万左右的奔驰,宝马和凌志哪个噪音低和平稳? 离合器会不会容易出现问题准备入手 但是看网上说双离合器容易坏 懂美利达自行车的进 开外循环在车里睡觉可以吗? 在车里开空调睡觉开内循环还是外循环? 谁能帮我给弹弹堂起公会职称?= = 肾结石患者呕吐是好事吗 聊一聊守望先锋和为战而生两个游戏各自的特色各是什么? 守望先锋在哪看队友和自己的位置 怎么判断被谁攻击及方向 超越了欧洲一千多年的宋金数学,为何在后期被抛弃,“断送前程”? ''高出不胜寒''出自宋朝人( )的名篇( ),其中''( , )''两句是千古... 喉咙起溃疡是什么原因 您好 口腔溃疡长在喉咙上面正常吗?吞口水都痛,要怎么医治 喉咙里为什么会长溃疡 classic river 歌词 悲伤的歌曲(英文也可) classic river 这个歌出自哪? python列表最大装多少数据(2023年最新解答) 农村集体流转土地的形式有哪些? 求大神度你成佛花藤字怎么打求帮忙 能帮我打几个花藤字吗 宝马x2刹车刹到底会一顿 请问市房管局各位领导,我2018申请公租房,通过审核,我天天盼望何时才有个... 公租房消息有哪些内容? 2018年的工租房不知道到哪里去申请 曹操有二十五个儿子 司马懿夺权时他们为何没有人站出来 [安粉丝分享]《王者荣耀》小乔周瑜表情包介绍_[安粉丝分享]《王者荣 ... 《王者荣耀》纤云弄巧表情包分享介绍_《王者荣耀》纤云弄巧表情包分享... 亦庄交通违章处理大厅工作时间 江苏自考的物流专业哪个学校有啊? 报关与国际货运这是一个文科还是理科专业,专转本考试我该报文科还是理科... 朴宝英代表作品 有朴宝英主演的电影或电视剧吗?要好看、搞笑、感人的,和超速绯闻一类型... 朴宝英凭借哪部电影获得第30届韩国青龙电影奖最佳新人女演员奖?_百 ... 朴宝英除了9(超速绯闻、ET老师、超感觉情侣)还拍过什么电影?拜托... 成事在人谋事在天什么意思谋事在人成事在天的意思解释 如何正确的练习吉他爬格子 吉他爬格子怎么练