问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

怎么在海量数据中找出重复次数最多的一个

发布网友 发布时间:2022-04-23 14:49

我来回答

1个回答

热心网友 时间:2023-09-08 22:48

假设我们可以用的内存是64M,总的数据量是1024*64M即64G。
1、首先预设1024个文件作为“桶”,依次读取原始数据的记录,每读到一条记录就进行哈希计算,获得的哈希值余上1024,把这条记录放到那个桶里,即:
bucket_num = hash(record) % 1024
2、由于相同的记录哈希值一定相同,所以重复数据一定落入同一个桶内,对于落入同一个桶内的数据,直接为该数据的数量加一,即桶内的条目都是唯一的,各自记录自己的总重复数量。
3、当一个桶的体积达到64M的时候(应该非常罕见),为该桶增加一个子桶,新的数据进来的时候先在父桶内找相同记录,没有的话在放入子桶,重复数设置为1。
4、当全部数据读取完之后,依次对1024个桶(及其子桶)进行内部排序,可以一次性把64M的数据读入内存快速排序即可,然后再归并父桶及其子桶,最终得到1024个桶内的最大重复记录。
5、对这1024个桶的最大值进行比较,获得一个最终的最大值。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
iPhone XR电量百分比怎么设置 Django如何使用网页嵌套网页(2023年最新解答) 社保之前工作缴了 后面工作不缴。自己要怎么续上?自己缴要缴多少?每... 壁挂炉数字不亮了怎么回事了解壁挂炉数字不亮的原因及解决方法_百度知 ... 单反长镜头和短镜头什么区别 ai的剪切蒙版快捷键是什么 自学当程序员需要哪些基础 程序员,需要学什么课程 想当一名出色的程序员数学必须要很好吗 华为路由器192.168.1.1怎样设置? 企业面对海量实时数据却不知所措 海量数据分析汇总,如何提示效率? 海量数据存储结构和算法 各类排序算法,实现对海量数据排序额,怎么做? 海量数据的重大机遇 如何从海量的数据中快速获得有价值信息 海量数据分析处理方法 介绍一下海量数据的处理方法 机械工程师怎么审核啊?? 助理机械工程师职称资格证书怎么申请? 没有任何感冒的症状但是一直持续发低烧 乏力 头晕 没食欲 口渴 这是为啥 评中级机械工程师职称申报有什么要求 为什么一到晚上就开始头晕 发低烧 如何成为机械工程师 写几篇活动总结,比如说是知识竞赛的 学习《预防未成年人犯罪法》心得体会 400~1000字。请不要跟百度上一样。。。 增强法制观念、提高大学生法律素质、促进健康成长总结 作为一名小学生,写一篇法律教育心得,急急急!帮帮忙吧 法律知识竞赛总结 青少年法律知识竞赛观后感怎么写 可以理解成大数据就是海量数据吗? 海量数据处理是什么意思?? 中国移动海量的数据是如何产生的,有什么价值 海量数据的介绍 朋友啊朋友你可曾想起了我是什么歌 “朋友啊朋友,你可曾想起了我”这句歌词出自哪首歌? 歌词有朋友啊朋友,你抬头看一看是什么歌 "朋友呀 朋友呀 你可曾记得我 "出自哪首歌 啊!朋友 歌词 朋友啊朋友列车就要开动我将和你一路同行。查歌名 歌词有“啊朋友再见啊朋友再见啊朋友再见吧再见吧再见吧”的歌名 有首歌里有这几句歌词“朋友啊朋友,你可曾想起了我”请问是什么歌 歌词是朋友啊朋友,亲爱的的朋友!这首歌名是什么 “朋友啊朋友,你可曾记起了我”这首歌谁唱的,歌名是什么 黄焖草鱼怎么做好吃,黄焖草鱼的家常做法 有一首歌……歌词里有……朋友啊朋友……今生我们注定沧桑 ……兄弟陪你醉……歌名是? 有首歌里面有“朋友啊朋友,你可曾想起了我”歌名是什么? 黄焖鱼块的做法,黄焖鱼块怎么做好吃,黄焖鱼块的家常 朋友啊朋友,你可曾想起了我——这首歌的歌名是什么?原唱是谁?_百度知... 黄焖鱼 怎么做 最香