spark rdd 能否知道指定分区数据
发布网友
发布时间:2022-07-31 18:08
我来回答
共3个回答
热心网友
时间:2024-08-25 00:54
你是需要将RDD的某个分区数据collect到driver端来吗?如果是的话,可以尝试下RDD的api glom,这个api是查看RDD每一个分区的数据,你当然可以指定某个分区进行查看了。
如果想正确理解spark的话,可以尝试百度搜索"spark老汤",绝对会有惊喜
热心网友
时间:2024-08-25 00:55
科普Spark,Spark是什么,如何使用Spark 1.Spark基于什么算法的分布式计算(很简单) 2.Spark与MapReduce不同在什么地方 3.Spark为什么比Hadoop灵活 4.Spark局限是什么 5.什么情况下适合使用Spark
热心网友
时间:2024-08-25 00:50
rdd1.mapPartitionsWithIndex{
(partIdx,iter) => {
var part_map = scala.collection.mutable.Map[String,List[Int]]()
while(iter.hasNext){
var part_name = "part_" + partIdx;
var elem = iter.next()
if(part_map.contains(part_name)) {
var elems = part_map(part_name)
elems ::= elem
part_map(part_name) = elems
} else {
part_map(part_name) = List[Int]{elem}
}
}
part_map.iterator
}
}.collect