MongoDB mapreduce 使用

xiaoxiao2021-02-28  80

MongoDB mapreduce 使用

MapReduce介绍

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

MongoDB 中的MapReduce 使用JavaScript来作为查询语言,因此能表达任意的逻辑, 但是它运行非常慢,不应该用在实时的数据分析中 。

MongoDB MapReduce语法

db.runCommand("mapreduce":“集合名称”,"map":Map函数名称,"reduce":Reduce函数名称,"out":"集合名称")

1:Map函数使用emit函数来返回要处理的值 。this 表示整个文档

2:reduce函数需要处理Map阶段或者是前一个reduce的数据,因此reduce返回的文档必须要能作为reduce的第二个参数的一个元素, 问题一:计算每个键出现的次数

db.userdatas.find() { "_id" : ObjectId("59789a56bc629e73c4f09e1c"), "name" : "wang wu", "age" : 45 } { "_id" : ObjectId("59789a74bc629e73c4f09e1e"), "name" : "wang wu", "age" : 8 } { "_id" : ObjectId("59789ac0bc629e73c4f09e20"), "name" : "wang wu", "age" : 33 } { "_id" : ObjectId("597f357a09c84cf58880e40e"), "name" : "u1", "age" : 37 } { "_id" : ObjectId("597f357a09c84cf58880e40f"), "name" : "u1", "age" : 37 } { "_id" : ObjectId("597f357a09c84cf58880e410"), "name" : "u5", "age" : 78 } { "_id" : ObjectId("597f357a09c84cf58880e412"), "name" : "u3", "age" : 32 } { "_id" : ObjectId("597f357a09c84cf58880e411"), "name" : "u4", "age" : 30, "score" : [ 7, 4, 2, 0 ] } { "_id" : ObjectId("597fcc0f411f2b2fd30d0b3f"), "age" : 20, "score" : [ 7, 4, 2, 0, 10, 9, 8, 7 ], "name" : "lihao" } { "_id" : ObjectId("597f357a09c84cf58880e413"), "name" : "u2", "age" : 33, "wendang" : { "yw" : 80, "xw" : 90 } } { "_id" : ObjectId("5983f5c88eec53fbcd56a7ca"), "date" : ISODate("2017-08-04T04:19:20.693Z") } var map = function(){ for(var key in this){ emit(key,{count:1}); } } var reduce = function(key,emits){ var total = 0; for(var i in emits){ total += emits[i].count; } return {"count":total}; }; db.runCommand({"mapreduce":"userdatas","map":map,"reduce":reduce,"out":"result"}); { "result" : "result", "timeMillis" : 42, "counts" : { "input" : 11, "emit" : 11, "reduce" : 2, "output" : 9 }, "ok" : 1 } db.result.find() { "_id" : "_id", "value" : { "count" : 11 } } { "_id" : "age", "value" : { "count" : 10 } } { "_id" : "date", "value" : { "count" : 1 } } { "_id" : "name", "value" : { "count" : 10 } } { "_id" : "score", "value" : { "count" : 2 } } { "_id" : "wendang", "value" : { "count" : 1 } }

MongoDB MapReduce 可选参数

1:finalize:function :可以将reduce的结果发送到finalize,这是整个处理的最后一步

2:keeptemp:boolean :是否在连接关闭的时候,保存临时结果集合

3:query:document :在发送给map前对文档进行过滤

4:sort:document :在发送给map前对文档进行排序

5:limit:integer :发往map函数的文档数量上限

6:scope:document :可以在javascript中使用的变量

7:verbose:boolean :是否记录详细的服务器日志

问题一 : 计算出文档中含有age字段的总和

var map = function() { emit("age",this.age) } var reduce = function(key,emits) { var total = 0; for(var i in emits) { total += emits[i]; } return total } var query = {"age":{"$exists":1}} // var sort = {"age":1}; // var finalize = function(key,value){ // return {"mykey":key,"myV":value}; // }; db.runCommand({"mapreduce":"userdatas","map":map,"reduce":reduce,"out":"result","query":query}) { "result" : "result", "timeMillis" : 17, "counts" : { "input" : 10, "emit" : 10, "reduce" : 1, "output" : 1 }, "ok" : 1 } db.result.find() { "_id" : "age", "value" : 353 }
转载请注明原文地址: https://www.6miu.com/read-38611.html

最新回复(0)