java批量导入数据到es中出现数据重复问题解决方案

xiaoxiao2021-02-28  73

今天在网上找了一个批量数据导入到es中的java代码,代码主要逻辑如下:

// 读取要导入数据的文件 BufferedReader br = new BufferedReader(new FileReader( "D:\\test\\test.txt")); String json = null; int count = 0; // 开启批量插入 BulkRequestBuilder bulkRequest = client.prepareBulk(); while ((json = br.readLine()) != null) { bulkRequest.add(client.prepareIndex("test", "all") .setSource(json)); // 每一千条提交一次 if (count % 1000 == 0) { bulkRequest.execute().actionGet(); System.out.println("提交了:" + count); } count++; } bulkRequest.execute().actionGet(); System.out.println("插入完毕"); br.close();运行后发现一个问题,我100多万条的数据,导入到es中怎么生成了1000多万条,而且还是在没有完全导入的情况下

然后用小批量数据导入到es,再把这些数据导出来,发现有好多重复的数据

为什么会重复呢,原因是在每一千条提交一次代码这块,第一次一千条提交了,并没有把bulkRequest置空,所以第二次提交的时候,会提交两千条,包括第一次已经提交的一千条,然后我们自己也没有设置_id,所以es会自动给数据生成一个_id,即使是重复的数据,搞清楚了原因,下面来说解决方法,主要有两种:

第一种就是在提交了一千条后,对bulkRequest进行重置,因为bulkRequest并没有重置的方法,所以可以新建一个bulkRequest,类似于重置,具体代码如下:

// 读取要导入数据的文件 BufferedReader br = new BufferedReader(new FileReader( "D:\\test\\test.txt")); String json = null; int count = 0; // 开启批量插入 BulkRequestBuilder bulkRequest = client.prepareBulk(); while ((json = br.readLine()) != null) { bulkRequest.add(client.prepareIndex("test", "all") .setSource(json)); // 每一千条提交一次 if (count % 1000 == 0) { bulkRequest.execute().actionGet(); //此处新建一个bulkRequest,类似于重置效果 bulkRequest = client.prepareBulk(); System.out.println("提交了:" + count); } count++; } bulkRequest.execute().actionGet(); System.out.println("插入完毕"); br.close();第二种就是自己设置_id,确保每一条数据只有一个_id,这样的话,即使数据重复了,因为_id是一样的,所以es会进行更新,这样的话并没有从根源上解决数据重复的问题,只是重复数据会更新,这样的话效率会慢,具体代码如下:

// 读取要导入数据的文件 BufferedReader br = new BufferedReader(new FileReader( "D:\\test\\test.txt")); String json = null; int count = 0; // 开启批量插入 BulkRequestBuilder bulkRequest = client.prepareBulk(); while ((json = br.readLine()) != null) { //设置_id为count bulkRequest.add(client.prepareIndex("test", "all", String.valueOf(count)).setSource(json)); // 每一千条提交一次 if (count % 1000 == 0) { bulkRequest.execute().actionGet(); //此处新建一个bulkRequest,类似于重置效果 System.out.println("提交了:" + count); } count++; } bulkRequest.execute().actionGet(); System.out.println("插入完毕"); br.close();

建议使用第一种方法,效率会快很多。

转载请注明原文地址: https://www.6miu.com/read-79688.html

最新回复(0)