【Elasticsearch从入门到精通】第16篇：Elasticsearch批量操作API——Bulk、Reindex与跨集群索引

发布时间：2026/5/23 9:43:26

上一篇【第15篇】 Elasticsearch删除与更新API——精确操作与脚本更新下一篇【第17篇】Elasticsearch并发控制——refresh参数与乐观并发控制摘要在实际生产环境中单条文档操作往往无法满足性能需求批量操作API是Elasticsearch高性能数据处理的基石。本文全面介绍了Elasticsearch的批量操作能力涵盖Bulk API的NDJSON格式规范元数据行数据行的两行结构、四种操作类型index/create/update/delete的混合使用与区别、最优批次大小通常5-15MB的配置策略与错误处理机制。深入解析了Reindex API的数据迁移能力包括源索引到目标索引的完整流程、查询过滤、版本控制internal/external/create三种模式、脚本转换与管道预处理以及跨集群Reindex的远程连接配置和白名单策略。最后介绍了Term向量API_termvectors的词元信息获取、统计信息分析与过滤功能。掌握这些内容将使你能够高效地完成Elasticsearch中的大规模数据操作与迁移任务。一、Bulk API基本格式1.1 NDJSON格式规范Bulk API_bulk允许在单个API调用中执行多个索引和删除操作可以显著提高操作效率。它使用新行分隔的JSONNDJSON格式action_and_meta_data\n optional_source\n action_and_meta_data\n optional_source\n ...注意最后一行数据必须以换行符\n结尾。发送请求时Content-Type应设置为application/x-ndjson。1.2 四种操作类型Bulk API支持以下四种操作操作类型说明需要数据行index索引文档存在则覆盖是create创建文档存在则报错是delete删除文档否update更新文档是doc/upsert/script1.3 完整示例POST_bulk{index:{_index:test,_id:1}}{field1:value1}{delete:{_index:test,_id:2}}{create:{_index:test,_id:3}}{field1:value3}{update:{_id:1,_index:test}}{doc:{field2:value2}}注意请求的 Content-Type 必须设置为application/x-ndjson。如果使用Curl提供文本文件输入必须使用--data-binary标志而非-d。二、Bulk API响应与错误处理2.1 响应结构Bulk API的响应是一个大型JSON结构每个操作的结果按请求中的顺序对应返回{took:30,errors:false,items:[{index:{_index:test,_type:_doc,_id:1,_version:1,result:created,_shards:{total:2,successful:1,failed:0},status:201}},{delete:{_index:test,_type:_doc,_id:2,_version:1,result:not_found,_shards:{total:2,successful:1,failed:0},status:404}}]}2.2 部分失败处理关键特性Bulk API中单个操作的失败不会影响其余操作的执行。即使某个操作报错其他操作仍会正常完成。errors字段仅表示是否存在任何失败操作。2.3 在索引级别指定默认值可以使用/{index}/_bulk端点为所有未显式指定索引的操作设置默认索引POSTtwitter/_bulk{index:{_id:1}}{user:kimchy,message:hello}{delete:{_id:2}}{create:{_id:3}}{user:other,message:world}三、Bulk API的Update操作3.1 Update操作格式Bulk中的Update操作需要两行元数据行和操作内容行。支持以下选项doc、upsert、doc_as_upsert、script、params、lang和_source。POST_bulk{update:{_id:1,_index:index1,retry_on_conflict:3}}{doc:{field:value}}{update:{_id:0,_index:index1,retry_on_conflict:3}}{script:{source:ctx._source.counter params.param1,lang:painless,params:{param1:1}},upsert:{counter:1}}{update:{_id:2,_index:index1,retry_on_conflict:3}}{doc:{field:value},doc_as_upsert:true}3.2 retry_on_conflict参数retry_on_conflict指定在发生版本冲突时重试更新的次数直接写在操作元数据行中{update:{_id:1,_index:test,retry_on_conflict:3}}3.3 _source控制可以控制Update操作后返回的_source内容{update:{_id:3,_index:index1,_source:true}}{doc:{field:value}}也可以放在操作内容行中{update:{_id:4,_index:index1}}{doc:{field:value},_source:true}四、Bulk API最优批次大小4.1 批次大小选择原则Bulk API中没有一个绝对适合所有场景的批次大小应根据具体工作负载进行测试。以下是一些通用建议指标推荐值说明批次大小5-15MB兼顾吞吐量和内存使用单批文档数1000-5000条根据文档大小调整线程数根据客户端CPU核数通常不超CPU核数的2倍4.2 批次大小对比批次大小吞吐量内存占用响应延迟适用场景1-5MB中低低实时写入、低延迟场景5-15MB高中中通用批量导入15-100MB很高高高离线数据迁移注意如果使用HTTP API确保客户端不发送HTTP块传输chunked encoding因为这会降低速度。五、Reindex API数据迁移5.1 基本用法Reindex API_reindex将文档从一个索引复制到另一个索引。最基本的形式如下POST_reindex{source:{index:twitter},dest:{index:new_twitter}}5.2 版本控制Reindex API支持多种版本控制模式internal默认盲目地将文档转储到目标覆盖同ID文档POST_reindex{source:{index:twitter},dest:{index:new_twitter,version_type:internal}}external保留源索引的版本号创建丢失的文档更新旧版本文档POST_reindex{source:{index:twitter},dest:{index:new_twitter,version_type:external}}create仅在目标索引中创建缺少的文档已有文档会版本冲突POST_reindex{source:{index:twitter},dest:{index:new_twitter,op_type:create}}5.3 版本控制策略对比策略行为适用场景internal默认覆盖同ID文档全量数据迁移external保留版本号增量更新跨集群增量同步create仅创建新文档补充缺失数据5.4 版本冲突处理默认情况下版本冲突会中止Reindex进程。设置conflictsproceed可以在冲突时继续POST_reindex{conflicts:proceed,source:{index:twitter},dest:{index:new_twitter}}5.5 查询过滤可以通过向source添加查询条件来限制迁移的文档范围POST_reindex{source:{index:twitter,query:{term:{user:kimchy}}},dest:{index:new_twitter}}5.6 多源索引source.index可以是一个列表允许从多个源索引复制POST_reindex{source:{index:[twitter,blog]},dest:{index:all_together}}5.7 字段过滤通过_source过滤只迁移需要的字段POST_reindex{source:{index:twitter,_source:[user,message]},dest:{index:new_twitter}}5.8 脚本转换Reindex支持通过脚本修改文档内容和元数据POST_reindex{source:{index:twitter},dest:{index:new_twitter},script:{source:ctx._source.tags ctx._source.tags ?: []; ctx._source.timestamp ctx._source.remove(post_date);,lang:painless}}脚本中可以修改的元数据字段包括_id、_index、_version、_routing。可以设置ctx.op为noop或delete来控制操作行为。5.9 路由控制在dest上设置路由参数POST_reindex{source:{index:source,query:{match:{company:cat}}},dest:{index:dest,routing:cat}}路由参数支持三种值参数值行为keep默认使用源索引的路由值discard目标索引路由值设为空自定义值所有文档使用指定路由5.10 批次大小与管道可以设置批次大小和使用索引预处理管道POST_reindex{source:{index:source,size:100},dest:{index:dest,pipeline:my_pipeline}}六、跨集群Reindex6.1 基本配置Reindex API支持从远程Elasticsearch集群重新索引数据POST_reindex{source:{remote:{host:https://otherhost:9200,username:user,password:pass},index:twitter},dest:{index:new_twitter}}6.2 白名单配置远程主机必须在elasticsearch.yml中显式配置白名单reindex.remote.whitelist:otherhost:9200,another:9200,127.0.10.*:9200,localhost:*白名单规则使用逗号分隔的主机和端口组合支持通配符如127.0.10.*:9200忽略通信协议只匹配主机和端口必须在所有协调节点上配置注意使用Basic Auth时务必使用HTTPS否则密码将以明文传输。跨集群Reindex功能可以与任何版本的Elasticsearch配合使用是集群升级的有效方式。6.3 远程连接参数POST_reindex{source:{remote:{host:https://otherhost:9200,username:user,password:pass,socket_timeout:1m,connect_timeout:10s},index:twitter,size:10},dest:{index:new_twitter}}参数说明默认值socket_timeout读超时时间30sconnect_timeout连接超时时间30ssize批次大小1000注意从远程服务器重新索引使用堆内缓冲区默认最大为100MB。如果远程索引包含大文档需要使用较小的批次大小。七、Term向量API7.1 基本概念Term向量Term Vectors用来存储文档字段的Term信息字段文本分词得到的词条和统计信息。Term向量在默认情况下是实时的。7.2 获取Term向量GETtwitter/_termvectors/1或者指定字段GETtwitter/_termvectors/1?fieldsmessage也可以通过请求体指定字段POSTtwitter/_termvectors/1{fields:[message],term_statistics:true,field_statistics:true}7.3 返回值类型类型参数说明默认Term信息term_statistics总词频、文档频率falseTerm统计positionsTerm位置信息不返回Term统计offsetsTerm起始/结束偏移不返回字段统计field_statistics文档计数、词频总和true7.4 Term过滤使用filter参数可以根据tf-idf分数过滤返回的Term帮助找出文档的特征向量POSTtwitter/_termvectors/1{fields:[plot],term_statistics:true,filter:{max_num_terms:3,min_term_freq:1,min_doc_freq:1}}过滤参数说明参数说明默认值max_num_terms每个字段返回的最大Term数25min_term_freq源文档中最低词频1max_term_freq源文档中最高词频无限min_doc_freq最低文档频率1max_doc_freq最高文档频率无限min_word_length最小词长0max_word_length最大词长无限7.5 多文档Term向量_mtermvectorsAPI允许一次获取多个文档的Term向量POSTtwitter/_mtermvectors{ids:[1,2],fields:[text],term_statistics:true}也可以在请求中提供人工文档来生成Term向量POSTtwitter/_mtermvectors{docs:[{_id:1,fields:[text]},{doc:{text:some text},fields:[text]}]}八、总结与最佳实践8.1 核心要点回顾Bulk API是Elasticsearch批量操作的核心NDJSON格式简洁高效支持四种操作混合使用部分失败隔离是Bulk API的重要特性单个操作失败不影响其他操作批次大小建议在5-15MB之间需要根据实际场景测试调优Reindex API是数据迁移的首选方案支持版本控制、查询过滤、脚本转换等丰富功能跨集群Reindex需要配置白名单和HTTPS认证是集群升级和数据同步的有效手段Term向量API提供了词元级别的分析能力适用于文本分析和相关性调试8.2 生产环境最佳实践Bulk批次优化通过测试找到最佳批次大小监控批量操作的响应时间和错误率Reindex限速大数据量迁移使用requests_per_second限速避免影响在线业务跨集群安全远程连接务必使用HTTPS严格配置白名单增量迁移使用version_type: external实现增量同步避免全量覆盖脚本转换在Reindex时使用脚本完成字段重命名、类型转换等数据清洗工作上一篇【第15篇】 Elasticsearch删除与更新API——精确操作与脚本更新下一篇【第17篇】Elasticsearch并发控制——refresh参数与乐观并发控制

设计职场重复工作自动化梳理程序，统计高频机械工作，给出可简化替代创新方案。

职场重复工作自动化梳理程序（Repetitive Work Analyzer）这是一个非常典型的✅「用工程视角解构低效工作」✅「用最小可行工具支持创新实验」的项目范例。一、实际应用场景描述（真实可落地）在很多岗位中，员工长期被大量…

2026/5/23 9:43:06 阅读更多

AI提示词极限赛，用最少token撬动最强LLM输出

目录 AI 提示词极限赛：概念与起源 1、概念 2、起源 3、核心挑战总结如果您喜欢此文章，请收藏、点赞、评论，谢谢，祝您快乐每一天。 AI 提示词极限赛：概念与起源 1、概念 AI 提示词极限赛（Prompt E…

2026/5/23 9:43:06 阅读更多

抖音下载器终极指南：高效批量下载与自动化管理实战

抖音下载器终极指南：高效批量下载与自动化管理实战【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support.…

2026/5/23 9:42:45 阅读更多

Monocle API接口设计：构建RESTful风格的聚合服务

Monocle API接口设计：构建RESTful风格的聚合服务【免费下载链接】monocle Link and news sharing 项目地址: https://gitcode.com/gh_mirrors/mon/monocle Monocle作为一款专注于链接和新闻分享的聚合服务，其API接口设计遵循RESTful架构风格&…

2026/5/23 10:25:28 阅读更多

番茄小说下载器：三分钟搞定海量小说离线阅读终极指南

番茄小说下载器：三分钟搞定海量小说离线阅读终极指南【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 还在为找不到完整的小说资源而烦恼吗？想要随时随地…

2026/5/23 10:25:28 阅读更多

读写场景下的锁选择策略

数据库加锁场景及锁类型选择指南数据库加锁的核心目标是解决并发事务下的数据一致性问题，防止出现脏读、不可重复读、幻读等异常。锁的选择与应用场景紧密相关，主要取决于操作类型、数据访问模式、事务隔离级别以及数据库引擎的特性。以下通过具体场景…

2026/5/23 10:25:28 阅读更多

3倍速畅玩体验：HsMod炉石传说个性化改造方案

3倍速畅玩体验：HsMod炉石传说个性化改造方案【免费下载链接】HsMod Hearthstone Modification Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod 想象一下这样的场景：你刚刚结束一天的工作，只想轻松地玩几局…

2026/5/23 10:24:27 阅读更多

告别手动抢号烦恼：Python健康160自动挂号完整指南

告别手动抢号烦恼：Python健康160自动挂号完整指南【免费下载链接】health160 健康160自动挂号脚本，用魔法对抗魔法，禁止商用🖖 项目地址: https://gitcode.com/gh_mirrors/he/health160 还在为每次打开医院预约网站都看到…

2026/5/23 10:23:47 阅读更多

如何快速上手Blur Auto Clicker：Windows自动点击神器完全指南

如何快速上手Blur Auto Clicker：Windows自动点击神器完全指南【免费下载链接】Blur-AutoClicker An Auto-clicker with a few advanced features and generally better performance than popular alternatives. Made for windows. 项目地址: https://gitcode.com…

2026/5/23 10:23:47 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/23 4:55:00 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/22 14:41:35 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/22 11:03:47 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

设计职场重复工作自动化梳理程序，统计高频机械工作，给出可简化替代创新方案。

AI提示词极限赛，用最少token撬动最强LLM输出

抖音下载器终极指南：高效批量下载与自动化管理实战

Monocle API接口设计：构建RESTful风格的聚合服务

番茄小说下载器：三分钟搞定海量小说离线阅读终极指南

读写场景下的锁选择策略

3倍速畅玩体验：HsMod炉石传说个性化改造方案

告别手动抢号烦恼：Python健康160自动挂号完整指南

如何快速上手Blur Auto Clicker：Windows自动点击神器完全指南

红黑树完全指南：从五条性质到完整插入删除实现

黎曼猜想：哲学 × 数学 思维范式全链条

在Nodejs后端服务中集成稳定可靠的大模型能力

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

黎曼猜想：哲学 × 数学思维范式全链条

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)