Flink编程模型与API（四）

发布时间：2026/6/2 0:58:40

Transformation 类算子是 Apache Flink 中用于定义数据流处理的基本构建块。它们允许对DataStream数据流进行转换和操作包括数据转换、数据操作和数据重组,通过Transformation类算子可以对输入数据流进行映射、过滤、聚合等操作生成新的DataStream数据流作为输出以满足特定的处理需求。下面分别介绍Flink中常见的Transformation类算子。mapmap用于对输入的DataStream数据流中的每个元素进行映射操作,它接受一个函数作为参数该函数将每个输入元素转换为一个新的元素并生成一个新的数据流作为输出。DataStream类型数据通过map函数进行数据转换后还会得到DataStream类型其中数据格式可能会发生变化。下图演示将输入数据集中的每个数值全部加1处理经过map算子转换后输出到下游数据集。flatMapflatMap算子用于对输入的DataStream中的每个元素进行扁平化映射操作的算子它接受一个函数作为参数该函数将每个输入元素转换为零个或多个新的元素并生成一个新的DataStream数据流作为输出。DataStream类型数据通过map函数进行数据转换后还会得到DataStream类型其中数据格式可能会发生变化。与map算子不同flatMap算子可以生成比输入更多的元素因此可以用于扁平化操作。下图表示通过flatMap算子对输入数据集中每行数据按照逗号分割得到新的数据流输出到下游。FilterkeyByKeyBy算子用于将输入的DataStream按照指定的键或键选择器函数进行分组操作它接受一个键选择器函数作为参数该函数根据输入元素返回一个键用于将数据流中的元素分组到不同的分区中相同键的元素分配到同一个分区中以便后续的操作可以基于键对数据进行聚合、合并或其他操作。KeyBy算子使用时可以通过KeySelector函数来指定key键DataStream通过KeyBy算子处理后得到的是KeyedStream对象该对象也是DataStream。默认KeyBy算子会对数据流中指定的key键的hash值与Flink分区数并行度进行取模运算从而决定该条数据后续被哪个并行度处理如果Flink DataStream类型是POJOs类型需要在该类型中重写hashCode方法否则后续不能正确的将相同数据进行分组处理。下图表示通过KeyBy算子将DataStream中的数据按照指定的key进行分组统计value总和。AggregationsAggregations聚合函数是Flink中用于对输入数据进行聚合操作的函数集合它们可以应用于KeyedStream上将一组输入元素聚合为一个输出元素。Flink提供了多种聚合函数包括sum、min、minBy、max、maxBy,这些函数都是常见的聚合操作作用如下sum针对输入keyedStream对指定列进行sum求和操作。min针对输入keyedStream对指定列进行min最小值操作结果流中其他列保持最开始第一条数据的值。minBy同min类似对指定的字段进行min最小值操作minBy返回的是最小值对应的整个对象。max针对输入keyedStream对指定列进行max最大值操作结果流中其他列保持最开始第一条数据的值。maxBy:同max类似对指定的字段进行max最大值操作maxBy返回的是最大值对应的整个对象。Java代码实现Java代码和Scala代码执行后结果如下:# sum执行结果 StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343077146, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343077146, duration150} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343077146, duration200} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343077146, duration290} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343077146, duration590} # min 执行结果 StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343412282, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343412282, duration30} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343412282, duration30} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343412282, duration30} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343412282, duration30} # minBy 执行结果 StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343474909, duration120} StationLog{sidsid1, callOut18600000001, callIn18600000002, callTypefail, callTime1685343474909, duration30} StationLog{sidsid1, callOut18600000001, callIn18600000002, callTypefail, callTime1685343474909, duration30} StationLog{sidsid1, callOut18600000001, callIn18600000002, callTypefail, callTime1685343474909, duration30} StationLog{sidsid1, callOut18600000001, callIn18600000002, callTypefail, callTime1685343474909, duration30} # max 执行结果 StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343523009, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343523009, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343523009, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343523009, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343523009, duration300} # maxBy 执行结果 StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343559342, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343559342, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343559342, duration120} StationLog{sidsid1, callOut18600000000, callIn18600000001, callTypesuccess, callTime1685343559342, duration120} StationLog{sidsid1, callOut18600000004, callIn18600000005, callTypesuccess, callTime1685343559342, duration300}reduceunionunion算子是Flink流处理框架中数据流合并算子可以将多个输入的DataStream多个数据流进行合并并输出一个新的DataStream数据流作为结果适用于需要将多个数据流合并为一个流的场景。需要注意的是union合并的数据流类型必须相同合并之后的数据流包含两个或多个流中所有元素并且数据类型不变。下图表示将两个流进行合并得到合并后的结果流并将结果输出到下游。connectconnect算子将两个输入的DataStream数据流作为参数将两个不同数据类型的DataStream数据流连接在一起生成一个ConnectedStreams对象作为结果与union算子不同union只是简单的将两个类型一样的流合并在一起而connect算子可以将不同类型的DataStream连接在一起并且connect只能连接两个流。connect生成的结果保留了两个输入流的类型信息例如dataStream1数据集为(String, Int)元祖类型dataStream2数据集为Int类型通过connect连接算子将两个不同数据类型的流结合在一起其内部数据为[(String, Int), Int]的混合数据类型保留了两个原始数据集的数据类型。对于连接后的数据流可以使用map、flatMap、process等算子进行操作但内部方法使用的是CoMapFunction、CoFlatMapFunction、CoProcessFunction等函数来进行处理这些函数称作“协处理函数”分别接收两个输入流中的元素并生成一个新的数据流作为输出输出结果DataStream类型保持一致。Java代码实现iterateiterate算子用于实现迭代计算的算子它允许对输入的DataStream进行多次迭代操作直到迭代条件不满足时迭代停止该算子适合迭代计算场景例如机器学习中往往会对损失函数进行判断是否到达某个精度来判断训练是否需要结束就可以使用该算子来完成。

AI 智能体依赖管理存风险：“最新”并非“安全”，该如何应对？

AI 智能体依赖管理的风险与应对建议AI 智能体通过层层委托让工作变得更轻松，然而，这些委托层会形成依赖关系，而这些依赖关系又会带来风险。米切尔哈西莫托（Mitchell Hashimoto）建议大家停止更新依赖项，从历…

2026/6/2 0:57:59 阅读更多

2026年大模型全景对比：DeepSeek-V3 MoE架构深度解析，1/10成本逼近GPT-4o，稀疏混合专家模型如何与GPT、Claude、Gemini同台竞技

DeepSeek-V3 开源模型MoE架构深度解析：1/10成本逼近GPT-4o，稀疏混合专家模型如何实现性能与效率的极致平衡1. 爆款标题（至少5个备选）我扒完了DeepSeek-V3的MoE源码，发现它用1/10成本打平GPT-4o的秘密全在这里671B参数只…

2026/6/2 0:57:59 阅读更多

DeepSeek-R1 训练成本仅 GPT-4 的 1/10：MoE 架构如何为 AI Agent 2026技术大爆发铺平算力效率之路

DeepSeek-R1 训练成本仅 GPT-4 的 1/10，开源推理模型如何用 MoE 架构颠覆算力效率？ 开头钩子（3版） 版本一： 2025年3月，我花 200 美元在 Lambda Labs 上跑了一周的 DeepSeek-R1 训练。然后算了一笔账&#…

2026/6/2 0:57:59 阅读更多

你的手机能播什么格式？用MediaCodecList写个Android视频格式兼容性检测工具

你的手机能播什么格式？用MediaCodecList写个Android视频格式兼容性检测工具每次在Android设备上播放视频时，你是否好奇为什么有些格式能流畅播放，而有些却总是报错？不同厂商的设备对视频格式的支持差异之大，常常让开发…

2026/6/2 3:33:21 阅读更多

LeetCode--Merge k Sorted Lists--分治策略

Merge k Sorted Lists--分治策略## [更多技术博客 http://vilins.top/](http://vilins.top/)题目Merge k sorted linked lists and return it as one sorted list. Analyze and describe its complexity.ExampleInput: [1->4->5,1->3->4,2->6 ] Output: 1->1…

2026/6/2 3:32:41 阅读更多

【独家内测实录】Sora 2面部表情生成API调用失败率下降92.7%的7个隐藏配置项（附GitHub验证脚本）

更多请点击： https://kaifayun.com 第一章：Sora 2面部表情生成API调用失败率下降92.7%的内测现象总览在Sora 2内测阶段，面向开发者开放的面部表情生成API（ /v2/generate/facial-expression）展现出显著稳定性提升。…

2026/6/2 3:30:00 阅读更多

geth常用命令

geth常用命令更多技术博客 http://vilins.top/ 初始化私链 geth --datadir /path/to/datadir init /path/to/genesis.json启动私链 geth --identity "TestNode" --rpc --rpcport "8545" --datadir /path/to/datadir --port "30303" --nodis…

2026/6/2 3:30:00 阅读更多

Python 引用计数与分代收集在 NumPy 向量化运算中的 GC 调优细节

Python 引用计数与分代收集在 NumPy 向量化运算中的 GC 调优细节1. 技术分析 1.1 NumPy 底层 C 实现与 Python GC 的交互机制 NumPy 的核心计算由 C 语言实现，但其对象生命周期仍受 Python GC 管理。理解两者交互是性能调优的关键。交互层次内存管理方式GC 参与程度…

2026/6/2 3:29:19 阅读更多

别再为S7-1200通讯头疼了！手把手教你搞定PUT/GET和开放式以太网（附TIA Portal配置截图）

S7-1200通讯实战指南：从协议选择到TIA Portal高效配置在工业自动化项目中，S7-1200 PLC的通讯配置往往是工程师面临的第一个技术门槛。当项目现场的设备需要数据交互时，面对TIA Portal中众多的协议选项和参数设置，即使是经验丰富的…

2026/6/2 3:29:19 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

AI 智能体依赖管理存风险：“最新”并非“安全”，该如何应对？

2026年大模型全景对比：DeepSeek-V3 MoE架构深度解析，1/10成本逼近GPT-4o，稀疏混合专家模型如何与GPT、Claude、Gemini同台竞技

DeepSeek-R1 训练成本仅 GPT-4 的 1/10：MoE 架构如何为 AI Agent 2026技术大爆发铺平算力效率之路

你的手机能播什么格式？用MediaCodecList写个Android视频格式兼容性检测工具

LeetCode--Merge k Sorted Lists--分治策略

【独家内测实录】Sora 2面部表情生成API调用失败率下降92.7%的7个隐藏配置项（附GitHub验证脚本）

geth常用命令

Python 引用计数与分代收集在 NumPy 向量化运算中的 GC 调优细节

别再为S7-1200通讯头疼了！手把手教你搞定PUT/GET和开放式以太网（附TIA Portal配置截图）

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因