Flink编程模型与API（一）

发布时间：2026/5/31 22:49:14

针对Flink的编程模型与API进行讲解主要基于DataStream API 进行编程学习Flink编程方式处理数据流程以及转换处理本章节中涉及到的代码实现使用Java和Scala两种语言来实现。Flink APIStateful Stream Processing底层的状态流处理API的抽象程度最低而且只能用于流处理提供了非常灵活的接口可以用于自定义底层与状态、时间相关的操作。DataSteam/DataSet API这一层级的API是Flink中的核心API这一层级中要处理的数据会被抽象成数据流DataStream或数据集DataSet,然后在其上通过定义转换操作实现业务逻辑例如map/flatMap/window/keyby/sum/join等这一层级API的使用风格与Java 8中的Stream使用风格十分类似。Table API在DataStream/DataSet API 之上是Table API Table API和DataStream/DataSet API不同不是用复杂的函数定义业务流程的而是用陈述性的语言加以描述这样就大大降低编程难度增强描述性。这种语言来着SQL语法只不过以API的形式呈现出来既然有了Table API ,那么自然可以直接使用SQL来进行描述这就是最上层的SQL。SQLFlink提供的最高层级的抽象是SQL这一层抽象在语法与表达能力上与Table API 类似SQL抽象与Table API交互密切同时SQL查询可以直接在Table API定义的表上执行。总而言之越上层的API其描述性和可阅读性越强越下层API其灵活度高、表达力越强多数时候上层API能做到的事情下层API也能做到反过来未必不过这些API的底层模型是一致的可以混合使用。Flink架构可以处理批和流Flink 批处理数据需要使用到Flink中的DataSet API此API主要是支持Flink针对批数据进行操作本质上Flink处理批数据也是看成一种特殊的流处理有界流所以没有必要分成批和流两套API从Flink1.12版本往后Dataset API 已经标记为Legacy(已过时)已被官方软弃用官方建议使用Table API 或者SQL 来处理批数据我们也可以使用带有Batch执行模式的DataStream API来处理批数据DataSet和DataStream API做到了合并在未来Flink版本中DataSet API 将会被删除。DataStream API的学习对于理解Flink数据处理流程非常方便上手相对来说比较容易下面我们先从核心API层开始学习对于底层API、Table API、SQL部分在后续章节在做介绍。Flink编程模型代码编写流程我们知道DataStream的编程模型包括以下几个部分Environment、DataSource、Transformation、DataSink、触发执行。nvironment是编写Flink程序的基础不同层级API编程中创建的Environment环境不同如Dataset 编程中需要创建ExecutionEnvironmentDataStream编程中需要创建StreamExecutionEnvironment在Table和SQL API中需要创建TableExecutionEnvironment使用不同语言编程导入的包也不同在获取到对应的Environment后我们还可以进行外参数的配置例如并行度、容错机制设置等。DataSource部分主要定义了数据接入功能主要是将外部数据接入到Flink系统中并转换成DataStream对象供后续的转换使用。Transformation部分有各种各样的算子操作可以对DataStream流进行转换操作最终将转换结果数据通过DataSink写出到外部存储介质中例如文件、数据库、Kafka消息系统等。在DataStream编程中编写完成DataSink代码后并不意味着程序结束由于Flink是基于事件驱动处理的有一条数据时就会进行处理所以最后一定要使用Environment.execute()来触发程序执行。Flink数据类型在Flink内部处理数据时涉及到数据的网络传输、数据的序列化及反序列化Flink需要知道操作的数据类型为了能够在分布式计算过程中对数据的类型进行管理和判断Flink中定义了TypeInformation来对数据类型进行描述通过TypeInfomation能够在数据处理之前将数据类型推断出来而不是真正在触发计算后才识别出这样可以有效避免用户在编写Flink应用的过程出现数据类型问题。常用的TypeInformation有BasicTypeInfo、TupleTypeInfo、CaseClassTypeInfo、PojoTypeInfo类等针对这些常用TypeInfomation介绍如下Flink通过实现BasicTypeInfo数据类型能够支持任意Java原生基本或装箱类型和String类型例如Integer,String,Double等除了BasicTypeInfo外类似的还有BasicArrayTypeInfo支持Java中数组和集合类型通过定义TupleTypeInfo来支持Tuple类型的数据通过CaseClassTypeInfo支持Scala Case Class PojoTypeInfo可以识别任意的POJOs类,包括Java和Scala类POJOs可以完成复杂数据架构的定义但是在Flink中使用POJOs数据类型需要满足以下要求:POJOs类必须是Public修饰且独立定义不能是内部类POJOs 类中必须含有默认空构造器POJOs类中所有的Fields必须是Public或者具有Public修饰的getter和Setter方法在使用Java API开发Flink应用时通常情况下Flink都能正常进行数据类型推断进而选择合适的serializers以及comparators但是在定义函数时如果使用到了泛型JVM就会出现类型擦除的问题Flink就获取不到对应的类型信息这就需要借助类型提示Type Hints来告诉系统函数中传入的参数类型信息和输出类型进而对数据类型进行推断处理。如Flink序列化机制在两个进程进行远程通信时它们需要将各种类型的数据以二进制序列的形式在网络上传输数据发送方需要将对象转换为字节序列进行序列化而接收方则将字节序列恢复为各种对象进行反序列化。对象的序列化有两个主要用途一是将对象的字节序列永久保存到硬盘上通常存放在文件中二是在网络上传输对象的字节序列。序列化的好处包括减少数据在内存和硬盘中的占用空间减少网络传输开销精确推算内存使用情况降低垃圾回收的频率。Flink序列化机制负责在节点之间传输数据时对数据对象进行序列化和反序列化确保数据的正确性和一致性。Flink提供了多种序列化器包括Kryo、Avro和Java序列化器等大多数情况下用户不用担心flink的序列化框架Flink会通过TypeInfomation在数据处理之前推断数据类型进而使用对应的序列化器例如针对标准类型int,double,long,string直接由Flink自带的序列化器处理其他类型默认会交给Kryo处理。但是对于Kryo仍然无法处理的类型可以采取以下两种解决方案public class Student { public Integer id; public String name; public Integer age; public Student() { } public Student(Integer id, String name, Integer age) { this.id id; this.name name; this.age age; } Override public String toString() { return Student{ id id , name name \ , age age }; } } public class StudentSerializer extends Serializer { Override public void write(Kryo kryo, Output output, Object o) { Student student (Student) o; output.writeInt(student.id); output.writeString(student.name); output.writeInt(student.age); } Override public Object read(Kryo kryo, Input input, Class aClass) { Student student new Student(); student.id input.readInt(); student.name input.readString(); student.age input.readInt(); return student; } }

企业级Gemini生物识别集成成熟度评估矩阵（含12项等保2.0/GB/T 35273-2020对标项），仅开放前200份下载权限

更多请点击： https://kaifayun.com 第一章：企业级Gemini生物识别集成成熟度评估矩阵概览企业级Gemini生物识别集成成熟度评估矩阵（Enterprise Gemini Biometric Integration Maturity Assessment Matrix，简称EG-BIMA&#xff09…

2026/5/31 22:48:53 阅读更多

如何快速实现人体姿态搜索：免费开源工具完整指南

如何快速实现人体姿态搜索：免费开源工具完整指南【免费下载链接】pose-search x6ud.github.io/pose-search 项目地址: https://gitcode.com/gh_mirrors/po/pose-search 你是否曾经想过在海量图片中快速找到特定的人体动作？或者需要实时识别视频中…

2026/5/31 22:42:47 阅读更多

终极指南：如何免费解锁Cursor AI Pro功能并突破使用限制

终极指南：如何免费解锁Cursor AI Pro功能并突破使用限制【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached your t…

2026/5/31 22:42:06 阅读更多

第一章 Qt 概述_csdn

第一章 Qt 概述 Qt 简介 Qt 是一个跨平台的 C 图形用户界面应用程序框架，常用于开发桌面应用、嵌入式界面和一些跨平台工具。作为笔记，我就直接把重点放在环境搭建、Qt Creator 的基本使用，以及第一个窗口程序的运行上了，真的对q…

2026/5/31 23:26:57 阅读更多

Gemini客户情绪识别失效真相（92%团队踩坑的4类标注盲区）

更多请点击： https://kaifayun.com 第一章：Gemini客户反馈分析 Gemini模型自发布以来，已广泛应用于企业级AI助手、代码补全、多模态内容生成等场景。为精准把握用户真实体验，我们系统采集了2024年Q1至Q2期间来自372家技术型客户的…

2026/5/31 23:25:56 阅读更多

Gemini新版服务条款深度拆解：3大法律陷阱、2类数据权属变更、1个不可逆授权条款（附律师审阅对照表）

更多请点击： https://kaifayun.com 第一章：Gemini新版服务条款深度拆解：3大法律陷阱、2类数据权属变更、1个不可逆授权条款（附律师审阅对照表） 高频误读的“默认同意”陷阱新版条款第4.2条将用户持续使用服务的行为…

2026/5/31 23:24:54 阅读更多

从日均500万条丢推到SLA 99.99%，我们重构Gemini通知管道的7个关键决策，含MQ选型对比、幂等ID生成器与灰度发布Checklist

更多请点击： https://kaifayun.com 第一章：Gemini推送通知优化的背景与挑战随着 Gemini 模型在企业级智能助手、自动化运营和实时决策系统中的深度集成，其推送通知机制正面临前所未有的高并发、低延迟与高精准度要求。传统基于轮询或简单 W…

2026/5/31 23:24:54 阅读更多

DeepSeek LeetCode 2858. 可以到达每一个节点的最少边反转次数 C语言实现

下面是 LeetCode 2858 的 C 语言实现，采用换根 DP 算法。c /*** Note: The returned array must be malloced, assume caller calls free().*/// 邻接表结点 typedef struct EdgeNode {int to; // 目标结点int weight; // 权重：1 …

2026/5/31 23:22:31 阅读更多

Python 3 OS模块详解

Python 3 OS模块详解引言 Python作为一种广泛使用的编程语言，提供了丰富的库和模块来简化开发工作。其中，os模块是Python标准库中用于操作系统交互的模块，它提供了访问操作系统功能的接口。本文将详细介绍Python 3中的os模块，包括其常用方法和功能。 os模块概述 os模块…

2026/5/31 23:21:10 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/5/31 0:03:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

2026/5/31 0:03:49 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/30 22:39:05 阅读更多

相关文章

企业级Gemini生物识别集成成熟度评估矩阵（含12项等保2.0/GB/T 35273-2020对标项），仅开放前200份下载权限

如何快速实现人体姿态搜索：免费开源工具完整指南

终极指南：如何免费解锁Cursor AI Pro功能并突破使用限制

第一章 Qt 概述_csdn

Gemini客户情绪识别失效真相（92%团队踩坑的4类标注盲区）

Gemini新版服务条款深度拆解：3大法律陷阱、2类数据权属变更、1个不可逆授权条款（附律师审阅对照表）

从日均500万条丢推到SLA 99.99%，我们重构Gemini通知管道的7个关键决策，含MQ选型对比、幂等ID生成器与灰度发布Checklist

DeepSeek LeetCode 2858. 可以到达每一个节点的最少边反转次数 C语言实现

Python 3 OS模块详解

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥