优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台 导读优路教育作为国内知名的成人职业教育培训机构业务覆盖建工、消防、医卫、财经、教师、法考等多个领域服务百万学员。随着业务规模的持续扩大数据驱动的精细化运营成为核心竞争力。优路教育大数据团队携手阿里云基于实时计算 Flink EMR Serverless StarRocks DLF(Paimon) 构建了全链路实时数据服务平台从学员画像、营销筛选到题库关联查询实现了从“分钟级延迟”到“秒级响应”的质变为成人教育行业的数据化转型提供了标杆实践。业务背景与挑战优路教育成人职教赛道领军者优路教育科技股份有限公司以下简称“优路教育”成立于 2005 年是国内兼具口碑与实力的成人职业教育培训机构秉承**“点亮职业人生”**的企业使命以职教匠心育行业人才。业务覆盖建筑工程、消防安全、医药卫生、财税金融、教资招教、经济管理、康养技能、法律考试、公务员考试、四六级考研等多个领域在全国设有数百家分校服务百万学员。在数字化转型的浪潮中优路教育积极拥抱技术变革致力于通过AI 大数据推动业务流程优化。从广告营销、售前触达、内容生产、售后服务到创新业务探索数据已深度渗透到业务的每一个环节。然而数据规模和复杂度的快速增长也给技术架构带来了前所未有的挑战。数据规模与业务复杂度优路教育的核心业务系统涵盖学员服务、订单管理、课程管理、用户管理等多个模块核心业务数据表近百张数据量级从数百万到几千万。业务对数据的实时性要求极高——学员一旦下单其画像数据、课程信息、配套试题等必须在极短时间内全部就位以支撑后续的个性化学习服务。同时题库系统也是平台数据复杂度的集中体现。系统围绕学员画像、课程知识点、学习行为、题库资源等核心要素构建了覆盖上百张数据表的数据体系需对数十亿级学习和答题数据进行高效处理与多维关联分析以支撑个性化内容的精准匹配在营销侧业务团队需要通过各种维度的用户筛选来精准定位目标学员构建完整的用户画像大盘——这意味着需要对海量数据进行灵活的多维度、多条件实时查询。传统架构的痛点图优路教育数据架构升级前后对比在引入新架构之前优路教育主要依赖传统关系型数据库来承载数据分析和查询工作。随着数据量的持续增长和业务查询复杂度的不断攀升原有架构在性能、时效性和分析能力等方面已难以充分支撑业务发展的需求。具体表现为:1.多表关联性能瓶颈几十张业务表的实时聚合查询传统 MySQL 在亿级数据量下的多表JOIN性能急剧下降核心报表查询耗时从秒级恶化至数分钟级甚至更长。2.ES方案的局限性团队曾尝试使用 Elasticsearch 配合 MQ 来解决实时查询需求但ES对多表关联查询的支持天然不足面对数十张表的复杂关联场景力不从心。3.业务代码层面的复杂查询大量复杂的数据聚合逻辑被迫下沉到业务代码中实现不仅增加了开发和维护成本更严重影响了系统的可扩展性和稳定性。4.数据团队压力倍增越来越多的业务团队对数据产出提出了更高的准确性和实时性要求大数据团队面临着巨大的业务交付压力。技术选型为什么是 Flink StarRocks Paimon面对上述挑战优路教育大数据团队与阿里云深入合作经过充分调研和技术验证最终选定了阿里云 Flink EMR Serverless StarRocks DLF(Paimon)的实时湖仓架构方案。这一组合各司其职、优势互补高度契合了优路教育的业务需求。实时计算Flink版实时数据采集与计算的核心引擎Apache Flink 作为业界领先的流批一体计算引擎通过 Flink CDCChange Data Capture技术能够实时捕获 MySQL/SQL Server/Oracle 等关系型数据库的增量变更数据无需侵入业务系统即可实现数据的毫秒级同步。在优路教育的场景中Flink CDC 实时采集订单、学员、课程、题库等核心业务表的变更数据并通过 Flink SQL 进行流式清洗、转换和聚合为下游湖仓提供高质量的实时数据流累计完成 600 张表近 3T 的数据量通过 StarRocks 这一套引擎同时胜任“实时更新数据库”和“海量分析数据库”的角色让业务无需在“实时”和“批量”之间做妥协。阿里云提供了企业级、高性能、全托管 Serverless Flink 云服务及 Flink CDC 能力。阿里云DLFPaimon流批一体的湖仓存储底座Apache Paimon 作为新一代流批一体数据湖存储框架支持低延迟写入和高效更新天然适配 Flink 生态。在优路教育的架构中Paimon 承担了统一的数据湖存储角色将 ODS、DWD、DWS、ADS 等数据分层全部构建在湖上数据存储于阿里云 OSS 对象存储兼顾了高可靠性与低成本。Paimon 的流读流写能力使得数据可以在湖上持续流动和加工为实时分析提供了坚实的数据底座。阿里云 DLF 包含全托管 Paimon提供智能湖表优化、智能存储分层、存储指标可观测、快照版本回溯等能力。EMR Serverless StarRocks极速多表关联分析的利器StarRocks 作为新一代极速全场景MPP数据库正是解决优路教育核心痛点的关键。StarRocks具备以下与优路教育业务高度契合的能力极速多表关联查询全面向量化引擎 全新 CBO 优化器尤其擅长多表关联场景几十张表的实时聚合查询从分钟级压缩至秒级Catalog 外表直查通过 Catalog 功能直接访问 Paimon 湖表无需额外 ETL数据链路更短、时效性更高灵活数据建模支持大宽表、星型模型、雪花模型等多种建模方式适应不同业务场景的需求物化视图加速异步物化视图支持对 Paimon 湖表的预计算加速将复杂查询的响应时间进一步压缩兼容 MySQL 协议支持标准 SQL 语法业务开发人员零学习成本即可上手大幅降低迁移门槛。阿里云 EMR Serverless StarRocks 具备企业级内核Stella、多计算组隔离、可视化管理平台存算分离性能提升100%、湖格式如 Paimon查询性能提升100%以上。引入阿里云 StarRocks 之后原本在业务代码中需要复杂代码实现的数据查询逻辑现在通过标准 SQL 即可高效完成BI 报表和实时数据聚合均获得了质的飞跃。正如优路教育大数据架构师所言“StarRocks解决了我们最大的痛点——多表关联查询现在整个大数据团队的业务压力虽然很大但我们终于有了能扛住这些压力的技术底座。”整体架构设计优路教育实时数据服务平台采用经典的分层架构设计自底向上分为数据源层、实时计算层、湖仓存储层、分析服务层和业务应用层五大层次。图优路教育实时数据服务平台整体架构数据源层数据源层汇聚了优路教育的全量业务数据包括:关系型业务库(订单系统、学员系统、课程系统、题库系统、学服系统等)、各类用户行为日志数据以及第三方数据源(广告投放数据、渠道转化数据等)。这些数据共同构成了优路教育数据资产的基础。实时计算层Flink阿里云实时计算 Flink 承担了数据采集与实时处理的核心职责。通过 Flink CDC 实时捕获业务库的 Binlog 变更通过 Flink SQL 对原始数据进行清洗、转换、维表关联和轻度聚合处理。针对用户行为日志则通过 Kafka 进行采集后由 Flink 进行流式处理。所有处理后的数据统一写入 DLFPaimon数据湖。湖仓存储层DLF-PaimonDLFPaimon构建了统一的数据湖存储体系按照经典的数仓分层模型组织数据ODS 层实时接入原始业务数据→DWD 层明细数据清洗与标准化→DWS层多维度轻度聚合→ADS 层面向具体业务场景的应用数据集实现存算分离在保障数据可靠性的同时大幅降低了存储成本。图Flink StarRocks Paimon 实时数据流转链路分析服务层EMR Serverless StarRocks阿里云 EMR StarRocks 通过 Catalog 功能与 Paimon 数据湖无缝对接直接查询湖表数据而无需额外的数据导入过程。对于高频查询场景通过物化视图进行预计算加速对于复杂的多表关联场景充分利用 StarRocks 向量化引擎和 CBO 优化器的极速多表 JOIN 能力。同时通过资源组实现不同业务场景之间的资源隔离保障核心业务查询的稳定性。业务应用层在业务应用层StarRocks 为多个核心业务场景提供统一的数据查询服务BI 报表和经营分析看板、学员全生命周期画像大盘、营销用户筛选与精准触达、题库与课程的多维关联查询等。所有业务应用均通过标准 SQL 接口访问 StarRocks开发效率和维护成本显著优化。核心业务场景实践图优路教育核心大数据应用场景场景一几十张表实时聚合——学员全生命周期服务在成人职业教育领域学员的服务体验直接决定了口碑和复购率。优路教育的业务要求是学员一旦下单就要立即针对他的画像、匹配课程、配套试题全部到位。这意味着需要在学员下单的瞬间从订单表、学员信息表、课程表、题库表、学服记录表等几十张核心业务表中实时聚合出完整的学员服务数据包。在传统架构下这一过程需要在业务代码中编写大量复杂的多表 JOIN 逻辑不仅开发周期长而且查询性能随着数据量增长急剧下降。引入新架构后Flink CDC 实时同步各业务表的变更至 DLFPaimon数据湖StarRocks 通过 Catalog 直接查询湖表利用其强大的多表关联能力在秒级内完成几十张表的实时聚合查询学员下单后即可获得完整的个性化服务方案。场景二题库百张表多维关联查询优路教育的题库系统是其核心竞争力之一覆盖海量试题涉及题目、选项、解析、知识点、章节、课程等近百张关联表。业务需要支持按知识点、难度、题型、考试年份等多维度进行灵活组合查询以支撑智能组卷、个性化练习推荐等功能。在传统数据库架构下百张表的复杂关联查询几乎是不可完成的任务查询耗时动辄数十秒甚至超时。迁移到 StarRocks 后团队充分利用 StarRocks 灵活的数据建模能力将题库数据建模为星型模型以题目事实表为中心关联知识点维表、课程维表、章节维表等。查询性能大幅提升真正实现了题库数据的即查即用。场景三客户营销——用户画像与精准筛选在获客成本持续攀升的成人教育市场精准营销至关重要。优路教育的营销团队需要在学员购课之前通过多维度用户筛选来锁定目标群体。这要求基于学员的基本信息、浏览行为、历史购课记录、学习进度、考试成绩等构建完整的用户画像大盘并支持营销人员根据任意维度组合进行实时筛选。通过 Flink 实时汇聚各维度的用户行为和属性数据至 Paimon 数据湖StarRocks 负责提供灵活的多维度组合查询能力。营销人员可以在画像大盘上自由选择筛选条件如“北京地区 一级建造师 近 30 天活跃 未购课”系统在秒级内返回符合条件的目标学员列表显著提升了营销转化效率和投放 ROI。场景四经营分析 BI 实时看板优路教育管理层需要通过 BI 看板实时掌握经营状况包括实时营收、各分校业绩、课程销售排行、学员满意度等核心指标。在传统架构下这些报表大多只能做到 T1 产出无法满足实时决策需求。借助新架构Flink 将业务数据实时同步至 DLFPaimonStarRocks 物化视图对高频 BI 查询进行预计算加速实现了核心经营指标的分钟级刷新。管理层打开 BI 看板即可看到最新的经营数据数据驱动决策的效率大幅提升。实践效果与收益通过引入阿里云 Flink EMR Serverless StarRocks DLFPaimon 实时湖仓架构优路教育在多个维度取得了显著成效。更重要的是这套架构为优路教育后续的数据化运营奠定了坚实的技术底座。随着越来越多的业务团队接入实时数据服务大数据团队从被动响应需求转变为主动赋能业务数据的价值正在被不断放大。未来规划当前的实时湖仓架构已为优路教育带来了显著的业务价值但技术演进永无止境。展望未来优路教育将在以下方向继续深化建设1.AI 与大数据深度融合结合阿里云 AI 平台能力将实时数据与大模型能力深度结合在智能推荐、智能答疑、个性化学习路径规划等场景实现突破。利用 StarRocks 的实时数据分析能力为AI模型提供高时效性的特征数据。2.数据治理体系完善建立完善的数据质量监控与治理框架确保实时数据的准确性与一致性构建企业级数据资产管理体系。3.湖仓一体化持续演进引入 Fluss 列式流存储能力改善原有的 Flink 在多表JOIN时的状态存储难题持续探索 Paimon 生态在流批一体场景中的更多应用逐步将离线链路迁移到湖仓架构实现真正意义上的流批一体解决实时和离线链路重复开发与数据口径不一致的问题。4.业务场景持续拓展将实时数据服务能力扩展至更多业务场景包括智能学服、内容推荐、课程质量评估、学员生命周期管理等持续发挥数据驱动的业务价值。优路教育的实践表明在线教育这样的数据密集型行业中Flink StarRocks Paimon的实时湖仓架构不仅能够有效解决多表关联、实时聚合、海量题库查询等核心技术挑战更能切实推动业务从传统的“经验驱动”向“数据驱动”转型。我们期待在阿里云的技术加持下优路教育能够在数据化运营的道路上走得更远真正实现“以职教匠心育行业人才”的企业愿景。