助睿实验3 - 学生用户画像 - 考勤主题扩展标签构建第一部分实验背景1.1实验目的本实验旨在基于已完成的学生考勤主题标签表掌握使用K-Means聚类算法对学生考勤行为进行自动分群的核心技能。具体任务包括通过迟到、早退、请假、校服违规次数等核心考勤指标识别不同类型的考勤群体生成可解释的考勤画像最终为校园学生管理、行为分析提供精准的数据支撑完成考勤主题扩展标签的构建。1.2实验环境本实验采用助睿数智Uniplore一站式数据科学实验平台平台地址为 https://lab.guilian.cn/ 。助睿数智Uniplore是AI驱动的一站式数据科学平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能产品官网为 https://www.uniplore.com/ 。本次实验主要用到该平台的数据集成平台助睿ETL、人工智能平台助睿AI以及助睿BI数据可视化探索平台。底层数据库采用MySQL前置数据为学生考勤主题标签表student_attendance_stats。1.3处理流程整体处理逻辑清晰且完整首先从团队私有数据库中加载学生考勤主题标签表数据其次利用人工智能平台AI Studio以零代码拖拽方式搭建K-Means聚类工作流对学生的迟到、早退、请假、校服违规次数四个核心指标进行聚类建模然后将聚类结果保存至数据库并借助助睿BI平台进行可视化分析通过制作多个两两指标散点图解读不同聚类簇的业务含义完成从机器编号到可解释学生画像的转化最后通过ETL转换流将考勤群体分类标签回写至原始学生考勤主题标签表中实现扩展标签的最终构建。第二部分实验步骤2.1AI Studio聚类建模点击左边菜单“人工智能”进入人工智能平台AI Studio进入人工智能模块用户空间点击“”“新建工作流”人工智能模块页面是一个集构建、运行、编辑、查看功能于一体的工作区域。该页面主要由三个部分组成分别是菜单栏、控件列表以及用于构建工作流的画布具体界面如下图所示。2.2 数据导入为了将 student_attendance_stats 表中的数据载入到工作流中接下来需要添加一个数据读取节点。操作方法是从控件列表中选取“数据库加载”控件然后将其拖拽至画布上。双击“数据库加载”控件右边会出现参数配置窗口将团队私有数据库的信息填入并点击“连接”在弹出的窗口中点击下拉框选择 student_attendance_stats表选择完成后系统会自动加载该表的全部字段信息。由于本次分析聚焦于各类异常考勤行为的特征因此仅需保留 student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count 这六个核心字段。对于其余字段统一将其操作设置为“skip”。同时需要为保留的六个字段指定正确的属性类型。完成上述配置后点击“确定”按钮即可。右键数据库加载空间点击“运行该控件”运行成功后可右键“查看输出结果”可以看到保留下来的数据2.3 K-Means 聚类建模从控件列表中将“K-Means”组件拖拽至画布然后建立从“数据库加载”组件到“K-Means”双击“K-Means”组件配置窗口中簇数量选择固定3个其他保持不变右键点击该控件选择“运行”待运行成功后再次右键选择“查看输出结果”。在结果展示中可以看到每一位学生都被标记了对应的簇类分别为 C1、C2 或 C3。2.4 结果输出与保存聚类分析完成后需要将结果数据保存到数据库中以便后续在BI分析或标签扩展环节中使用。具体操作是将“数据入库”组件拖拽至画布然后创建从“K-Means”组件到“数据入库”组件的连线。双击“数据入库”组件数据库配置中输入团队私有数据库的参数并点击“获取表信息”在弹出的窗口中选择“新建数据表”表名称修改为“student_cluster”并点击“确定”运行工作流各控件均运行成功则工作流运行成功2.5分析聚类簇编号对应的考勤群体分类上一步骤输出的聚类簇编号无法确定对应的考勤群体分类可要通过助睿BI 可视化分析来确定点击实验平台左边菜单“助睿BI”进入助睿BI平台进入助睿BI平台的首页后可以查看当前账户下的数据概况、数据分析处理流程以及平台所支持的数据源类型。2.6连接数据源上一步骤输出的 student_cluster 存放于我们的团队私有数据库中所以我们需要在助睿BI 平台中创建数据库连接点击左边菜单中的“数据源”点击左上角“” - “新建连接” - “MySQL”出现“测试连接成功”表示我们的连接正确点击“确认”点击新建的数据库目录展开后可以看到本次实验所用的学生考勤主题标签表。右键点击该表选择“查看表数据”即可预览表内的数据内容。2.7 构建数据集数据源连接成功后我们要将需要分析的数据表构建为数据集点击左边菜单中的“数据集”点击左上角“” - “新建数据集”在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”数据集创建成功后系统会自动跳转到该数据集的配置页面。配置的第一步需要先选择数据源。助睿BI平台为了防止用户遗漏这一关键步骤设置了强提醒功能。点击弹窗中的“好的我知道了”按钮即可关闭提醒并继续配置数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” 第二个选项则选择student_cluster 所在的目录“cs_group_5”数据源选择完成后cs_group_5目录下的数据表自动出现在画布左边将student_cluster 拖拽至画布中第一步查看数据的表结构和数据内容。第二步在 student_id 字段的备注输入框中输入“学生ID”点击“√”保存该字段的别名修改。第三步按照同样方式完成其他字段备注的中文修改。第四步点击画布左上角的“保存”按钮保存所有配置。在保存提示中点击“保存并发布”只有发布后的数据集才能在工作表中引用2.8 制作工作表工作表是助睿BI平台中用于承载可视化图表、完成数据探索与分析的核心单元也是实现数据可视化展示的基础载体。接下来我们将开始制作聚类簇编号对应的考勤群体分类工作表。首先点击左侧菜单中的“工作表”进入工作表模块。为了方便管理我们将本次制作的工作表集中存放在一个目录下。具体操作是点击左上角的“”按钮然后选择“新建分组”在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”找到“聚类簇对应的考勤画像群体分类分析”分组右键点击该分组或者将鼠标悬停在该分组上点击右侧出现的“…”图标在弹出的操作列表中选择“新建工作表”。在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”第一步系统自动跳转至工作表设计页面。第二步在页面右上角找到提醒弹窗点击“好的我知道了”按钮关闭提醒并进入设计界面。数据集选择刚刚创建的“聚类簇编号数据集”图表类型选择“探索器”在右侧字段列表中找到字段“late_count迟到次数”将其拖拽到X轴区域再找到“early_leave_count早退次数”将其拖拽到Y轴区域。点击图形设置按钮打开设置面板在设置面板中点击颜色区域的“”在下拉框中选择“Cluster聚类簇编号”并点击“确认”点击信息区域的“”在下拉框中选择“student_id学生ID”并点击“确认”将“student_id学生ID”设置为“维度”系统默认限额为2000条数据因此需要将限额设置为100%避免数据过多不显示全部为了使不同聚类簇在图表上的区分更加明显我们可以设置聚类簇编号的颜色。具体操作是点击颜色区域旁的设置按钮然后在弹出的主题选项中切换一个对比强烈的配色主题。颜色设置后需要点击一下颜色区域外的地方才会生效点击保存按钮保存并发布工作表按照同样的方法重新新建工作表依次对四个异常考勤次数的三个聚类簇表现情况进行两两组合分析。首先制作的是“迟到与请假次数的聚类簇分析”工作表。迟到与没穿校服次数的聚类簇分析早退与请假次数的聚类簇分析早退与没穿校服次数的聚类簇分析请假与没穿校服次数的聚类簇分析2.9 搭建仪表盘为了更好地观察和分析以上制作的六个工作表我们可以将它们集中展示在一个仪表盘中。具体操作是点击左边菜单栏中的“仪表盘”然后点击左上角的“”按钮选择“新建仪表盘”。仪表盘名字输入“聚类簇分析”备注信息输入“聚类簇分析”点击“确认”在右边组件与工作表区域点击“基础组件”并拖拽一个文本组件到画布中文本内容输入“聚类簇分析”并设置字体颜色、字体大小、加粗、居中鼠标移至文本组件上组件右下角可以拖动跳转组件大小为了防止后续位置改变可以点击右上角图钉图表固定位置点击工作表组件显示按钮切换到“工作表”将制作的工作表都拖拽至画布中所有工作表拖入完毕后可以按住图标的顶部中间位置进行拖动以调整图表在仪表盘中的位置同时也可以使用鼠标拖拽图表的边缘或右下角对图表的大小和整体布局进行调整。点击保存按钮保存并发布仪表盘2.10 聚类群体画像解读通过对六组两两指标散点图的分布特征进行综合分析我们将三个聚类簇的业务含义解读如下第一类C1蓝色——自律模范型。该簇在迟到、早退、请假、校服违规次数的所有组合中数据点高度集中于低频次区间无明显离群值。这类学生出勤稳定、纪律意识强是校园考勤行为的正面典范。第二类C2青色——轻微波动型。该簇数据点整体同样集中在低频次区间但相较C1分布略显分散。部分记录存在轻微的校服违规或请假行为而迟到与早退次数始终保持在低位。这类学生纪律状况整体可控仅存在偶发性轻微波动属于日常提醒即可的群体。第三类C3黄色——纪律高危型。该簇呈现明显的离群特征特别是在迟到次数与其他指标的交叉分析中出现了大量高频迟到记录并伴有不同程度的早退、请假或校服违规行为。该群体是唯一存在多维度违纪叠加的类别考勤问题突出是校园管理中需要重点关注和干预的核心对象。2.11将映射结果加入学生考勤主题标签表接下来我们需要将最终确定的考勤群体分类数据增加到上一个实验输出的结果表 student_attendance_stats 中。由于该表目前没有考勤群体分类的相关字段因此需要先增加两个字段cluster聚类簇编号和 attendance_group考勤群体分类。具体操作是进入上一个实验在数据集成平台中创建的ETL项目新建一个名为“增加考勤主题扩展标签字段”的转换流然后将“执行一个SQL脚本”组件拖拽至画布中。双击“执行一个SQL脚本”组件在配置窗口中数据库连接“团队私有数据库”输入SQL脚本后点击“确认”执行转换流2.12 聚类簇编号数据获取接下来我们需要使用AI Studio输出的结果表 student_cluster【将其作为聚类簇编号的数据来源】。然后打开上一个实验创建的项目在数据集成平台中新建一个转换流命名为“增加考勤群体分类标签”。将“表输入”组件拖拽至画布中然后双击该组件。在配置窗口中通过SQL查询语句从团队私有数据库中获取步骤3.1中生成的分类结果表 student_cluster 的全部数据。2.13 字段选择从获取的数据中我们只需保留 student_id 和 Cluster 两个字段。因此将“字段选择”组件拖拽至画布中然后创建从“表输入”组件到“字段选择”组件的连线。双击“字段选择”组件打开配置窗口点击“移除”选项卡。在字段名称下方的空白区域右键点击选择“获取字段”系统会列出所有传入的字段。然后选中 student_id 和 Cluster 这两个字段右键点击并选择“删除选中的行”。此时除了 student_id 和 Cluster 之外的其他字段均被移除。为了保持和 student_attendance_stats 表中字段类型一致不影响后续数据更新到 student_attendance_stats需要将 student_id、class_id 的类型修改为Integer点击元数据选项插入2行 student_id、class_id 的配置如下最后点击“确认”2.14 聚类簇编号映射原始聚类簇编号以C1、C2、C3等编号形式存储可读性较差因此需要通过映射转换为其增加中文说明。具体操作是将“值映射”组件拖拽至画布中然后创建从“字段选择”组件到“值映射”组件的连线并在弹出的步骤选择窗口中选择“主输出步骤”。双击“值映射”组件使用的字段名为“Cluster ” 目标字段名为“attendance_group”在下方字段值表格空白处右键点击“插入”双击插入的行在“源值”列中输入“C1”在“目标值”列中输入“自律模范型”。这意味着原始数据中所有值为“C1”的记录将被统一映射为“自律模范型”。同样的再插入2行设置源值“C2”目标值“轻微波动型”源值“C3”目标值“纪律高危型”并点击“确认”2.15 更新学生考勤主题标签拖拽“更新”组件到画布中并创建值映射组件到更新组件的连线双击“更新”组件在配置窗口中数据库连接选择团队私有数据目标模式为labs在“用来查询的关键字”表格中右键点击空白处选择“获取字段”然后只保留 student_id 和 class_id 两个字段。这表示当数据表中的 student_id 和 class_id 与数据流中的对应字段值相同时系统会执行更新操作。在“更新字段”表格中右键点击空白处选择“获取字段”然后删除 student_id 这一行。这里需要特别注意我们在增加扩展字段时将聚类簇编号的字段名设置为 cluster全小写而数据流中的字段名为 Cluster首字母大写。因此在“表字段”列中需要双击 Cluster 字段所在行然后从下拉框中手动选择正确的表字段“cluster”确保流字段与表字段正确对应。最后的配置如下表示当数据表的student_id与流里的student_id相同时将流字段Cluster、attendance_group的值更新到表字段cluster、attendance_group中第三部分实验结果3.1 运行转换流点击运行按钮执行结果和日志3.2 查看结果切换“元数据”选项右键“团队私有数据库”点击“加载元数据”加载成功后点击“数据探查”在团队私有数据库中点击 student_attendance_stats 在点击“查询”可以看到 cluster、attendance_group的数据已经更新成功了第四部分问题与解决问题现象在AI Studio的“数据库加载”控件中初次选择字段属性类型时误将student_id设置为“numeric”数值类型导致后续聚类分析时该字段被误作为特征变量参与计算。问题原因对聚类建模的特征选择理解不够深入未清晰区分标识字段与分析字段。student_id是学生的唯一标识属于分类变量或标识符不应作为数值型特征参与距离计算否则会干扰聚类结果。第五部分实验总结收获通过本次实验我完整掌握了从数据加载、K-Means聚类建模、可视化分析到结果回写的一整套基于零代码平台的数据挖掘流程。深刻理解了特征选择对于聚类模型的重要性以及如何结合业务背景对机器生成的聚类结果进行可解释性分析。同时熟练掌握了助睿数智Uniplore平台下AI Studio、BI模块及ETL组件的协同使用方法具备了独立完成一个完整用户画像扩展标签构建任务的能力。特别是通过散点图矩阵进行多维度群体特征解读的方法为今后处理类似的分群分析任务提供了宝贵的实践经验和分析框架。对平台的整体评价助睿数智Uniplore一站式数据科学实验平台在整个实验过程中表现出色。其零代码拖拽式的工作流搭建方式极大地降低了机器学习建模的门槛使得无需编写复杂代码即可完成从数据处理到模型应用的完整链路。平台各模块AI、BI、ETL之间无缝衔接数据流转顺畅组件功能丰富且配置灵活。AI Studio内置的算法组件稳定高效BI平台的可视化分析功能强大且交互友好仪表盘的搭建过程直观便捷。整体而言该平台非常适合高校教学、业务分析师以及希望快速进行数据科学实验的团队使用能够有效提升数据分析与挖掘工作的效率和成果的可交付性。产品官网https://www.uniplore.com/和实验平台https://lab.guilian.cn/也提供了良好的用户支持。
三招识别“纪律高危”学生?K-Means聚类助你构建精准考勤画像
发布时间:2026/5/25 11:07:40
助睿实验3 - 学生用户画像 - 考勤主题扩展标签构建第一部分实验背景1.1实验目的本实验旨在基于已完成的学生考勤主题标签表掌握使用K-Means聚类算法对学生考勤行为进行自动分群的核心技能。具体任务包括通过迟到、早退、请假、校服违规次数等核心考勤指标识别不同类型的考勤群体生成可解释的考勤画像最终为校园学生管理、行为分析提供精准的数据支撑完成考勤主题扩展标签的构建。1.2实验环境本实验采用助睿数智Uniplore一站式数据科学实验平台平台地址为 https://lab.guilian.cn/ 。助睿数智Uniplore是AI驱动的一站式数据科学平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能产品官网为 https://www.uniplore.com/ 。本次实验主要用到该平台的数据集成平台助睿ETL、人工智能平台助睿AI以及助睿BI数据可视化探索平台。底层数据库采用MySQL前置数据为学生考勤主题标签表student_attendance_stats。1.3处理流程整体处理逻辑清晰且完整首先从团队私有数据库中加载学生考勤主题标签表数据其次利用人工智能平台AI Studio以零代码拖拽方式搭建K-Means聚类工作流对学生的迟到、早退、请假、校服违规次数四个核心指标进行聚类建模然后将聚类结果保存至数据库并借助助睿BI平台进行可视化分析通过制作多个两两指标散点图解读不同聚类簇的业务含义完成从机器编号到可解释学生画像的转化最后通过ETL转换流将考勤群体分类标签回写至原始学生考勤主题标签表中实现扩展标签的最终构建。第二部分实验步骤2.1AI Studio聚类建模点击左边菜单“人工智能”进入人工智能平台AI Studio进入人工智能模块用户空间点击“”“新建工作流”人工智能模块页面是一个集构建、运行、编辑、查看功能于一体的工作区域。该页面主要由三个部分组成分别是菜单栏、控件列表以及用于构建工作流的画布具体界面如下图所示。2.2 数据导入为了将 student_attendance_stats 表中的数据载入到工作流中接下来需要添加一个数据读取节点。操作方法是从控件列表中选取“数据库加载”控件然后将其拖拽至画布上。双击“数据库加载”控件右边会出现参数配置窗口将团队私有数据库的信息填入并点击“连接”在弹出的窗口中点击下拉框选择 student_attendance_stats表选择完成后系统会自动加载该表的全部字段信息。由于本次分析聚焦于各类异常考勤行为的特征因此仅需保留 student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count 这六个核心字段。对于其余字段统一将其操作设置为“skip”。同时需要为保留的六个字段指定正确的属性类型。完成上述配置后点击“确定”按钮即可。右键数据库加载空间点击“运行该控件”运行成功后可右键“查看输出结果”可以看到保留下来的数据2.3 K-Means 聚类建模从控件列表中将“K-Means”组件拖拽至画布然后建立从“数据库加载”组件到“K-Means”双击“K-Means”组件配置窗口中簇数量选择固定3个其他保持不变右键点击该控件选择“运行”待运行成功后再次右键选择“查看输出结果”。在结果展示中可以看到每一位学生都被标记了对应的簇类分别为 C1、C2 或 C3。2.4 结果输出与保存聚类分析完成后需要将结果数据保存到数据库中以便后续在BI分析或标签扩展环节中使用。具体操作是将“数据入库”组件拖拽至画布然后创建从“K-Means”组件到“数据入库”组件的连线。双击“数据入库”组件数据库配置中输入团队私有数据库的参数并点击“获取表信息”在弹出的窗口中选择“新建数据表”表名称修改为“student_cluster”并点击“确定”运行工作流各控件均运行成功则工作流运行成功2.5分析聚类簇编号对应的考勤群体分类上一步骤输出的聚类簇编号无法确定对应的考勤群体分类可要通过助睿BI 可视化分析来确定点击实验平台左边菜单“助睿BI”进入助睿BI平台进入助睿BI平台的首页后可以查看当前账户下的数据概况、数据分析处理流程以及平台所支持的数据源类型。2.6连接数据源上一步骤输出的 student_cluster 存放于我们的团队私有数据库中所以我们需要在助睿BI 平台中创建数据库连接点击左边菜单中的“数据源”点击左上角“” - “新建连接” - “MySQL”出现“测试连接成功”表示我们的连接正确点击“确认”点击新建的数据库目录展开后可以看到本次实验所用的学生考勤主题标签表。右键点击该表选择“查看表数据”即可预览表内的数据内容。2.7 构建数据集数据源连接成功后我们要将需要分析的数据表构建为数据集点击左边菜单中的“数据集”点击左上角“” - “新建数据集”在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”数据集创建成功后系统会自动跳转到该数据集的配置页面。配置的第一步需要先选择数据源。助睿BI平台为了防止用户遗漏这一关键步骤设置了强提醒功能。点击弹窗中的“好的我知道了”按钮即可关闭提醒并继续配置数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” 第二个选项则选择student_cluster 所在的目录“cs_group_5”数据源选择完成后cs_group_5目录下的数据表自动出现在画布左边将student_cluster 拖拽至画布中第一步查看数据的表结构和数据内容。第二步在 student_id 字段的备注输入框中输入“学生ID”点击“√”保存该字段的别名修改。第三步按照同样方式完成其他字段备注的中文修改。第四步点击画布左上角的“保存”按钮保存所有配置。在保存提示中点击“保存并发布”只有发布后的数据集才能在工作表中引用2.8 制作工作表工作表是助睿BI平台中用于承载可视化图表、完成数据探索与分析的核心单元也是实现数据可视化展示的基础载体。接下来我们将开始制作聚类簇编号对应的考勤群体分类工作表。首先点击左侧菜单中的“工作表”进入工作表模块。为了方便管理我们将本次制作的工作表集中存放在一个目录下。具体操作是点击左上角的“”按钮然后选择“新建分组”在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”找到“聚类簇对应的考勤画像群体分类分析”分组右键点击该分组或者将鼠标悬停在该分组上点击右侧出现的“…”图标在弹出的操作列表中选择“新建工作表”。在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”第一步系统自动跳转至工作表设计页面。第二步在页面右上角找到提醒弹窗点击“好的我知道了”按钮关闭提醒并进入设计界面。数据集选择刚刚创建的“聚类簇编号数据集”图表类型选择“探索器”在右侧字段列表中找到字段“late_count迟到次数”将其拖拽到X轴区域再找到“early_leave_count早退次数”将其拖拽到Y轴区域。点击图形设置按钮打开设置面板在设置面板中点击颜色区域的“”在下拉框中选择“Cluster聚类簇编号”并点击“确认”点击信息区域的“”在下拉框中选择“student_id学生ID”并点击“确认”将“student_id学生ID”设置为“维度”系统默认限额为2000条数据因此需要将限额设置为100%避免数据过多不显示全部为了使不同聚类簇在图表上的区分更加明显我们可以设置聚类簇编号的颜色。具体操作是点击颜色区域旁的设置按钮然后在弹出的主题选项中切换一个对比强烈的配色主题。颜色设置后需要点击一下颜色区域外的地方才会生效点击保存按钮保存并发布工作表按照同样的方法重新新建工作表依次对四个异常考勤次数的三个聚类簇表现情况进行两两组合分析。首先制作的是“迟到与请假次数的聚类簇分析”工作表。迟到与没穿校服次数的聚类簇分析早退与请假次数的聚类簇分析早退与没穿校服次数的聚类簇分析请假与没穿校服次数的聚类簇分析2.9 搭建仪表盘为了更好地观察和分析以上制作的六个工作表我们可以将它们集中展示在一个仪表盘中。具体操作是点击左边菜单栏中的“仪表盘”然后点击左上角的“”按钮选择“新建仪表盘”。仪表盘名字输入“聚类簇分析”备注信息输入“聚类簇分析”点击“确认”在右边组件与工作表区域点击“基础组件”并拖拽一个文本组件到画布中文本内容输入“聚类簇分析”并设置字体颜色、字体大小、加粗、居中鼠标移至文本组件上组件右下角可以拖动跳转组件大小为了防止后续位置改变可以点击右上角图钉图表固定位置点击工作表组件显示按钮切换到“工作表”将制作的工作表都拖拽至画布中所有工作表拖入完毕后可以按住图标的顶部中间位置进行拖动以调整图表在仪表盘中的位置同时也可以使用鼠标拖拽图表的边缘或右下角对图表的大小和整体布局进行调整。点击保存按钮保存并发布仪表盘2.10 聚类群体画像解读通过对六组两两指标散点图的分布特征进行综合分析我们将三个聚类簇的业务含义解读如下第一类C1蓝色——自律模范型。该簇在迟到、早退、请假、校服违规次数的所有组合中数据点高度集中于低频次区间无明显离群值。这类学生出勤稳定、纪律意识强是校园考勤行为的正面典范。第二类C2青色——轻微波动型。该簇数据点整体同样集中在低频次区间但相较C1分布略显分散。部分记录存在轻微的校服违规或请假行为而迟到与早退次数始终保持在低位。这类学生纪律状况整体可控仅存在偶发性轻微波动属于日常提醒即可的群体。第三类C3黄色——纪律高危型。该簇呈现明显的离群特征特别是在迟到次数与其他指标的交叉分析中出现了大量高频迟到记录并伴有不同程度的早退、请假或校服违规行为。该群体是唯一存在多维度违纪叠加的类别考勤问题突出是校园管理中需要重点关注和干预的核心对象。2.11将映射结果加入学生考勤主题标签表接下来我们需要将最终确定的考勤群体分类数据增加到上一个实验输出的结果表 student_attendance_stats 中。由于该表目前没有考勤群体分类的相关字段因此需要先增加两个字段cluster聚类簇编号和 attendance_group考勤群体分类。具体操作是进入上一个实验在数据集成平台中创建的ETL项目新建一个名为“增加考勤主题扩展标签字段”的转换流然后将“执行一个SQL脚本”组件拖拽至画布中。双击“执行一个SQL脚本”组件在配置窗口中数据库连接“团队私有数据库”输入SQL脚本后点击“确认”执行转换流2.12 聚类簇编号数据获取接下来我们需要使用AI Studio输出的结果表 student_cluster【将其作为聚类簇编号的数据来源】。然后打开上一个实验创建的项目在数据集成平台中新建一个转换流命名为“增加考勤群体分类标签”。将“表输入”组件拖拽至画布中然后双击该组件。在配置窗口中通过SQL查询语句从团队私有数据库中获取步骤3.1中生成的分类结果表 student_cluster 的全部数据。2.13 字段选择从获取的数据中我们只需保留 student_id 和 Cluster 两个字段。因此将“字段选择”组件拖拽至画布中然后创建从“表输入”组件到“字段选择”组件的连线。双击“字段选择”组件打开配置窗口点击“移除”选项卡。在字段名称下方的空白区域右键点击选择“获取字段”系统会列出所有传入的字段。然后选中 student_id 和 Cluster 这两个字段右键点击并选择“删除选中的行”。此时除了 student_id 和 Cluster 之外的其他字段均被移除。为了保持和 student_attendance_stats 表中字段类型一致不影响后续数据更新到 student_attendance_stats需要将 student_id、class_id 的类型修改为Integer点击元数据选项插入2行 student_id、class_id 的配置如下最后点击“确认”2.14 聚类簇编号映射原始聚类簇编号以C1、C2、C3等编号形式存储可读性较差因此需要通过映射转换为其增加中文说明。具体操作是将“值映射”组件拖拽至画布中然后创建从“字段选择”组件到“值映射”组件的连线并在弹出的步骤选择窗口中选择“主输出步骤”。双击“值映射”组件使用的字段名为“Cluster ” 目标字段名为“attendance_group”在下方字段值表格空白处右键点击“插入”双击插入的行在“源值”列中输入“C1”在“目标值”列中输入“自律模范型”。这意味着原始数据中所有值为“C1”的记录将被统一映射为“自律模范型”。同样的再插入2行设置源值“C2”目标值“轻微波动型”源值“C3”目标值“纪律高危型”并点击“确认”2.15 更新学生考勤主题标签拖拽“更新”组件到画布中并创建值映射组件到更新组件的连线双击“更新”组件在配置窗口中数据库连接选择团队私有数据目标模式为labs在“用来查询的关键字”表格中右键点击空白处选择“获取字段”然后只保留 student_id 和 class_id 两个字段。这表示当数据表中的 student_id 和 class_id 与数据流中的对应字段值相同时系统会执行更新操作。在“更新字段”表格中右键点击空白处选择“获取字段”然后删除 student_id 这一行。这里需要特别注意我们在增加扩展字段时将聚类簇编号的字段名设置为 cluster全小写而数据流中的字段名为 Cluster首字母大写。因此在“表字段”列中需要双击 Cluster 字段所在行然后从下拉框中手动选择正确的表字段“cluster”确保流字段与表字段正确对应。最后的配置如下表示当数据表的student_id与流里的student_id相同时将流字段Cluster、attendance_group的值更新到表字段cluster、attendance_group中第三部分实验结果3.1 运行转换流点击运行按钮执行结果和日志3.2 查看结果切换“元数据”选项右键“团队私有数据库”点击“加载元数据”加载成功后点击“数据探查”在团队私有数据库中点击 student_attendance_stats 在点击“查询”可以看到 cluster、attendance_group的数据已经更新成功了第四部分问题与解决问题现象在AI Studio的“数据库加载”控件中初次选择字段属性类型时误将student_id设置为“numeric”数值类型导致后续聚类分析时该字段被误作为特征变量参与计算。问题原因对聚类建模的特征选择理解不够深入未清晰区分标识字段与分析字段。student_id是学生的唯一标识属于分类变量或标识符不应作为数值型特征参与距离计算否则会干扰聚类结果。第五部分实验总结收获通过本次实验我完整掌握了从数据加载、K-Means聚类建模、可视化分析到结果回写的一整套基于零代码平台的数据挖掘流程。深刻理解了特征选择对于聚类模型的重要性以及如何结合业务背景对机器生成的聚类结果进行可解释性分析。同时熟练掌握了助睿数智Uniplore平台下AI Studio、BI模块及ETL组件的协同使用方法具备了独立完成一个完整用户画像扩展标签构建任务的能力。特别是通过散点图矩阵进行多维度群体特征解读的方法为今后处理类似的分群分析任务提供了宝贵的实践经验和分析框架。对平台的整体评价助睿数智Uniplore一站式数据科学实验平台在整个实验过程中表现出色。其零代码拖拽式的工作流搭建方式极大地降低了机器学习建模的门槛使得无需编写复杂代码即可完成从数据处理到模型应用的完整链路。平台各模块AI、BI、ETL之间无缝衔接数据流转顺畅组件功能丰富且配置灵活。AI Studio内置的算法组件稳定高效BI平台的可视化分析功能强大且交互友好仪表盘的搭建过程直观便捷。整体而言该平台非常适合高校教学、业务分析师以及希望快速进行数据科学实验的团队使用能够有效提升数据分析与挖掘工作的效率和成果的可交付性。产品官网https://www.uniplore.com/和实验平台https://lab.guilian.cn/也提供了良好的用户支持。