助睿实验作业7-自媒体运营分析数据清洗与预处理#助睿数智#商业数据分析#数据集成#自媒体运营分析一、实验背景1.1 实验目的本实验围绕全班同学在多平台发布的自媒体作品互动数据展开目标是使用助睿 ETL 完成数据清洗与预处理形成能够支撑后续特征工程和可视化分析的基础数据表。原始数据同时包含 B站、CSDN、微信、知乎、小红书等平台但不同平台的数据完整性和互动指标口径存在差异因此需要先完成筛选、填充、聚合和字段整理。通过本实验我需要掌握助睿数据集成平台中 CSV 数据接入、目标表创建、分支处理、多条件过滤、缺失值填充、字段选择、分组聚合和表输出等关键操作并理解为什么数据清洗是后续分析可信性的基础。1.2 实验环境与数据来源项目内容实验平台助睿在线实验平台 / 助睿数智 Uniplore数据处理工具助睿 ETL 数据集成平台数据库连接团队私有数据库目标模式 se_group_20原始数据自媒体作品数据明细.csv覆盖 2026-06-08 至 2026-06-15 前后采集到的作品互动数据核心输出summary_all_platforms 全平台概况表content_analysis 内容分析表1.3 实验流程总览实验采用分支处理思路同一份 CSV 数据进入转换流后一条分支不做平台过滤按日期和平台进行全平台概况聚合另一条分支只保留 B站和 CSDN 中浏览量大于 0 的有效作品并进行缺失值处理、字段选择和表输出。这样既保留了仪表盘顶部概况所需的全平台作品数量又为后续深度分析准备了更干净的明细数据。图1原始数据处理转换流运行完成日志显示CSV输入、分组统计和表输出均已执行二、实验详细步骤2.1 创建全平台概况表 summary_all_platforms首先新建“创建全平台概况表”转换流使用“执行一个 SQL 脚本”组件创建 summary_all_platforms。该表以采集日期和平台为统计粒度保存作品数量、总浏览数、总点赞数、总收藏数、总分享数以及 B站投币、微信推荐、知乎喜欢和赞同等平台特色指标。图2创建summary_all_platforms表的SQL脚本配置图3创建全平台概况表转换流保存并执行完成2.2 创建内容分析表 content_analysis随后新建“创建内容分析表”转换流创建 content_analysis 作为重点平台深度分析的输入表。该表保留 date、author_name、title、platform、likes、favorites、shares、coins、views、url 等基础字段同时预留 total_interaction 和标题关键词识别字段便于实验 7-2 继续构建互动总量和作品特征。图4创建content_analysis表的SQL脚本配置图5创建内容分析表转换流保存并执行完成2.3 导入原始 CSV 数据在文件库中确认已经导入“自媒体作品数据明细.csv”。该文件作为后续“CSV 文件输入”组件的数据源包含各平台作品的作者、标题、互动数据和作品链接等信息。图6文件库中已导入自媒体作品数据明细.csv配置 CSV 文件输入组件时选择该 CSV 文件分隔符使用逗号封闭符使用双引号并启用包含列头行。这样可以把 CSV 字段按原始列名解析为转换流中的结构化字段。图7 CSV文件输入组件读取自媒体作品数据明细.csv2.4 全平台概况聚合分支全平台概况分支从 CSV 输入后直接进入排序和分组聚合。排序记录组件按日期和平台整理数据分组组件按 crawl_date 与 platform 统计 content_count并对 views、likes、favorites、shares、coins、recommend、likes_zhihu、approvals 等数值字段求和。该分支不剔除微信、知乎、小红书等平台因为仪表盘概况需要反映全班作品覆盖范围。图8全平台聚合统计组件按日期和平台生成汇总字段图9全平台概况表输出配置目标表为summary_all_platforms2.5 过滤 B站和 CSDN 有效记录明细分析分支先使用“过滤记录”组件筛选有效数据。过滤条件设置为(platform B站 AND view_count 0) OR (platform CSDN AND view_count 0)。这样可以保留 B站和 CSDN 中确实产生浏览的作品删除微信、知乎、小红书等浏览数据大量缺失的平台以及两个重点平台中浏览量为 0 的无效记录。图10过滤记录组件配置B站/ CSDN且浏览量大于0的有效记录过滤组件的不匹配分支连接到空操作节点表示这部分记录不参与 content_analysis 输出但并不影响全平台概况分支的作品数量统计。图11不满足过滤条件的数据进入空操作分支2.6 填充缺失值由于作者名称和作品标题在原始采集数据中可能存在空值后续展示和特征构建会受到影响因此在过滤后使用“替换 NULL 值”组件统一填充为“未知”。数值字段没有作为本步骤重点替换对象避免改变真实互动数。图12替换NULL值组件将缺失文本统一填充为“未知”2.7 字段选择与字段改名字段选择组件用于保留后续分析需要的字段并完成英文标准字段名整理。截图中可见 crawl_date 被改名为 datelike_count 改名为 likesfavorite_count 改名为 favoritesshare_count 改名为 shares同时保留 author_name、title、platform、coins、views、url 等字段。图13字段选择组件保留分析字段并统一字段命名2.8 输出 content_analysis 表处理后的有效明细数据通过表输出组件写入 content_analysis。配置中数据库连接选择团队私有数据库目标模式选择 se_group_20目标表选择 content_analysis提交记录数量设置为 10000并勾选指定数据库字段确保字段按名称写入减少字段错位风险。图14 content_analysis表输出组件配置图15 content_analysis输出字段映射检查2.9 执行转换流并检查结果保存并运行“原始数据处理”转换流后日志显示 Pipeline 启动、CSV 文件输入、过滤、替换 NULL、字段选择、分组统计和两个表输出节点均完成处理说明本次清洗流程能够正常执行。图16转换流运行日志显示各组件处理完成进入元数据页面查询 summary_all_platforms可以看到结果按 crawl_date 和 platform 展示。截图中的 B站、CSDN、微信、知乎、小红书等平台均被保留作品数量和总浏览、总点赞、总收藏、总分享等指标已经完成聚合。图17 summary_all_platforms查询结果验证全平台概况表输出成功继续查询 content_analysis可以看到该表保留的是 B站和 CSDN 的有效内容明细包含 date、author_name、title、platform、likes、favorites、shares、coins、views、url 以及预留特征字段。该表将作为下一实验进行互动率与标题关键词特征构建的输入。图18 content_analysis查询结果验证重点平台明细表输出成功三、实验结果3.1 数据表产出输出表数据粒度主要用途本次验证结果summary_all_platforms日期 平台支撑仪表盘顶部全平台概况指标卡查询结果包含 B站、CSDN、微信、知乎、小红书等平台汇总数据content_analysis单条有效作品作为实验 7-2 的作品特征构建输入查询结果包含 B站和 CSDN 有效作品明细及预留特征字段3.2 结果分析从 summary_all_platforms 的查询结果看B站与 CSDN 贡献了主要浏览量其中 CSDN 的总浏览数明显高于其他平台微信、知乎、小红书等平台虽然浏览数据大量为 0但仍在概况表中保留作品数量保证全平台覆盖情况不会被过滤逻辑误删。从 content_analysis 的查询结果看输出表已经聚焦于 B站和 CSDN 的有效作品并保留作者、标题、平台、互动数、浏览数和链接等关键字段。该结果符合实验要求既完成了数据清洗又为后续互动率计算、标题关键词识别和可视化探索准备了可用数据。四、实验总结本实验使用助睿 ETL 完成了从 CSV 文件输入到数据库表输出的完整数据预处理流程。通过分支处理解决了“全平台概况统计”和“重点平台深度分析”对数据范围要求不同的问题。过滤记录组件使用 AND/OR 组合条件同时完成平台筛选和有效浏览记录筛选。替换 NULL 值组件对作者和标题缺失值进行统一处理降低后续分析和展示异常风险。字段选择组件将原始字段整理为规范英文命名并剔除分析阶段不需要的字段。最终生成的 summary_all_platforms 和 content_analysis 两张表均已通过元数据查询验证可以支撑后续实验继续加工。
助睿实验作业7-自媒体运营分析数据清洗与预处理
发布时间:2026/7/1 5:09:58
助睿实验作业7-自媒体运营分析数据清洗与预处理#助睿数智#商业数据分析#数据集成#自媒体运营分析一、实验背景1.1 实验目的本实验围绕全班同学在多平台发布的自媒体作品互动数据展开目标是使用助睿 ETL 完成数据清洗与预处理形成能够支撑后续特征工程和可视化分析的基础数据表。原始数据同时包含 B站、CSDN、微信、知乎、小红书等平台但不同平台的数据完整性和互动指标口径存在差异因此需要先完成筛选、填充、聚合和字段整理。通过本实验我需要掌握助睿数据集成平台中 CSV 数据接入、目标表创建、分支处理、多条件过滤、缺失值填充、字段选择、分组聚合和表输出等关键操作并理解为什么数据清洗是后续分析可信性的基础。1.2 实验环境与数据来源项目内容实验平台助睿在线实验平台 / 助睿数智 Uniplore数据处理工具助睿 ETL 数据集成平台数据库连接团队私有数据库目标模式 se_group_20原始数据自媒体作品数据明细.csv覆盖 2026-06-08 至 2026-06-15 前后采集到的作品互动数据核心输出summary_all_platforms 全平台概况表content_analysis 内容分析表1.3 实验流程总览实验采用分支处理思路同一份 CSV 数据进入转换流后一条分支不做平台过滤按日期和平台进行全平台概况聚合另一条分支只保留 B站和 CSDN 中浏览量大于 0 的有效作品并进行缺失值处理、字段选择和表输出。这样既保留了仪表盘顶部概况所需的全平台作品数量又为后续深度分析准备了更干净的明细数据。图1原始数据处理转换流运行完成日志显示CSV输入、分组统计和表输出均已执行二、实验详细步骤2.1 创建全平台概况表 summary_all_platforms首先新建“创建全平台概况表”转换流使用“执行一个 SQL 脚本”组件创建 summary_all_platforms。该表以采集日期和平台为统计粒度保存作品数量、总浏览数、总点赞数、总收藏数、总分享数以及 B站投币、微信推荐、知乎喜欢和赞同等平台特色指标。图2创建summary_all_platforms表的SQL脚本配置图3创建全平台概况表转换流保存并执行完成2.2 创建内容分析表 content_analysis随后新建“创建内容分析表”转换流创建 content_analysis 作为重点平台深度分析的输入表。该表保留 date、author_name、title、platform、likes、favorites、shares、coins、views、url 等基础字段同时预留 total_interaction 和标题关键词识别字段便于实验 7-2 继续构建互动总量和作品特征。图4创建content_analysis表的SQL脚本配置图5创建内容分析表转换流保存并执行完成2.3 导入原始 CSV 数据在文件库中确认已经导入“自媒体作品数据明细.csv”。该文件作为后续“CSV 文件输入”组件的数据源包含各平台作品的作者、标题、互动数据和作品链接等信息。图6文件库中已导入自媒体作品数据明细.csv配置 CSV 文件输入组件时选择该 CSV 文件分隔符使用逗号封闭符使用双引号并启用包含列头行。这样可以把 CSV 字段按原始列名解析为转换流中的结构化字段。图7 CSV文件输入组件读取自媒体作品数据明细.csv2.4 全平台概况聚合分支全平台概况分支从 CSV 输入后直接进入排序和分组聚合。排序记录组件按日期和平台整理数据分组组件按 crawl_date 与 platform 统计 content_count并对 views、likes、favorites、shares、coins、recommend、likes_zhihu、approvals 等数值字段求和。该分支不剔除微信、知乎、小红书等平台因为仪表盘概况需要反映全班作品覆盖范围。图8全平台聚合统计组件按日期和平台生成汇总字段图9全平台概况表输出配置目标表为summary_all_platforms2.5 过滤 B站和 CSDN 有效记录明细分析分支先使用“过滤记录”组件筛选有效数据。过滤条件设置为(platform B站 AND view_count 0) OR (platform CSDN AND view_count 0)。这样可以保留 B站和 CSDN 中确实产生浏览的作品删除微信、知乎、小红书等浏览数据大量缺失的平台以及两个重点平台中浏览量为 0 的无效记录。图10过滤记录组件配置B站/ CSDN且浏览量大于0的有效记录过滤组件的不匹配分支连接到空操作节点表示这部分记录不参与 content_analysis 输出但并不影响全平台概况分支的作品数量统计。图11不满足过滤条件的数据进入空操作分支2.6 填充缺失值由于作者名称和作品标题在原始采集数据中可能存在空值后续展示和特征构建会受到影响因此在过滤后使用“替换 NULL 值”组件统一填充为“未知”。数值字段没有作为本步骤重点替换对象避免改变真实互动数。图12替换NULL值组件将缺失文本统一填充为“未知”2.7 字段选择与字段改名字段选择组件用于保留后续分析需要的字段并完成英文标准字段名整理。截图中可见 crawl_date 被改名为 datelike_count 改名为 likesfavorite_count 改名为 favoritesshare_count 改名为 shares同时保留 author_name、title、platform、coins、views、url 等字段。图13字段选择组件保留分析字段并统一字段命名2.8 输出 content_analysis 表处理后的有效明细数据通过表输出组件写入 content_analysis。配置中数据库连接选择团队私有数据库目标模式选择 se_group_20目标表选择 content_analysis提交记录数量设置为 10000并勾选指定数据库字段确保字段按名称写入减少字段错位风险。图14 content_analysis表输出组件配置图15 content_analysis输出字段映射检查2.9 执行转换流并检查结果保存并运行“原始数据处理”转换流后日志显示 Pipeline 启动、CSV 文件输入、过滤、替换 NULL、字段选择、分组统计和两个表输出节点均完成处理说明本次清洗流程能够正常执行。图16转换流运行日志显示各组件处理完成进入元数据页面查询 summary_all_platforms可以看到结果按 crawl_date 和 platform 展示。截图中的 B站、CSDN、微信、知乎、小红书等平台均被保留作品数量和总浏览、总点赞、总收藏、总分享等指标已经完成聚合。图17 summary_all_platforms查询结果验证全平台概况表输出成功继续查询 content_analysis可以看到该表保留的是 B站和 CSDN 的有效内容明细包含 date、author_name、title、platform、likes、favorites、shares、coins、views、url 以及预留特征字段。该表将作为下一实验进行互动率与标题关键词特征构建的输入。图18 content_analysis查询结果验证重点平台明细表输出成功三、实验结果3.1 数据表产出输出表数据粒度主要用途本次验证结果summary_all_platforms日期 平台支撑仪表盘顶部全平台概况指标卡查询结果包含 B站、CSDN、微信、知乎、小红书等平台汇总数据content_analysis单条有效作品作为实验 7-2 的作品特征构建输入查询结果包含 B站和 CSDN 有效作品明细及预留特征字段3.2 结果分析从 summary_all_platforms 的查询结果看B站与 CSDN 贡献了主要浏览量其中 CSDN 的总浏览数明显高于其他平台微信、知乎、小红书等平台虽然浏览数据大量为 0但仍在概况表中保留作品数量保证全平台覆盖情况不会被过滤逻辑误删。从 content_analysis 的查询结果看输出表已经聚焦于 B站和 CSDN 的有效作品并保留作者、标题、平台、互动数、浏览数和链接等关键字段。该结果符合实验要求既完成了数据清洗又为后续互动率计算、标题关键词识别和可视化探索准备了可用数据。四、实验总结本实验使用助睿 ETL 完成了从 CSV 文件输入到数据库表输出的完整数据预处理流程。通过分支处理解决了“全平台概况统计”和“重点平台深度分析”对数据范围要求不同的问题。过滤记录组件使用 AND/OR 组合条件同时完成平台筛选和有效浏览记录筛选。替换 NULL 值组件对作者和标题缺失值进行统一处理降低后续分析和展示异常风险。字段选择组件将原始字段整理为规范英文命名并剔除分析阶段不需要的字段。最终生成的 summary_all_platforms 和 content_analysis 两张表均已通过元数据查询验证可以支撑后续实验继续加工。