助睿实验作业7-自媒体运营分析数据清洗与预处理

发布时间：2026/7/1 5:09:58

助睿实验作业7-自媒体运营分析数据清洗与预处理#助睿数智#商业数据分析#数据集成#自媒体运营分析一、实验背景1.1 实验目的本实验围绕全班同学在多平台发布的自媒体作品互动数据展开目标是使用助睿 ETL 完成数据清洗与预处理形成能够支撑后续特征工程和可视化分析的基础数据表。原始数据同时包含 B站、CSDN、微信、知乎、小红书等平台但不同平台的数据完整性和互动指标口径存在差异因此需要先完成筛选、填充、聚合和字段整理。通过本实验我需要掌握助睿数据集成平台中 CSV 数据接入、目标表创建、分支处理、多条件过滤、缺失值填充、字段选择、分组聚合和表输出等关键操作并理解为什么数据清洗是后续分析可信性的基础。1.2 实验环境与数据来源项目内容实验平台助睿在线实验平台 / 助睿数智 Uniplore数据处理工具助睿 ETL 数据集成平台数据库连接团队私有数据库目标模式 se_group_20原始数据自媒体作品数据明细.csv覆盖 2026-06-08 至 2026-06-15 前后采集到的作品互动数据核心输出summary_all_platforms 全平台概况表content_analysis 内容分析表1.3 实验流程总览实验采用分支处理思路同一份 CSV 数据进入转换流后一条分支不做平台过滤按日期和平台进行全平台概况聚合另一条分支只保留 B站和 CSDN 中浏览量大于 0 的有效作品并进行缺失值处理、字段选择和表输出。这样既保留了仪表盘顶部概况所需的全平台作品数量又为后续深度分析准备了更干净的明细数据。图1原始数据处理转换流运行完成日志显示CSV输入、分组统计和表输出均已执行二、实验详细步骤2.1 创建全平台概况表 summary_all_platforms首先新建“创建全平台概况表”转换流使用“执行一个 SQL 脚本”组件创建 summary_all_platforms。该表以采集日期和平台为统计粒度保存作品数量、总浏览数、总点赞数、总收藏数、总分享数以及 B站投币、微信推荐、知乎喜欢和赞同等平台特色指标。图2创建summary_all_platforms表的SQL脚本配置图3创建全平台概况表转换流保存并执行完成2.2 创建内容分析表 content_analysis随后新建“创建内容分析表”转换流创建 content_analysis 作为重点平台深度分析的输入表。该表保留 date、author_name、title、platform、likes、favorites、shares、coins、views、url 等基础字段同时预留 total_interaction 和标题关键词识别字段便于实验 7-2 继续构建互动总量和作品特征。图4创建content_analysis表的SQL脚本配置图5创建内容分析表转换流保存并执行完成2.3 导入原始 CSV 数据在文件库中确认已经导入“自媒体作品数据明细.csv”。该文件作为后续“CSV 文件输入”组件的数据源包含各平台作品的作者、标题、互动数据和作品链接等信息。图6文件库中已导入自媒体作品数据明细.csv配置 CSV 文件输入组件时选择该 CSV 文件分隔符使用逗号封闭符使用双引号并启用包含列头行。这样可以把 CSV 字段按原始列名解析为转换流中的结构化字段。图7 CSV文件输入组件读取自媒体作品数据明细.csv2.4 全平台概况聚合分支全平台概况分支从 CSV 输入后直接进入排序和分组聚合。排序记录组件按日期和平台整理数据分组组件按 crawl_date 与 platform 统计 content_count并对 views、likes、favorites、shares、coins、recommend、likes_zhihu、approvals 等数值字段求和。该分支不剔除微信、知乎、小红书等平台因为仪表盘概况需要反映全班作品覆盖范围。图8全平台聚合统计组件按日期和平台生成汇总字段图9全平台概况表输出配置目标表为summary_all_platforms2.5 过滤 B站和 CSDN 有效记录明细分析分支先使用“过滤记录”组件筛选有效数据。过滤条件设置为(platform B站 AND view_count 0) OR (platform CSDN AND view_count 0)。这样可以保留 B站和 CSDN 中确实产生浏览的作品删除微信、知乎、小红书等浏览数据大量缺失的平台以及两个重点平台中浏览量为 0 的无效记录。图10过滤记录组件配置B站/ CSDN且浏览量大于0的有效记录过滤组件的不匹配分支连接到空操作节点表示这部分记录不参与 content_analysis 输出但并不影响全平台概况分支的作品数量统计。图11不满足过滤条件的数据进入空操作分支2.6 填充缺失值由于作者名称和作品标题在原始采集数据中可能存在空值后续展示和特征构建会受到影响因此在过滤后使用“替换 NULL 值”组件统一填充为“未知”。数值字段没有作为本步骤重点替换对象避免改变真实互动数。图12替换NULL值组件将缺失文本统一填充为“未知”2.7 字段选择与字段改名字段选择组件用于保留后续分析需要的字段并完成英文标准字段名整理。截图中可见 crawl_date 被改名为 datelike_count 改名为 likesfavorite_count 改名为 favoritesshare_count 改名为 shares同时保留 author_name、title、platform、coins、views、url 等字段。图13字段选择组件保留分析字段并统一字段命名2.8 输出 content_analysis 表处理后的有效明细数据通过表输出组件写入 content_analysis。配置中数据库连接选择团队私有数据库目标模式选择 se_group_20目标表选择 content_analysis提交记录数量设置为 10000并勾选指定数据库字段确保字段按名称写入减少字段错位风险。图14 content_analysis表输出组件配置图15 content_analysis输出字段映射检查2.9 执行转换流并检查结果保存并运行“原始数据处理”转换流后日志显示 Pipeline 启动、CSV 文件输入、过滤、替换 NULL、字段选择、分组统计和两个表输出节点均完成处理说明本次清洗流程能够正常执行。图16转换流运行日志显示各组件处理完成进入元数据页面查询 summary_all_platforms可以看到结果按 crawl_date 和 platform 展示。截图中的 B站、CSDN、微信、知乎、小红书等平台均被保留作品数量和总浏览、总点赞、总收藏、总分享等指标已经完成聚合。图17 summary_all_platforms查询结果验证全平台概况表输出成功继续查询 content_analysis可以看到该表保留的是 B站和 CSDN 的有效内容明细包含 date、author_name、title、platform、likes、favorites、shares、coins、views、url 以及预留特征字段。该表将作为下一实验进行互动率与标题关键词特征构建的输入。图18 content_analysis查询结果验证重点平台明细表输出成功三、实验结果3.1 数据表产出输出表数据粒度主要用途本次验证结果summary_all_platforms日期平台支撑仪表盘顶部全平台概况指标卡查询结果包含 B站、CSDN、微信、知乎、小红书等平台汇总数据content_analysis单条有效作品作为实验 7-2 的作品特征构建输入查询结果包含 B站和 CSDN 有效作品明细及预留特征字段3.2 结果分析从 summary_all_platforms 的查询结果看B站与 CSDN 贡献了主要浏览量其中 CSDN 的总浏览数明显高于其他平台微信、知乎、小红书等平台虽然浏览数据大量为 0但仍在概况表中保留作品数量保证全平台覆盖情况不会被过滤逻辑误删。从 content_analysis 的查询结果看输出表已经聚焦于 B站和 CSDN 的有效作品并保留作者、标题、平台、互动数、浏览数和链接等关键字段。该结果符合实验要求既完成了数据清洗又为后续互动率计算、标题关键词识别和可视化探索准备了可用数据。四、实验总结本实验使用助睿 ETL 完成了从 CSV 文件输入到数据库表输出的完整数据预处理流程。通过分支处理解决了“全平台概况统计”和“重点平台深度分析”对数据范围要求不同的问题。过滤记录组件使用 AND/OR 组合条件同时完成平台筛选和有效浏览记录筛选。替换 NULL 值组件对作者和标题缺失值进行统一处理降低后续分析和展示异常风险。字段选择组件将原始字段整理为规范英文命名并剔除分析阶段不需要的字段。最终生成的 summary_all_platforms 和 content_analysis 两张表均已通过元数据查询验证可以支撑后续实验继续加工。

S32K144实战：手把手教你配置FlexNVM分区，搞定EEPROM模拟（附代码）

S32K144 FlexNVM深度配置指南：从分区原理到EEPROM模拟实战在嵌入式系统开发中，非易失性存储（NVM）是保存关键配置参数、运行日志和校准数据的核心组件。S32K144微控制器独特的FlexNVM架构为开发者提供了灵活的存储配置方案&#xf…

2026/7/1 5:09:58 阅读更多

开源APM SkyWalking 最新版本架构解析与竞品对比-2026年

摘要： Apache SkyWalking 10.4 在 OAP 引擎、批处理队列与 BanyanDB 存储上持续演进；国产新开源 APM工具Databuff 则以 OTLP 三组件栈与 AI 原生多智能体见长。本文基于官方文档与 Demo 现场截图，对两套工具的架构进行对比解析。 2026 年做 …

2026/7/1 5:09:38 阅读更多

保姆级教程：用COLMAP在Windows上从照片重建3D模型（含CUDA加速配置）

从零开始：Windows平台COLMAP 3D重建全流程实战指南开篇：为什么选择COLMAP进行3D重建？ 当你手头有一组普通相机拍摄的照片，是否想过将它们转化为可交互的3D模型？这正是摄影测量技术的魅力所在。在众多开源工具中&…

2026/7/1 5:09:38 阅读更多

智能会议管理系统EasyDSS直播+点播+会议三合一，培训不用买三套系统，运维成本大压缩

培训预算年年涨，学完效果看不见。总部讲师飞来飞去，分公司员工"签个到就走"——企业培训圈最大的笑话是：钱花了、人来了、课白讲了。EasyDSS给出的答案不是"做更好的培训内容"，而是让培训这件事本身的生产、分…

2026/7/1 6:38:26 阅读更多

AndroidSDK：Docker 里的 Android 开发环境

文章目录AndroidSDK：Docker 里的 Android 开发环境1、解决什么问题2、怎么用3、SSH 和 VNC4、模拟器支持5、NFS 共享 SDK6、Gradle 镜像加速7、Firebase Test Lab8、内存管理AndroidSDK：Docker 里的 Android 开发环境 AndroidSDK 在 GitHub 上有 1,383 …

2026/7/1 6:38:26 阅读更多

保姆级教程：用NOAA官网免费下载中国气象站点CSV列表（附筛选技巧）

零基础实战：从NOAA官网高效获取中国气象站点数据的完整指南第一次接触气象数据处理时，我站在NOAA官网前手足无措——密密麻麻的英文界面、复杂的筛选条件、令人困惑的数据集分类。经过三个月的实战摸索和无数次踩坑，终于总结出这套适合中文…

2026/7/1 6:38:06 阅读更多

从YOLO到3D点云目标检测：原理、环境搭建与实战复现

最近在指导几位同学的毕业设计和科研项目时，发现“YOLO3D点云”这个组合方向的热度持续攀升，无论是顶会论文还是企业级应用，都频繁出现它的身影。很多同学对这个方向既感兴趣又感到无从下手，概念多、代码杂、环境配置复杂&#xf…

2026/7/1 6:37:46 阅读更多

VisualCppRedist AIO：Windows运行库终极解决方案完整指南

VisualCppRedist AIO：Windows运行库终极解决方案完整指南【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经在安装软件或游戏时遇到"MS…

2026/7/1 6:37:46 阅读更多

MySQL索引下推(ICP)原理与实战：优化联合索引范围查询性能

面试官问“说说MySQL索引下推”，这可能是MySQL面试中最容易让候选人“翻车”的问题之一。很多人能背出“ICP是Index Condition Pushdown”这个全称，也能说出“把WHERE条件从Server层下推到存储引擎层”这个定义，但一旦被追问“为什么需要下推…

2026/7/1 6:36:25 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/1 0:00:19 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/1 0:02:40 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/1 0:02:40 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/1 0:09:07 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/1 1:47:03 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/1 1:47:03 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

2026/7/1 0:00:19 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

2026/7/1 0:02:40 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

2026/7/1 0:02:40 阅读更多

相关文章

S32K144实战：手把手教你配置FlexNVM分区，搞定EEPROM模拟（附代码）

开源APM SkyWalking 最新版本架构解析与竞品对比-2026年

保姆级教程：用COLMAP在Windows上从照片重建3D模型（含CUDA加速配置）

智能会议管理系统EasyDSS直播+点播+会议三合一，培训不用买三套系统，运维成本大压缩

AndroidSDK：Docker 里的 Android 开发环境

保姆级教程：用NOAA官网免费下载中国气象站点CSV列表（附筛选技巧）

从YOLO到3D点云目标检测：原理、环境搭建与实战复现

VisualCppRedist AIO：Windows运行库终极解决方案完整指南

MySQL索引下推(ICP)原理与实战：优化联合索引范围查询性能

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南