关于腾讯广告算法大赛2025项目分析3-重读

发布时间：2026/5/15 21:56:27

一、初始化1.1 数据处理MyDataset类实例化 _init_DataLoaderbatch 化和并行加载train_loader DataLoaderdataset, batch_sizeargs.batch_size,shuffleTrue, num_workers12,collate_fndataset.collate_fn对MyDataset类的函数调用顺序len→\rightarrow→getitem ( load_user_data→\rightarrow→random_neq→\rightarrow→get_time_diff_bin)→\rightarrow→collate_fn数据集self.self.data_dir 文件夹路径self.data_file_path文件seq.jsonl路径self.seq_offsets 文件seq.jsonl每一行的起始文件指针位置偏移self.maxlen 最大序列长度self.mm_emb_ids 多模态特征ID汇总self.itemnum用户数self.usernum物品数字典self.item_feat_dict物品静态特征self.mm_emb_dict多模态嵌入embeddingself.indexer索引映射用户id,物品id,特征值映射self.indexer_i_rev反查字典self.indexer_u_rev特征 feat_default_value:特征缺省值feat_types特征总字典feat_statistics特征不同类型数量一条数据格式[seq序列ID,pos正样本ID(下一个真实访问的item),neg,token_type 序列类型用户/物品,next_token_type,seq_feat序列特征,pos_feat正样本特征,neg_feat]batch[seq, pos, neg, token_type, next_token_type, next_action_type, seq_feat, pos_feat, neg_feat, time_feat]seq[seq1,seq2,…,seqnseq_1,seq_2,…,seq_nseq1,seq2,…,seqn]由n个用户组成time_feat[weekday,is_weekend,hour_feat,day_of_year,week_of_year,time_deltas,action_type]seq,pos,neg_feat全部处理成[batch,maxseqlen] 的二维或者三维 tensor1.2 模型BaselineModel类1.2.1 初始化全局配置self.user_numself.item_numself.devself.norm_firstself.maxlenID Embeddingself.item_emb,self.user_emb位置编码self.pos_embHSTU 主干-Transformer(变式)self.emb_dropoutself.emb_layernorm特征embedding容器self.sparse_emb离散特征self.emb_transform连续特征主干网络容器self.attention_layersself.attention_layernormsself.forward_layersself.forward_layernorms按特征类型分组产生不同的字典方便声明稀疏特征的Embedding Tableself.USER_SPARSE_FEAT/USER_CONTINUAL_FEAT/ITEM_SPARSE_FEAT/ITEM_CONTINUAL_FEAT/USER_ARRAY_FEAT/ITEM_ARRAY_FEAT/ITEM_EMB_FEATuser/item特征拼接 - DNN投影层序列建模主干多层 HSTU FFNmain中初始化赋值8. 初始化所有参数- user_embitem_emb全零化处理- 其他xavier_normal9. 所有emb权重 padding 位置第0行清零1.3 优化器AdamW1.4 权重衰减args.l2_emb1.5 学习率策略warmup cosine decay2 训练model.train将模式设置为训练模式从 dataloader 依次取不同的batch2.2 model.forward2.3 计算损失infonce_loss2.4 记录日志2.5 反向传播2.6 更新参数3 细节处理torch.nn.Embedding升维从 ID 变成向量矩阵形状(B,L)→(B,L,D)(B, L) \rightarrow (B, L, D)(B,L)→(B,L,D)Dropout随机丢弃部分元素变 0其余放大1/(1-p)RMSNorm均方根归一化对输入特征进行缩放ModuleDict层字典容器按Key灵活调用不同的模块→\rightarrow→选择ModuleList层列表容器像 Python 列表一样存储子模块但会向 PyTorch 注册参数→\rightarrow→顺序执行Linear:

扔掉KVM切换器！GitHub 25.7K Star的Deskflow：用一套键鼠无缝控制多台电脑的软件KVM方案

两台电脑两套键鼠，桌面杂乱、切换繁琐，硬件KVM切换器又贵得离谱？Deskflow 是一款开源跨平台的软件KVM方案，它允许用一套键鼠无缝穿梭于不同设备之间，让一台电脑的鼠标光标直接“穿越”到另一台电脑的屏幕上。本文将从技…

2026/5/15 21:55:46 阅读更多

网络通信调试难题的Qt解决方案：mNetAssist深度解析

网络通信调试难题的Qt解决方案：mNetAssist深度解析【免费下载链接】mNetAssist mNetAssist - A UDP/TCP Assistant 项目地址: https://gitcode.com/gh_mirrors/mn/mNetAssist 网络协议调试过程中，开发者常面临协议兼容性、数据传输验证和连接状态…

2026/5/15 21:55:26 阅读更多

LineageOS 18.1在一加9 Pro上的体验报告：纯净安卓11的续航、性能与Magisk模块搭配

一加9 Pro刷入LineageOS 18.1深度体验：纯净Android 11的终极玩法当厂商定制系统越来越臃肿时，许多极客用户开始寻找更纯净的安卓体验。LineageOS作为CyanogenMod的精神继承者，一直是刷机爱好者的首选。本文将带您深入体验一加9 Pro刷入Linea…

2026/5/15 21:55:26 阅读更多

Windows开发环境设置脚本性能优化：10个加速软件包安装与系统配置的技巧

Windows开发环境设置脚本性能优化：10个加速软件包安装与系统配置的技巧【免费下载链接】windows-dev-box-setup-scripts Scripts to simplify setting up a Windows developer box 项目地址: https://gitcode.com/gh_mirrors/wi/windows-dev-box-setup-scripts …

2026/5/15 22:43:23 阅读更多

5分钟重塑游戏性能管理：DLSS Swapper带来的工作流革命

5分钟重塑游戏性能管理：DLSS Swapper带来的工作流革命【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 痛点洞察：当DLSS管理成为游戏玩家的技术负担作为一名现代PC游戏玩家，你是否曾…

2026/5/15 22:42:22 阅读更多

LetsFG：基于Function与Group的去中心化协作平台设计与实战

1. 项目概述：一个面向未来的开源协作平台最近在开源社区里，一个名为“LetsFG/LetsFG”的项目引起了我的注意。乍一看这个标题，可能会觉得有些抽象，但当你深入其代码仓库和设计理念后，会发现它指向了一个非常具体且极具…

2026/5/15 22:40:20 阅读更多

Synabun：Node.js 高可靠 HTTP 请求策略引擎详解

1. 项目概述：一个被低估的HTTP请求库如果你经常在Node.js环境下处理HTTP请求，大概率用过axios、node-fetch或者原生的http模块。这些工具各有优劣，但当你需要处理复杂的重试逻辑、精细的速率限制、或者想在一个统一的接口下管理多种请求策略时…

2026/5/15 22:40:20 阅读更多

面向对象与多源遥感协同：eCognition-ENVI在雄安新区土地利用动态监测中的实践

1. 面向对象与多源遥感协同的技术背景在快速城市化的今天，土地利用动态监测变得越来越重要。传统的像素级分类方法虽然简单直接，但在处理高分辨率遥感影像时，往往会遇到"椒盐效应"——就像用细小的马赛克拼图，每个像素…

2026/5/15 22:38:17 阅读更多

嵌入式Linux驱动DLP投影：硬件接口、软件栈与实战应用

1. 项目概述：当DLP投影遇上嵌入式Linux如果你正在寻找一个既能玩转嵌入式Linux，又能探索前沿投影显示技术的项目，那么DLP LightCrafter™ Display 2000评估模块（EVM）绝对是一个让你眼前一亮的平台。它不是一个简单的投…

2026/5/15 22:38:17 阅读更多

【2026】新高考英语大纲词汇表3500个电子版PDF（含正序版、乱序版和默写版）

高中英语大纲词汇表（2026年版）内容说明词汇收录标准严格遵循高中英语教学大纲要求，精选3500个核心词汇，全面覆盖高中阶段英语学习的基础词汇与进阶词汇。版本分类及功能版本类型编排特点主要功能正序版按字母顺序排列系统…

2026/5/15 0:01:17 阅读更多

【最新v2.7.1 版本】零代码无命令！OpenClaw 零基础快速部署保姆级实战教程

OpenClaw（小龙虾）Windows 一键部署保姆级教程 | 10 分钟搭建专属数字员工前言 2026 年开源圈热门 AI 智能体 OpenClaw（昵称小龙虾），GitHub 星标突破 28 万，凭借本地运行零代码操作智能自动执行收获大…

2026/5/15 0:01:17 阅读更多

别再只用HashMap了！用Java BitSet和布隆过滤器处理亿级数据去重，内存省了90%

亿级数据去重的终极武器：Java BitSet与布隆过滤器实战手册当你的JVM内存被一个简单的用户ID去重任务撑爆时，当你的日志分析系统因为HashSet的过度内存消耗而崩溃时，是时候重新审视那些被我们忽视的空间压缩神器了。本文将带你深入两种能够将…

2026/5/15 0:01:38 阅读更多

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构摘要本文基于贾子理论的文明竞争视角，揭示中美AI战略差异的本质并非技术参数较量，而是“暴力计算”与“本质贯通”两种文明范式的根本对立。美国依赖算力堆叠与资本逻辑追求技术霸权…

2026/5/14 23:29:16 阅读更多

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…

2026/5/15 17:36:19 阅读更多

基于飞书与OpenAI构建企业级AI助手：架构、部署与深度优化指南

1. 项目概述：当飞书遇上AI，一个企业级智能助手的诞生最近在折腾一个挺有意思的项目，叫“ConnectAI-E/feishu-openai”。简单来说，它就是一个桥梁，把飞书这个强大的企业协作平台，和以ChatGPT为代表的OpenA…

2026/5/15 0:06:09 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/15 14:41:25 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/15 14:41:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…