[智能体-284]：极简 Skip-Gram + 负采样静态词向量训练 Demo（纯 Numpy，无第三方深度学习框架）

发布时间：2026/6/6 9:27:45

功能从原始短句→构建词表→随机初始化词向量表→逐样本迭代更新向量最关键的步骤→收敛得到静态词向量贴合前面通俗原理每次出错微调词向量表数值训练结束向量固定。python运行import numpy as np # 1. 原始语料预处理 # 实际的语料比这个多很多 corpus [ 苹果很甜香蕉好吃, 苹果水果香蕉水果, 汽车行驶轮胎车子, 香蕉果肉苹果果皮 ] # 分词、合并所有词语 all_words [] for sent in corpus: all_words.extend(sent.split()) # 构建词表 word-id字典单词索引号 vocab list(set(all_words)) word2id {w:i2 for i,w in enumerate(vocab)} # 补充特殊符号 word2id[[PAD]] 0 word2id[[UNK]] 1 # 向量矩阵 id2word {v:k for k,v in word2id.items()} # 训练参数 V len(word2id) # 词汇总数 emb_dim 3 # 词向量维度3方便查看 window 2 # 上下文窗口大小 neg_num 2 # 负采样数量1正2负 lr 0.02 # 学习率 epoch_total 80 # 总迭代轮数 # 初始化词向量表 V×emb_dim 随机小数训练前杂乱无意义 np.random.seed(1) emb_table np.random.uniform(-0.5,0.5,(V,emb_dim)) emb_table[0] np.zeros(emb_dim) # PAD固定全0 # 2. 生成SkipGram训练样本 def build_samples(word_list): samples [] n len(word_list) for cen_idx in range(n): center_w word_list[cen_idx] # 截取左右窗口上下文 start max(0,cen_idx-window) end min(n,cen_idxwindow1) for con_idx in range(start,end): if con_idx cen_idx: continue context_w word_list[con_idx] samples.append((center_w, context_w)) return samples all_sent_words [s.split() for s in corpus] train_samples [] for words in all_sent_words: train_samples build_samples(words) # 3. 负采样辅助函数 def get_neg_sample(pos_word_id): neg_ids [] while len(neg_ids)neg_num: rand_id np.random.randint(2,V) if rand_id ! pos_word_id: neg_ids.append(rand_id) return neg_ids # sigmoid激活 def sigmoid(x): return 1/(1np.exp(-x)) # 4. 迭代训练动态更新词向量表 for epoch in range(epoch_total): loss_sum 0.0 for cen_w, con_w in train_samples: cen_id word2id[cen_w] con_id word2id[con_w] # 取出中心词向量 cen_vec emb_table[cen_id].copy() # --------正样本更新目标预测接近1-------- score np.dot(cen_vec, emb_table[con_id]) pred sigmoid(score) grad pred - 1.0 # 反向更新上下文、中心词向量 emb_table[con_id] - lr * grad * cen_vec emb_table[cen_id] - lr * grad * emb_table[con_id] loss_sum -np.log(pred1e-8) # --------负样本更新目标预测接近0-------- neg_ids get_neg_sample(con_id) for nid in neg_ids: n_vec emb_table[nid] score_n np.dot(cen_vec, n_vec) pred_n sigmoid(score_n) grad_n pred_n emb_table[nid] - lr * grad_n * cen_vec emb_table[cen_id] - lr * grad_n * n_vec loss_sum -np.log(1-pred_n1e-8) # 每10轮打印损失 if epoch%10 0: print(fEpoch:{epoch:2d} | 平均损失:{loss_sum/len(train_samples):.4f}) # 5. 训练结束词向量固化静态词向量 print(\n训练完成最终静态词向量表) for wid in range(V): print(f{id2word[wid]:5} | {np.round(emb_table[wid],4)}) # 验证相似度水果类/交通工具向量距离 def cos_sim(v1,v2): return np.dot(v1,v2)/(np.linalg.norm(v1)*np.linalg.norm(v2)) print(\n相似度验证) print(苹果 vs 香蕉,round(cos_sim(emb_table[word2id[苹果]],emb_table[word2id[香蕉]]),3)) print(苹果 vs 汽车,round(cos_sim(emb_table[word2id[苹果]],emb_table[word2id[汽车]]),3))代码关键对应知识点初始化emb_table就是词向量表初始随机乱数一轮 Epoch遍历全部train_samples所有 (中心词 - 上下文)单步更新正例拉近向量、负例拉开向量直接原地修改 emb_table 数值训练结束不再更新emb_table固定静态词向量表收敛表现loss 持续缓慢下降后期变化极小向量相对位置稳定。运行规律训练前苹果、香蕉、汽车向量随机相似度无规律训练后苹果↔香蕉相似度很高苹果↔汽车相似度极低符合语义。拓展工业真实使用真实项目不用手写 numpy用gensim.Word2Vec一行训练python运行from gensim.models import Word2Vec sent_list [s.split() for s in corpus] model Word2Vec(sentencessent_list,sg1,window2,vector_size3,negative2,epochs80,min_count1) # 取出静态词向量表 wv model.wv print(wv[苹果])

STM32项目避坑指南：IWDG喂狗不当引发的那些“灵异”复位，你中招了吗？

STM32项目避坑指南：IWDG喂狗不当引发的那些“灵异”复位，你中招了吗？第一次遇到这个问题时，我盯着示波器上那个完美的正弦波百思不得其解——所有外设工作正常，电源纹波小于50mV，可设备就是会在运行2-3小时…

2026/6/6 9:27:05 阅读更多

干部管理还在凭感觉？AI大模型+组工系统，能力分析、岗位匹配、考察报告全自动

数字化转型喊了好几年，很多单位的干部管理方式还是老样子： 翻档案、对表格、凭经验、拍脑袋。分析一个人，全靠人工看材料；岗位缺人了，到处问“谁合适”；考察报告写到手软，还怕漏了关键信息。说…

2026/6/6 9:27:05 阅读更多

2026年靖江大平层全屋高端定制企业选型指南

开篇引言在靖江，全屋定制需求占比高达72%，其中高端定制需求占比45%。越来越多家庭选择全屋定制来提升居住品质，但新手家庭在选择过程中容易踩坑。本文旨在帮助靖江的新手家庭规避全屋定制（含高端定制）常见坑点&#xf…

2026/6/6 9:26:04 阅读更多

AI搜索正在“隐形”你的网站：SEO从业者必须面对的残酷真相

上周我做了一个测试：在ChatGPT里搜索“2026年最好的AI聚合平台有哪些”。AI给出的回答引用了5个来源——其中4个是近三个月发布的技术评测文章，1个是某个平台的产品文档。而我运营了两年的那个SEO优化到首页的网站，完全没有出现在引用列表里。…

2026/6/6 10:41:07 阅读更多

终极指南：如何在iOS 26.4-26.5上安全解锁iPhone隐藏功能

终极指南：如何在iOS 26.4-26.5上安全解锁iPhone隐藏功能【免费下载链接】Jailbreak iOS 26.4 - 26, 17 - 17.7.5 & iOS 18 - 18.7.3 Jailbreak Tools, Cydia/Sileo/Zebra Tweaks & Jailbreak News Updates || AI Jailbreak Finder 👇 项目地址…

2026/6/6 10:40:06 阅读更多

Java 两种创建线程方式：继承 Thread 类 VS 实现 Runnable 接口全面对比

在 Java 多线程入门学习中，继承 Thread 子类与实现 Runnable 接口配合 Thread是最基础的两种线程创建方案，很多初学者刚接触时容易混淆两者使用场景与底层差异。本文从实现原理、代码示例、优缺点、适用场景四个维度拆解区别，帮你彻底理清选型…

2026/6/6 10:39:05 阅读更多

Mythos：首个可工程化漏洞挖掘流水线的AI安全范式

1. 这不是一次普通模型发布：Mythos 的真实分量与行业震感你可能已经刷到过“Anthropic 发布 Claude Mythos”这条新闻，标题里带着“Preview”“Gated Release”这类字眼，很容易被当成又一场科技公司的例行发布会。但如果你真这么想&#xff0…

2026/6/6 10:38:24 阅读更多

真实聊聊：AI 写代码到底能省多少时间？我踩过的坑与用法

文章摘要：AI编程工具使用体验总结：它擅长生成重复性代码模板、分析报错日志缩小排查范围，能提升开发效率；但存在编造不存在的代码、错误解读业务等风险，需开发者严格审查。建议将其定位为"初级助手"&#xf…

2026/6/6 10:38:24 阅读更多

别再只跑默认参数了！深入解读BWA-MEM的‘-k’与‘-T’：如何根据你的Read长度和测序质量定制化比对

解锁BWA-MEM隐藏技能：如何用‘-k’和‘-T’参数精准捕获短读长数据当你的miRNA测序数据比对率始终低于预期时，可能不是样本质量问题，而是参数设置正在悄悄过滤掉那些珍贵的短片段。BWA-MEM作为基因组比对的黄金标准工具，其默认参数…

2026/6/6 10:37:23 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/6 9:33:43 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/6 8:10:10 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/6 9:33:50 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…