中文分词笔记2026

发布时间：2026/6/2 21:29:57

目录结巴分词使用例子数字人断句Genius结巴分词速度特别快基本不占用时间pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple使用例子import jieba import time text 我来到了北京清华大学 # 精确模式分词并统计时间 start_time time.time() seg_list jieba.cut(text, cut_allFalse) end_time time.time() # 将生成器转换为列表以便查看结果 result list(seg_list) elapsed_time (end_time - start_time) * 1000 # 转换为毫秒 print(f分词结果: {/ .join(result)}) print(f执行时间: {elapsed_time:.4f} 毫秒)数字人断句def merge_tokens(tokens, min_len4, tail_min_len3): 合并 tokens以括号闭合作为优先断句点 result [] current bracket_stack [] # 用栈记录括号位置 for token in tokens: current token # 记录括号 for ch in token: if ch in ([{: bracket_stack.append(ch) elif ch in )]}: if bracket_stack: bracket_stack.pop() # 判断截取条件 should_cut False # 优先括号栈为空且刚遇到右括号即括号已完全闭合 if not bracket_stack and any(ch in current for ch in )]}): should_cut True # 其次达到最小长度 elif len(current) min_len: should_cut True if should_cut: result.append(current) current # 处理尾巴 if current: if result and len(current) tail_min_len: result[-1] current else: result.append(current) return resultGeniusGenius是一个开源的python中文分词组件采用 CRF(Conditional Random Field)条件随机场算法。https://github.com/duanhongyi/genius序列标签https://github.com/guillaumegenthial/sequence_taggingBidirectional LSTM-CRF for Sequence Labeling. Easy-to-use and state-of-the-art performance.https://github.com/Hironsan/anagoLSTM-CRF models for sequence labeling in text.https://github.com/abhyudaynj/LSTM-CRF-modelshttps://github.com/LiyuanLucasLiu/LM-LSTM-CRF

socat-windows：Windows环境下的全能网络数据中继解决方案

socat-windows：Windows环境下的全能网络数据中继解决方案【免费下载链接】socat-windows unofficial windows build of socat http://www.dest-unreach.org/socat/ 项目地址: https://gitcode.com/gh_mirrors/so/socat-windows 在Windows环境中进行网络调试…

2026/6/2 10:21:44 阅读更多

用Stable Diffusion的‘想象力’补全3D点云？PCDreamer保姆级原理解读与复现避坑

PCDreamer：当Stable Diffusion的想象力遇见3D点云补全想象一下，你手中有一个残缺的3D扫描模型——可能是考古发掘的文物碎片，或是自动驾驶汽车传感器捕捉的不完整场景。传统方法试图直接在3D空间中"猜测"缺失部分，效果…

2026/6/2 1:14:06 阅读更多

复古玩法：OpenClaw+Qwen3.5-9B模拟操作Windows 98怀旧游戏

复古玩法：OpenClawQwen3.5-9B模拟操作Windows 98怀旧游戏 1. 为什么选择Windows 98游戏作为测试场景最近在整理旧硬盘时，偶然发现了一批Windows 98时代的经典游戏安装包。这些20年前的老游戏不仅界面风格复古，操作方式也与现代软件大相径庭…

2026/5/31 17:11:22 阅读更多

泰戈尔的诗歌摘录

还是昨天说的那本书，里面引用了泰戈尔的一首诗，摘录如下。我只身来到神的面前。可是，那里已经站着另一个我。那个黑暗中的我，究竟是谁呢？为了避开他，我躲进岔道，但是，我无法摆脱他。…

2026/6/2 21:29:41 阅读更多

YOLO玩家必看：用Gold-YOLO-Nano在边缘设备上实现实时检测的完整部署指南（基于ONNX/TensorRT）

YOLO玩家必看：用Gold-YOLO-Nano在边缘设备上实现实时检测的完整部署指南（基于ONNX/TensorRT）当目标检测遇上边缘计算，如何在资源受限的设备上实现实时推理成为工程师们的核心挑战。Gold-YOLO-Nano凭借其创新的聚合-分发机制&#…

2026/6/2 21:28:57 阅读更多

别再死记硬背了！用Librosa和Python实战，5分钟搞懂梅尔频谱（Mel Spectrogram）到底是个啥

用Python和Librosa解锁梅尔频谱：从听觉原理到代码实战当你第一次看到"梅尔频谱"这个词时，是不是感觉像在听天书？那些密密麻麻的彩色条纹图到底在告诉我们什么？为什么语音识别、音乐分类都离不开它？今天我们不…

2026/6/2 21:28:57 阅读更多

3步搞定NCM音乐格式转换：ncmppGui极速解密工具完整指南

3步搞定NCM音乐格式转换：ncmppGui极速解密工具完整指南【免费下载链接】ncmppGui 一个使用C编写的极速ncm转换GUI工具项目地址: https://gitcode.com/gh_mirrors/nc/ncmppGui 你是否曾在网易云音乐下载了心爱的歌曲，却发现在其他播放器无法播放…

2026/6/2 21:27:50 阅读更多

如何在Windows、macOS和Linux上搭建专业的多源音乐播放器？

如何在Windows、macOS和Linux上搭建专业的多源音乐播放器？ 【免费下载链接】lx-music-desktop 一个基于 Electron 的音乐软件项目地址: https://gitcode.com/GitHub_Trending/lx/lx-music-desktop LX Music桌面版是一款基于Electron和Vue3开发的开源音乐播放…

2026/6/2 21:27:50 阅读更多

终极指南：OpenCore Legacy Patcher - 让老旧Mac焕发新生的完整解决方案

终极指南：OpenCore Legacy Patcher - 让老旧Mac焕发新生的完整解决方案【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher OpenCore Legacy Patcher&…

2026/6/2 21:27:29 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章