novel-downloader规则扩展实战指南：从零构建自定义抓取规则

发布时间：2026/6/9 8:36:54

novel-downloader规则扩展实战指南从零构建自定义抓取规则【免费下载链接】novel-downloader一个可扩展的通用型小说下载器。项目地址: https://gitcode.com/gh_mirrors/no/novel-downloadernovel-downloader是一个高度可扩展的通用型小说下载器其核心扩展机制基于模块化的规则系统。本文将深入解析其规则扩展架构指导开发者如何为新的小说网站构建自定义抓取规则实现从概念理解到实践部署的完整技术流程。一、规则系统架构深度解析novel-downloader采用分层架构设计将核心下载引擎与网站特定规则解耦。核心架构由BaseRuleClass基类定义统一接口各网站规则通过继承或工厂函数实现具体逻辑。1.1 核心基类设计BaseRuleClass作为所有规则的抽象基类定义了统一的生命周期方法export abstract class BaseRuleClass { public abstract bookParse(): PromiseBook; public abstract chapterParse( chapterUrl: string, chapterName: string | null, isVIP: boolean, isPaid: boolean | null, charset: string, options: Recordstring, any ): PromiseChapterParseObject; public async run(): PromiseBook | undefined { // 统一执行流程 } protected async preHook(): Promisevoid { /* 预处理钩子 */ } protected async initChapters(): PromiseChapter[] { /* 章节初始化 */ } protected postHook(): void { /* 后处理钩子 */ } }1.2 规则目录结构项目采用按网站类型分类的目录结构便于维护和扩展src/rules/ ├── onePage/ # 单页式网站规则 │ ├── template.ts # 单页规则模板 │ ├── 69shuba.ts # 实际规则示例 │ └── ... ├── twoPage/ # 双页式网站规则 ├── special/ # 特殊网站规则 │ ├── original/ # 原创网站 │ └── reprint/ # 转载网站 └── lib/ # 通用工具库二、规则开发实战单页式网站模板解析2.1 模板工厂函数模式单页式规则采用工厂函数模式通过mkRuleClass快速创建规则类// src/rules/onePage/template.ts export function mkRuleClass({ bookUrl, bookname, author, introDom, introDomPatch, coverUrl, aList, getContentFromUrl, contentPatch, // ... 其他配置参数 }: MkRuleClassOptions): PublicConstructorBaseRuleClass { return class extends BaseRuleClass { // 具体实现 }; }2.2 实际规则实现示例以69书吧为例展示完整规则实现// src/rules/onePage/69shuba.ts import { htmlTrim } from ../../lib/cleanDOM; import { rm2 } from ../../lib/dom; import { nextPageParse } from ../../lib/rule; import { mkRuleClass } from ./template; export const c69shuba () mkRuleClass({ bookUrl: location.href, bookname: document.querySelector(#info h1)!.innerText.trim(), author: document.querySelector(#info p)!.innerText .trim() .replace(/^作\s*者\s*[:]\s*/u, ), introDom: document.querySelector(#intro)!, introDomPatch: (_) _, coverUrl: document.querySelector(#fmimg img)!.src, aList: document.querySelectorAll(#list dl dt:last-of-type ~ a), async getContentFromUrl(chapterUrl, chapterName, charset) { const { contentRaw } await nextPageParse({ chapterName, chapterUrl, charset, selector: #booktxt, contentPatch(content, doc) { rm2([/本章阅读完毕/], content); htmlTrim(content); return content; }, getNextPage(doc) { const nextPageLink doc.querySelector( div.bottem1 a[relnext] ) as HTMLAnchorElement; if (nextPageLink nextPageLink.innerText.includes(下一页)) { return nextPageLink.href; } return ; }, continueCondition(content, nextLink) { return nextLink ! /_\d.html/.test(nextLink); }, }); return contentRaw; }, contentPatch: (content) content, });三、规则实现关键技术点3.1 章节列表提取策略章节列表提取需要精确分析网站DOM结构使用CSS选择器定位章节链接// 章节选择器示例 aList: document.querySelectorAll(#list dl dt:last-of-type ~ a), // 自定义章节名称提取 getAName: (aElem) { // 处理特殊格式的章节标题 return aElem.innerText.replace(/第\d章\s*/, ).trim(); },3.2 内容提取与清理内容提取需要处理多种复杂情况包括分页加载、广告过滤等// 分页内容提取 async getContentFromUrl(chapterUrl, chapterName, charset) { const { contentRaw } await nextPageParse({ chapterName, chapterUrl, charset, selector: #booktxt, contentPatch(content, doc) { // 移除广告和无关元素 rm2([/本章阅读完毕/, /请收藏本站/, /广告/], content); htmlTrim(content); return content; }, getNextPage(doc) { // 下一页链接提取逻辑 const nextLink doc.querySelector(a.next); return nextLink?.href || ; }, continueCondition(content, nextLink) { // 继续提取下一页的条件 return nextLink ! !nextLink.includes(javascript:); }, }); return contentRaw; }3.3 反爬机制处理对于采用复杂反爬措施的网站需要特殊处理// 字体加密处理示例参考jjwxcFontDecode.ts import { decodeJJWXCFont } from ../../lib/jjwxcFontDecode; const contentPatch (content) { // 检测并解码字体加密内容 const decodedContent decodeJJWXCFont(content); return decodedContent; }; // 图片验证码处理 import { OCRDecoder } from ../../lib/decoders/OCRDecoder; async function handleCaptcha(imageUrl) { const ocr new OCRDecoder(); const captchaText await ocr.decodeImage(imageUrl); return captchaText; }四、特殊网站规则实现4.1 Cloudflare防护网站处理对于采用Cloudflare防护的网站需要特殊的技术方案// src/rules/special/reprint/sbxh.ts // 处理Cloudflare Shadow DOM的复杂场景 export const sbxh () mkRuleClass({ // ... 省略其他配置 getContentFromUrl: async (chapterUrl, _name, _charset) { const result await fetchChapterViaIframe(chapterUrl); if (!result) return null; if (result.captcha) return createCaptchaMessage(); return parseViewerHtml(result.html); }, concurrencyLimit: 1, sleepTime: 1000, });4.2 多页索引网站处理对于章节分布在多个索引页的网站需要实现多页遍历// src/rules/onePageWithMultiIndexPage/template.ts export function mkMultiIndexRuleClass({ // ... 基础配置 getNextIndexPage, // 获取下一页索引页 continueIndexCondition, // 继续遍历索引页的条件 }) { return mkRuleClass({ // ... 基础配置 async bookParse() { const allChapters []; let currentIndexUrl bookUrl; do { const doc await getHtmlDOM(currentIndexUrl, charset); const chapters extractChaptersFromPage(doc); allChapters.push(...chapters); currentIndexUrl getNextIndexPage(doc); } while (continueIndexCondition(currentIndexUrl)); // ... 构建Book对象 }, }); }五、规则测试与验证5.1 本地开发测试开发新规则时建议使用本地开发环境进行测试// 测试脚本示例 import { c69shuba } from ./src/rules/onePage/69shuba; // 模拟环境测试 const rule c69shuba(); const book await rule.bookParse(); console.log(书籍名称: ${book.bookname}); console.log(章节数量: ${book.chapters.length});5.2 集成测试框架项目提供E2E测试框架确保规则质量// test/e2e-validate.ts describe(69shuba规则测试, () { test(应正确提取书籍信息, async () { const rule c69shuba(); const book await rule.bookParse(); expect(book.bookname).toBeTruthy(); expect(book.author).toBeTruthy(); expect(book.chapters.length).toBeGreaterThan(0); }); test(应正确提取章节内容, async () { const rule c69shuba(); const chapter await rule.chapterParse( https://www.69shuba.com/book/123/1.html, 第一章, false, false, utf-8, {} ); expect(chapter.contentText).toBeTruthy(); expect(chapter.contentText.length).toBeGreaterThan(100); }); });六、规则部署与贡献流程6.1 规则注册机制新规则需要在src/rules.ts中注册// src/rules.ts import { c69shuba } from ./rules/onePage/69shuba; import { exampleRule } from ./rules/onePage/example; export const rules [ // ... 现有规则 c69shuba(), exampleRule(), ];6.2 规则匹配逻辑系统通过URL正则匹配自动选择合适的规则// 规则匹配示例 const matchedRule rules.find(rule rule.url.test(currentUrl) );6.3 贡献指南提交新规则时需遵循以下规范代码质量遵循项目编码规范使用TypeScript严格类型错误处理完善的异常处理和日志记录性能优化合理设置并发限制和请求间隔文档完善提供规则说明和使用示例测试覆盖包含完整的测试用例七、高级扩展技巧7.1 自定义内容处理管道通过contentPatch函数实现自定义内容处理contentPatch: (content) { // 移除特定广告元素 const adSelectors [ .ad-container, [class*advert], [id*ad] ]; adSelectors.forEach(selector { content.querySelectorAll(selector).forEach(el el.remove()); }); // 标准化段落格式 content.querySelectorAll(p).forEach(p { p.style.margin 1em 0; }); return content; },7.2 动态配置支持支持运行时配置增强规则灵活性export const createConfigurableRule (config: RuleConfig) mkRuleClass({ bookUrl: config.bookUrl, bookname: config.booknameSelector, author: config.authorSelector, aList: config.chapterListSelector, getContentFromUrl: async (url, name, charset) { // 使用配置的选择器 const selector config.contentSelector; const doc await getHtmlDOM(url, charset); return doc.querySelector(selector); }, concurrencyLimit: config.concurrency || 10, sleepTime: config.sleepTime || 50, });八、最佳实践总结选择正确的规则模板根据网站结构选择onePage、twoPage或special模板精确的DOM选择器使用稳定的CSS选择器避免依赖易变的class名称完善的错误处理处理网络异常、DOM变化等边界情况性能优化合理设置并发限制避免对目标网站造成过大压力代码复用充分利用lib目录下的通用工具函数持续维护定期检查规则有效性及时适配网站改版通过本文的深度解析开发者可以全面掌握novel-downloader的规则扩展机制。该系统的模块化设计和丰富的工具库使得为新的小说网站添加支持变得高效而规范。无论是简单的单页网站还是复杂的Cloudflare防护站点都可以通过适当的规则实现稳定可靠的内容抓取。图novel-downloader规则扩展架构图展示核心基类、规则工厂和具体实现的关系图规则处理流程图展示从URL匹配到内容提取的完整处理流程【免费下载链接】novel-downloader一个可扩展的通用型小说下载器。项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

API Key 生成和鉴权机制：从随机凭证生成到请求拦截校验

文章目录API Key 生成和鉴权机制：从随机凭证生成到请求拦截校验一、API Key 生成规则二、过期时间处理三、数据库表结构四、生成接口五、前端生成与首次展示六、列表页脱敏展示七、请求鉴权流程八、用户身份切换九、删除与撤销十、安全实现要点1. API Key 只展示一次…

2026/6/9 8:35:53 阅读更多

银河麒麟桌面版安装、多屏配置、触摸校准

一、前言现有Lenovo P360工作站一台、显示屏5块独显GeForce RTX 3090 系列，d集显xxxxx，需要部署麒麟桌面版满足GCC9.3 及内核5以上，外界5块屏幕扩展及触摸校准机器原则上不允许联网二、部署配置 1、麒麟桌面版系统安装和配置 1.1 …

2026/6/9 8:34:51 阅读更多

计算机毕业设计之基于Hadoop1688平台数据的分析与可视化

当前，由于人们生活水平的提高和思想观念的改变，然后随着经济全球化的背景之下，互联网技术将进一步提高社会综合发展的效率和速度，互联网技术也会涉及到各个领域，于是传统的管理方式对时间、地点的限制太多，…

2026/6/9 8:34:31 阅读更多

遗传算法工程实践：选择压力、交叉与变异的动态平衡

1. 项目概述：为什么“遗传算法第二讲”比第一讲更值得你花时间啃透“遗传算法第二讲”这个标题乍看平平无奇，像是教科书里被翻烂的章节编号，但如果你真把它当成“进阶内容”草草略过，大概率会在后续实操中反复撞墙——我带过的三十…

2026/6/9 9:41:52 阅读更多

YouTube视频问答机器人：轻量级本地化视频内容理解方案

1. 项目概述：这不是一个“调API就完事”的玩具，而是一套可落地的视频内容理解闭环你有没有过这样的体验：在YouTube上看到一个45分钟的技术讲座，想快速定位“如何配置Redis哨兵模式”这个知识点，却只能拖进度条、反复听…

2026/6/9 9:41:31 阅读更多

codex 快速上手

1. 什么是 OpenAI Codex？ OpenAI Codex 是一个基于 GPT-3 的 AI 模型，专门用于理解和生成代码。它能够将自然语言描述转换为多种编程语言的代码，支持 Python、JavaScript、Go、Ruby、TypeScript 等数十种语言。主要特点： 代码…

2026/6/9 9:40:28 阅读更多

Elicit学术协作者：语义检索与研究工作流重构指南

1. 文学综述这件事，为什么越来越像在风暴里捞针？我带过七届研究生，也帮二十多个跨领域转行的工程师、设计师、临床医生做过课题启动辅导。每次聊到文献综述，几乎所有人都会叹气：“不是不想读，是根本读不完。…

2026/6/9 9:39:25 阅读更多

Pandas多维聚合生产实践：从groupby到高管看板的工程化落地

1. 项目概述：为什么多维聚合不是“加个groupby”就能搞定的事我在银行风控部门干了八年，从刚毕业写SQL跑日报，到后来带团队搭实时反欺诈引擎，踩过最多的坑，八成出在数据聚合这一步。很多人觉得pandas的groupby就是个语…

2026/6/9 9:38:41 阅读更多

AI Agent如何解决传统自动化失败的三大根本问题

1. 项目概述：这不是又一个“自动化失败”的抱怨帖，而是我们团队踩了三年坑后画出的路线图“Why Most Task Automation Fails — and How AI Agents Can Fix It”这个标题，我第一次在客户会议室白板上写下来时，台下坐着七位业务负责…

2026/6/9 9:38:41 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章