UVa 368 Indexing Web Pages

发布时间：2026/6/2 9:01:05

题目描述编写一个程序为小型万维网页集合创建索引。每个“页面”是一种称为HTML \texttt{HTML}HTML超文本标记语言的特殊格式的文本文件。HTML \texttt{HTML}HTML格式包括普通文本和特殊的HTML \texttt{HTML}HTML命令这些命令总是用尖括号括起来。你的程序需要读取名为index.htm的HTML \texttt{HTML}HTML文件读取该文件中所有被HREF命令引用的文件递归地读取这些文件引用的所有文件直到没有新文件可读读取文件webpage.in中的单词列表对于每个单词列出所有包含该单词的文件的文件名假设条件任何左尖括号后面最终都会有一个匹配的右尖括号单词的定义不在尖括号对之间只包含字母无空格、连字符、撇号等不是更长单词的一部分例如balloon中不考虑loon单词最多25 2525个字符大小写不敏感Word、word、WORD视为相同唯一需要关注的HTML \texttt{HTML}HTML命令是HREF格式固定为A HREFfilename文件名不超过12 1212个字符以.htm结尾HTML \texttt{HTML}HTML文件可能相互引用或自引用但最多100 100100个不同文件输入格式初始HTML \texttt{HTML}HTML文件名为index.htm。随后是其他文件包括webpage.in每个文件后跟一个空行。webpage.in中的单词每行一个。输出格式对于每个单词输出如果找到word can be found in the following pages:后跟文件名列表每行一个缩进5 55个空格如果未找到word can not be found in any page.每个单词输出后跟一个空行。样例输入简化HTML ... A HREFlayout.htm ... /HTML A bunch of gibberish and a word ... A HREFindex.htm ...样例输出file can be found in the following pages: index.htm layout.htm index can be found in the following pages: index.htm html can be found in the following pages: index.htm layout.htm recursion can not be found in any page. word can not be found in any page. is can be found in the following pages: index.htm layout.htm题目分析问题的本质这是一个网络爬虫web crawler \texttt{web crawler}web crawler的简化实现。需要递归解析HTML \texttt{HTML}HTML文件提取所有href链接下载读取这些链接指向的文件对每个文件提取其中的单词排除 HTML 标签内容为单词查询建立索引处理流程使用队列BFS \texttt{BFS}BFS处理文件引用对每个文件解析HTML \texttt{HTML}HTML提取单词提取href链接将新文件加入队列读取webpage.in中的查询单词对于每个单词查找包含该单词的文件列表单词提取规则忽略尖括号内的内容HTML \texttt{HTML}HTML标签和注释只考虑连续的字母序列作为单词单词边界由非字母字符分隔大小写处理所有单词转换为小写后再处理。参考代码// Indexing Web Pages// UVa ID: 368// Verdict: Accepted// Submission Date: 2019-01-31// UVa Run Time: 0.000s//// 版权所有C2019邱秋。metaphysis # yeah dot net#includebits/stdc.husingnamespacestd;setstringvisited;// 已访问的文件vectorstringpages;// 所有访问过的文件列表mapstring,setstringwords;// 文件 - 该文件中的单词集合queuestringq;// BFS 队列string filename,line,content;// 当前文件名、输入行、文件内容// 将字符串转换为小写voidtolower(strings){for(inti0;is.length();i)s[i]std::tolower(s[i]);}// 解析文件内容提取单词和 href 链接voidprocess(){inti0;while(icontent.length()){if(content[i]){// 处理 HTML 标签i;string block;while(icontent.length()content[i]!){blockcontent[i];i;}// 检查是否是 href 链接if(block.length()13){if(block.substr(0,8)A HREF\block.back()){string pageblock.substr(8,block.length()-9);// 如果未访问过加入队列if(visited.find(page)visited.end()){visited.insert(page);pages.push_back(page);q.push(page);}}}}elseif(isalpha(content[i])){// 提取单词连续字母string w;while(icontent.length()isalpha(content[i])){wcontent[i];i;}tolower(w);// 转换为小写words[filename].insert(w);}else{i;}}}intmain(intargc,char*argv[]){cin.tie(0),cout.tie(0),ios::sync_with_stdio(false);// BFS 遍历所有文件从 index.htm 开始visited.insert(index.htm);pages.push_back(index.htm);q.push(index.htm);while(!q.empty()){filenameq.front();q.pop();content.clear();// 读取文件内容直到空行while(getline(cin,line),line.length()0){contentline;content\n;}// 解析文件内容process();}// 处理查询单词string w;intcases0;while(cinw){if(cases)cout\n;coutw;string lower_ww;tolower(lower_w);// 查找包含该单词的文件vectorstringlists;for(autofs:pages){if(words[fs].find(lower_w)!words[fs].end())lists.push_back(fs);}if(lists.size()0)cout can not be found in any page.\n;else{cout can be found in the following pages:\n;for(autols:lists)cout ls\n;}}return0;}

QtCreator新手必看：从欢迎界面到设计模式，一个视频搞定所有基础操作

QtCreator极速上手指南：从零构建你的第一个GUI应用第一次打开QtCreator时，满屏的英文菜单和复杂界面确实容易让人望而生畏。作为跨平台开发的神器，QtCreator其实比想象中更友好——只要找对方法。本文将带你用最短时间掌握核心功能&#xff0…

2026/6/2 9:00:44 阅读更多

拼多多 encrypt_info解密

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！侵权通过头像私信或名字简介叫我删除博…

2026/6/2 9:00:24 阅读更多

从ISO到Web服务：用Nginx在openEuler上为团队搭建一个高速内网yum源服务器

从ISO到Web服务：用Nginx在openEuler上为团队搭建高速内网yum源服务器当团队规模扩大到10人以上时，每个成员重复下载相同软件包导致的带宽浪费和安装速度差异就会成为显著痛点。我们曾遇到某次紧急安全更新，20台开发机同时从外网拉取500MB补丁…

2026/6/2 9:00:04 阅读更多

NFS服务配置

一、NFS的介绍 1、什么是NFS NFS 是Network File System的缩写，即网络文件系统。一种使用于分散式文件系统的协定，由Sun公司开发，于1984年向外公布。 NFS在文件传送或信息传送过程中依赖于RPC协议。RPC：远程过程调用 (Remote Pro…

2026/6/2 10:19:07 阅读更多

Vivado时序收敛太难？试试用report_qor_assessment给你的设计打个分（附7系列与UltraScale+对比）

Vivado时序收敛实战：用report_qor_assessment预判设计潜力当FPGA设计规模突破百万门级时，时序收敛往往成为最耗时的环节。我曾在一个视频处理项目中，连续三天反复调整约束和布局参数，最终却发现根源在于RTL代码中的组合逻辑过长。…

2026/6/2 10:19:07 阅读更多

WinUtil终极指南：3步完成Windows系统优化与软件管理的免费解决方案

WinUtil终极指南：3步完成Windows系统优化与软件管理的免费解决方案【免费下载链接】winutil Chris Titus Techs Windows Utility - Install Programs, Tweaks, Fixes, and Updates 项目地址: https://gitcode.com/GitHub_Trending/wi/winutil 还在为Windows…

2026/6/2 10:18:26 阅读更多

KernelSU终极指南：5个技巧安全解锁Android内核级Root权限

KernelSU终极指南：5个技巧安全解锁Android内核级Root权限【免费下载链接】KernelSU A Kernel based root solution for Android 项目地址: https://gitcode.com/GitHub_Trending/ke/KernelSU KernelSU是一款基于Android内核的root解决方案，它通过…

2026/6/2 10:17:44 阅读更多

猫抓插件完全指南：轻松下载网页视频和媒体资源的终极解决方案

猫抓插件完全指南：轻松下载网页视频和媒体资源的终极解决方案【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在当今数字时代&#xff…

2026/6/2 10:17:03 阅读更多

深度解析changsha-aicc/cartoonizer：基于Stable Diffusion的指令调优技术终极指南 [特殊字符]

深度解析changsha-aicc/cartoonizer：基于Stable Diffusion的指令调优技术终极指南 🎨 【免费下载链接】cartoonizer 项目地址: https://ai.gitcode.com/hf_mirrors/changsha-aicc/cartoonizer 你是否想过如何将普通照片一键变成卡通风格&#xf…

2026/6/2 10:16:23 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章