【初阶数据结构】升沉有序的平仄排序 3

发布时间：2026/6/1 21:10:03

点击展开/收起文章目录文章目录本节内容简介归并排序(外排序)外排序的意义以及原理1. 生成随机数据(data.txt)2. 取n个数据排好序到文件中3. 归并文件4. 文件归并排序计数排序下面我来总结一下各大排序的稳定性与时间复杂度在这里我们也是终于结束了排序结束了我们的初阶数据结构的章节道阻且长我们还需努力下一章节我会开启C感谢大家的支持希望读者们多多三连支持小编会继续更新你们的鼓励就是我前进的动力前言许多人认为排序只是内存中的数据游戏但在面对海量数据吞吐时内排序往往因物理内存窒息而无能为力。本文将带你跳出内存舒适区手撕基于磁盘 I/O 的归并外排序External Merge Sort。本文不仅包含硬核的 C 语言文件流操作与计数排序实现更会向下延伸至计算机底层操作系统与硬件架构深度复盘 Windows 资源管理器的异步刷新机制以及 SSD 固件层面的 TRIM 指令、垃圾回收和磨损均衡原理本节内容简介计划任务外排序归并硬盘删除原理讲解计数排序总结各大排序的时间复杂度和稳定性归并排序(外排序)外排序的意义以及原理其实我们的排序是分为内排序外排序的,内排序 : 在内存中排序外排序 : 要在硬盘操纵如今我们学的排序中只有归并是外排序外排序的意义但数据量巨大的时候,超过分派的内存大小,这时候就是外排序发力的时候文件归并排序思路:这里需要四个文件,data.txt(原始数据) file1.txt, file2.txt, mfile.txt1. 生成随机数据(data.txt)我这里造数据只在注释里面略讲,详细步骤请去下面链接创造数据的讲解,堆排序voidCreatData(intn){constchar*filedata.txt;FILE*finfopen(file,w);//这里w是双引号if(finNULL){perror(fopen fail);exit(-1);}for(inti0;in;i){intxrand()%10000i;//注意这里写文件要在每个数据后面加\n不加的话,存入文件中间数据会连成一片,无法正确读取fprintf(fin,%d\n,x);}// 打开文件之后不要忘记关闭文件fclose(fin);}2. 取n个数据排好序到文件中解读一下这里的参数,这里FILE* fout是在void MergeFileSort(const char* data, int n)中打开的data.txt传入这个是为了在上次读的数据基础上,继续往读数据,a是数组,用于存放每次读到的N个数据,得到之后排序,再往传入的file中间写const char* file是读取N个数据排序好,存入这个文件中int n每次都读n个数据当然这里可能会遇到一个问题,加入读不到N个数据,data中没有足够N个数据的量咋办?这就是我们给个返回值的好处,每次返回读到的数据个数下面是fscanf返回值的文档表述这里我建议大家去查英文文档,不会的单词可以自己查,不要机翻,程序员是因该会看英文文档的,在后面的C部分我会经常给大家展示英文文档下面是原文档链接大家可以自己进去看看C/C英文文档这段英文讲的是什么呢?返回值是成功匹配并赋值的输入项个数举个例子fscanf(fp, %d %s, n, str)如果成功读入一个整数和一个字符串返回 2如果只成功读入整数第二个匹配失败返回 1如果第一个匹配就失败返回 0如果遇到文件末尾或发生输入错误返回 EOF通常为 -1利用fscanf返回值只要没读到文件末尾我numnum就可以做计数器来记录读入了多少个数据在进行我文件操作别忘记关闭文件,打开文件要进行检查与malloc类似intReadNDataToFile(FILE*fout,constchar*file,intn,int*a){intnum0;intx;//利用fscanf返回值只要没读到文件末尾我numnum就可以做计数器来记录读入了多少个数据while(numnfscanf(fout,%d,x)!EOF){a[num]x;}if(num0)return0;//排序数据HeapSort(a,num);//打开文件FILE*finfopen(file,w);if(finNULL){perror(fopen fail);exit(-1);}//向文件file中写入读到的num个数据for(inti0;inum;i){fprintf(fin,%d\n,a[i]);}//关闭文件fclose(fin);returnnum;}3. 归并文件voidMergeFile(constchar*file1,constchar*file2,constchar*mfile){//打开三个文件FILE*fout1fopen(file1,r);FILE*fout2fopen(file2,r);FILE*mfinfopen(mfile,w);intret1,ret2,x1,x2;//接收返回值如果读到文件末尾只要有一个文件读到文件末尾就跳出循环ret1fscanf(fout1,%d,x1);ret2fscanf(fout2,%d,x2);while(ret1!EOFret2!EOF){if(x1x2){fprintf(mfin,%d\n,x2);ret2fscanf(fout2,%d,x2);}else{fprintf(mfin,%d\n,x1);ret1fscanf(fout1,%d,x1);}}//将剩余一个文件中剩余数据写入文件mfilewhile(ret1!EOF){fprintf(mfin,%d\n,x1);ret1fscanf(fout1,%d,x1);}while(ret2!EOF){fprintf(mfin,%d\n,x2);ret2fscanf(fout2,%d,x2);}//记得关闭文件fclose(fout1);fclose(fout2);fclose(mfin);}4. 文件归并排序核心部分先归并两文件移除flie1,file2重名名mflie为file1循环终止条件ReadNDataToFile(fout, file2, m,a) 0我们设计返回值就起作用了当不再能从data中读到数据证明我们把它读完了这里要用到几个没见过的函数这里传参很简单我就不讲了也很好理解while (1) { MergeFile(file1, file2, mfile); remove(file1); remove(file2); rename(mfile, file1); if (ReadNDataToFile(fout, file2, m,a) 0) break; }voidMergeFileSort(constchar*data,intn){srand((unsignedint)time(0));FILE*foutfopen(data,r);if(foutNULL){perror(fopen fail);exit(-1);}//设置每次读入数据的量intm1000000;int*a(int*)malloc(m*sizeof(int));if(aNULL){perror(malloc fail);exit(-1);}//给文件命名constchar*file1file1.txt;constchar*file2file2.txt;constchar*mfilemfile.txt;//第一次写入数据ReadNDataToFile(fout,file1,m,a);ReadNDataToFile(fout,file2,m,a);while(1){MergeFile(file1,file2,mfile);remove(file1);remove(file2);rename(mfile,file1);//循环终止条件if(ReadNDataToFile(fout,file2,m,a)0)break;}//关闭文件,释放开的空间free(a);fclose(fout);}我在观察文件归并时发现了一个问题每次读的数据量越大文件归并排序就越快而且在不同数据量下有些文件会出现有些文件不会出现我开始以为我写错代码逻辑了但是我去查了一下资料并不是我写错逻辑出现这种现象的原因是文件打开/关闭的次数和 Windows 文件资源管理器刷新频率之间的关系。当每次读入的数据量小比如 10 万条 → 归并轮数多 → 你需要反复打开、关闭、删除、重命名文件然而最费时间的就是文件打开与关闭内部那些排序反而并不是很费时间在内存中排100万数据与排10万个数据区别不大都是一瞬间的事情主要还是打开与关闭文件Windows 资源管理器的刷新不是实时它的刷新间隔通常是几百毫秒到几秒。你能看见中间文件不是因为操作慢而是因为操作次数多且分布在较长的时间轴上刚好撞上了 Windows 的定时刷新你看不见是因为操作次数太少、太快刷新还没来得及“拍照”就已经结束了。每次读写文件时的打开关闭文件都是在留时间给Windos文件资源管理器来刷新文件来给你看到因此你看到的那些文件不是是实时文件状态只是某个时间的一张快照m100000每次读一百万个数据m100000每次读十万个数据m100000每次读十万个数据由此我延伸又问了deepseek一些问题我问他remove是真正把数据删除了吗物理消失了吗一. 机械硬盘逻辑上是“真删除”这和你用 ShiftDelete 直接删除文件是一样的文件路径会立即从文件系统中“消失”自然也不会进入回收站所以你用常规方法找不到它。物理上可能是“假删除”文件路径虽然看不见了但只要磁盘空间没被新数据覆盖通过专业数据恢复软件就能找回来。这是因为 remove 只是在硬盘的“目录”上做了个标记告诉系统这个位置的数据可以覆盖了。上面只是我了解到的浅薄知识如有不对请批评在电脑中我们多了一步回收站回收站就不会标记成可用,为了让你反悔恢复文件他暂时不让那片空间可用你可以做个实验你把1G数据的文件手动删除到回收站你会发现那个硬盘上可用空间没有增大但你从回收站把该文件彻底删除他就会增大二. SSD硬盘TRIM指令当你删除文件时操作系统会立刻发送TRIM指令给SSD。SSD收到后实际擦除那些闪存块中的数据标记为无效并立即回收。所以文件数据可能在几毫秒内就被物理擦除不再像机械硬盘那样“只改标记、数据暂留”。写入放大与垃圾回收SSD不能覆盖写必须先擦除整个块才能写入新数据。为了性能SSD固件会后台做垃圾回收——提前把无效页擦除。这意味着删除操作很可能被立即执行物理擦除。磨损均衡为了延长寿命SSD会把数据分布在不同的闪存单元。即使你只删除一个小文件它可能早已被移动过多次删除后原始位置的数据也可能被其他数据覆写。结果在SSD上误删文件后恢复成功率远低于机械硬盘。因为数据可能已被TRIM和垃圾回收彻底清除。恢复工具往往无法直接读取被TRIM过的块SSD返回的全是0。只有极少数专业实验室能在SSD主控层面尝试恢复成本极高。由此我们想想这样有什么应用呢数据恢复别再花很多钱去找电脑维修店脑版恢复数据了既然你了解到了有这些原理恢复数据也就不神奇了市面上有很多成熟免费的软件下面分享一下– Recuva个人使用完全免费界面友好有深度扫描模式。适合恢复误删的照片、文档。– TestDisk PhotoRec开源免费功能极为强大。TestDisk 擅长恢复分区表、修复启动扇区PhotoRec 则是“签名恢复”的典范——它不管你原来是什么文件系统直接根据文件头尾去硬盘里捞数据。你在课堂上学的“文件有固定头部”这一点就是 PhotoRec 的工作基础。注意既然了解到原理你误删文件尽量越早恢复文件越好因为文件位置被复写了就不好恢复了另外SSD硬盘删除机制更复杂不易恢复steam第一次下载过的游戏第二次下载会很快在steam他会有depotcache一些游戏缓存你删除了游戏这些缓存还在你电脑里面重复下载就会很快计数排序简单来说计数排序就是造出来一个初始化为零的数组等遍历原数组大小与原数组大小一致的就在计数数组对应下标位置加1类似于下图但问题应运而生如果这样的话数组下标代表值空间复杂度就高了那他是怎么排序的有了计数数组原来每个值在count[]数组中都标记有位置而且是按有序排列我们遍历count数组如果为零我就跳过大于零我就取她的下标放到我这个位置如下图动画他的时间复杂度是ON,但也有极大的局限性如果1100000这种相差巨大的数据她的空间就开得很大浪费空间因此他很不常用voidCountSort(int*a,intn){intmax,min,i;maxmina[0];for(i0;in;i){if(a[i]max){maxa[i];}if(a[i]min){mina[i];}}intrangemax-min1;int*count(int*)calloc(range,sizeof(int));if(countNULL){perror(calloc fail);return;}for(i0;in;i){count[a[i]-min];}i0;for(intj0;jrange;j){while(count[j]--){a[i]jmin;}}free(count);}下面我来总结一下各大排序的稳定性与时间复杂度首先解释一下稳定性排序的稳定性是指在待排序的序列中如果存在两个相等的元素比如两个人都叫“张三”或者两个数值都是 5排序后它们原来的相对前后顺序保持不变。简单说稳定排序不会打乱原本相等元素之间的次序不稳定排序可能会打乱。在这里我们也是终于结束了排序结束了我们的初阶数据结构的章节道阻且长我们还需努力下一章节我会开启C感谢大家的支持希望读者们多多三连支持小编会继续更新你们的鼓励就是我前进的动力

Sora 2编码参数“黑箱”破译（含H.266/VVC兼容性约束、LLM-guided rate分配协议、GPU显存感知型码控算法），全网首发技术白皮书节选

更多请点击： https://kaifayun.com 第一章：Sora 2编码参数体系的总体架构与设计哲学 Sora 2编码参数体系并非传统视频压缩模型中线性堆叠的配置集合，而是一个以语义一致性、时空可微性与生成可控性为三大支柱的协同化参数空间。其核心设计理…

2026/6/1 21:10:03 阅读更多

三步搞定GitHub精准下载：DownGit终极解决方案

三步搞定GitHub精准下载：DownGit终极解决方案【免费下载链接】DownGit github 资源打包下载工具项目地址: https://gitcode.com/gh_mirrors/dow/DownGit 你是否曾经只想下载GitHub仓库中的一个文件夹，却不得不克隆整个项目？面对庞大…

2026/6/1 21:09:02 阅读更多

一键永久保存QQ空间说说：GetQzonehistory免费备份方案

一键永久保存QQ空间说说：GetQzonehistory免费备份方案【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾想过，那些记录在QQ空间里的青春记忆、生活点滴&am…

2026/6/1 21:09:02 阅读更多

【独家内测实录】Sora 2面部表情生成API调用失败率下降92.7%的7个隐藏配置项（附GitHub验证脚本）

更多请点击： https://kaifayun.com 第一章：Sora 2面部表情生成API调用失败率下降92.7%的内测现象总览在Sora 2内测阶段，面向开发者开放的面部表情生成API（ /v2/generate/facial-expression）展现出显著稳定性提升。…

2026/6/2 3:30:00 阅读更多

geth常用命令

geth常用命令更多技术博客 http://vilins.top/ 初始化私链 geth --datadir /path/to/datadir init /path/to/genesis.json启动私链 geth --identity "TestNode" --rpc --rpcport "8545" --datadir /path/to/datadir --port "30303" --nodis…

2026/6/2 3:30:00 阅读更多

Python 引用计数与分代收集在 NumPy 向量化运算中的 GC 调优细节

Python 引用计数与分代收集在 NumPy 向量化运算中的 GC 调优细节1. 技术分析 1.1 NumPy 底层 C 实现与 Python GC 的交互机制 NumPy 的核心计算由 C 语言实现，但其对象生命周期仍受 Python GC 管理。理解两者交互是性能调优的关键。交互层次内存管理方式GC 参与程度…

2026/6/2 3:29:19 阅读更多

别再为S7-1200通讯头疼了！手把手教你搞定PUT/GET和开放式以太网（附TIA Portal配置截图）

S7-1200通讯实战指南：从协议选择到TIA Portal高效配置在工业自动化项目中，S7-1200 PLC的通讯配置往往是工程师面临的第一个技术门槛。当项目现场的设备需要数据交互时，面对TIA Portal中众多的协议选项和参数设置，即使是经验丰富的…

2026/6/2 3:29:19 阅读更多

FortiGate 7.4.2 新机开箱第一步：从接上网线到设置中文界面的保姆级避坑指南

FortiGate 7.4.2 开箱实战：从硬件连接到中文配置的完整避坑手册当你拆开那台崭新的FortiGate防火墙包装时，扑面而来的不仅是设备本身的金属质感，更是一份沉甸甸的责任——作为企业网络安全的第一道防线，它的初始配置将直接影响后续…

2026/6/2 3:28:18 阅读更多

从Arduino到KSP实体控制台：硬件架构、通信协议与工程实践全解析

1. 项目概述：从游戏手柄到专业控制台如果你玩过《坎巴拉太空计划》（Kerbal Space Program， 简称KSP），肯定对屏幕上密密麻麻的仪表和快捷键又爱又恨。用键盘鼠标操控火箭，总感觉少了点“亲手把绿色小人送上太…

2026/6/2 3:27:58 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章