从 ASCII 到 UTF-8：一部字符集的发展史

发布时间：2026/7/3 5:23:45

从 ASCII 到 UTF-8一部字符集的发展史当你在键盘上按下一个A或者输入一个你计算机究竟是如何知道它们是什么字符的今天我们已经习惯了 UTF-8、Unicode 等名词但这些标准并不是凭空出现的而是计算机工业几十年发展的结果。本文将按照时间顺序完整介绍字符集的发展历史、出现背景、解决的问题以及为什么最终走向了 Unicode 和 UTF-8。一、字符编码为什么会出现计算机本质上只认识两种状态0 1CPU、内存、硬盘里面都只有二进制。那么问题来了。当用户按下键盘上的A时计算机应该存储什么存成01000001还是00110110还是别的如果没有统一标准不同厂商可以随便定义。例如IBM 规定A 00100001另一家公司规定A 11001010那么一台 IBM 计算机保存的文件另一台计算机打开以后看到的可能就不是 A而是一个完全不同的字符。这就是早期计算机面临的第一个问题不同设备之间无法交换文本。于是人们开始思考能不能给每一个字符分配一个唯一的编号这就是字符编码诞生的原因。二、ASCII计算机历史上的第一个统一字符集1963 年美国标准协会ANSI 的前身制定了 ASCIIAmerican Standard Code for Information Interchange。它的目标非常简单所有英文字符都使用统一的数字表示。例如字符十进制十六进制A650x41B660x42a970x610480x30空格320x20以后无论是哪家公司生产的计算机只要看到数字 65就知道这是字符 A。ASCII 第一次实现了不同计算机之间的文本互通。三、为什么 ASCII 只有 128 个字符今天看来128 个字符非常少。但在 1960 年代这已经是一个非常合理的设计。当时的计算机内存极其昂贵CPU 运算能力有限网络几乎不存在工程师统计了一下英语需要26 个大写字母26 个小写字母10 个数字标点符号一些控制字符全部加起来不到 128 个。因此决定使用7 位二进制表示所有字符。2^7 128于是 ASCII 的编码范围就是0 ~ 127四、ASCII 里的控制字符很多人第一次看到 ASCII 表都会疑惑为什么前面几十个字符根本不能打印例如编码名称含义0NUL空字符7BEL响铃8BS退格9TAB制表符10LF换行13CR回车27ESC转义这些字符其实不是给人看的。而是给当年的机械设备使用的。例如当时最流行的是电传打字机Teletype。LFLine Feed表示把纸向上移动一行。CRCarriage Return表示把打印头移动到最左边。直到今天Windows 使用CR LFLinux 使用LF都是那个时代留下来的历史遗产。五、ASCII 的优点与局限ASCII 的成功几乎改变了整个计算机行业。它第一次实现了不同计算机之间可以交换文本编程语言可以统一表示字符串操作系统可以统一处理字符但是它有一个致命缺点它只考虑了英语。例如你没有。é没有。ß没有。あ没有。对于美国来说没有问题。但是对于欧洲、中国、日本来说ASCII 根本无法使用。于是新的问题出现了。六、扩展 ASCII第一次尝试解决多语言问题后来计算机普遍采用 8 位字节Byte。工程师发现ASCII 实际只用了 7 位。最高位一直没有使用。于是他们决定把范围扩展到0~255即2^8 256这就是 Extended ASCII。这样欧洲国家终于可以加入é ü ñ ø等字符。看起来问题解决了。实际上更大的问题才刚刚开始。七、代码页Code Page乱码时代的开始欧洲每个国家都希望把自己的字符放进去。于是法国设计了一套。德国设计了一套。俄罗斯设计了一套。日本设计了一套。中国设计了一套。结果同样一个数字130在法国表示é在德国表示ä在俄罗斯表示Ж同一个文件在不同国家打开显示完全不同。这就是无数程序员都遇到过的乱码。微软后来提出了 Code Page代码页的概念。例如CP437CP850CP932CP936GBKCP950不同国家选择不同代码页。虽然本地问题解决了。但是国际交流依然混乱。八、中国自己的字符集GB2312、GBK、GB18030汉字数量远远超过欧洲文字。ASCII 根本无法表示。1980 年中国制定了 GB2312。设计思路非常简单ASCII 保持不变。英文仍然使用一个字节。汉字使用两个字节。例如A ↓ 41但是你 ↓ C4 E3后来随着汉字越来越多。GB2312 已经不够。于是GBK支持两万多个汉字。后来又发展为GB18030。直到今天它仍然是中国的重要国家标准。九、真正的问题世界没有统一字符集到了 1990 年代。整个世界几乎处于美国ASCII欧洲ISO-8859日本Shift-JIS中国GBK韩国EUC-KR俄罗斯KOI8互联网开始普及。电子邮件开始流行。网页开始出现。结果一封邮件发出去。美国正常。中国乱码。日本乱码。俄罗斯乱码。全球软件产业终于意识到不能再让每个国家维护自己的字符集了。十、Unicode给世界上每一个字符发身份证1991 年Unicode 联盟成立。它提出了一个革命性的思想世界上的每一个字符都分配一个唯一编号。例如A ↓ U0041中 ↓ U4E2D ↓ U1F60A注意Unicode 并不是编码方式。它更像一本巨大的字典。里面记录着字符 ↓ 唯一编号世界上所有软件只要遵守 Unicode就不会再因为字符编号不同而发生冲突。十一、Unicode 为什么还需要 UTF-8很多初学者都会误解Unicode 就是 UTF-8。其实不是。Unicode 只规定中 ↓ U4E2D但是如何存进内存如何写进文件如何通过网络发送Unicode 并没有规定。于是出现了不同的编码方式。例如UTF-16UTF-32UTF-8它们都能表示 Unicode。区别只是如何编码。十二、UTF-16Windows 的选择UTF-16 使用两个字节作为基本单位。亚洲文字效率较高。Windows 至今很多内部 API 仍然采用 UTF-16。但是它也存在问题英文原本AASCII1 ByteUTF-162 Bytes对于英文来说浪费空间。另外UTF-16 还存在字节序Endian问题。跨平台处理相对复杂。十三、UTF-8互联网最终的赢家1992 年Ken Thompson 和 Rob Pike 设计出了 UTF-8。UTF-8 有几个极其优秀的特点第一完全兼容 ASCII。例如ASCII A ↓ 41UTF-8A ↓ 41完全一致。第二支持世界所有语言。第三英文仍然只占一个字节。第四网络传输效率高。第五不存在字节序问题。例如A ↓ 41中 ↓ E4 BD A0 ↓ F0 9F 98 8A由于互联网中英文内容占比一直很高。UTF-8 几乎兼顾了兼容性效率扩展性最终成为互联网事实上的统一标准。今天HTMLJSONXMLLinuxGitPythonGoRustJavaScript几乎全部默认采用 UTF-8。十四、字符集发展的本质回顾整个发展过程会发现每一次升级其实都是在解决上一代无法解决的问题。ASCII解决了英文字符统一编码的问题。扩展 ASCII尝试加入更多欧洲字符。Code Page解决各地区本地化问题。GB2312、GBK解决中文输入输出问题。Unicode解决全球字符编号统一问题。UTF-8解决 Unicode 如何高效存储和网络传输的问题。整个字符编码的发展史本质上就是计算机逐渐从只服务英语世界成长为支持全世界所有文字的过程。总结很多初学者会觉得字符集非常复杂。实际上只需要记住一句话字符集Character Set决定一个字符对应什么编号编码Encoding决定这个编号如何存储成字节。ASCII 是字符集也是编码。Unicode 是字符集不是具体编码。UTF-8、UTF-16、UTF-32 是 Unicode 的不同编码方式。理解了这一点再去学习操作系统、网络协议、编译器、数据库、浏览器就会发现很多曾经令人困惑的问题其实都可以归结为一句话计算机从来不认识文字它只认识数字而字符编码就是人类与计算机之间约定好的翻译规则。

wiz2025 挑战赛从 springActuator 泄露到 s3 敏感文件获取全解析

背景经过几周的利用和权限提升，你获得了访问你希望是最终服务器的权限，然后可以使用它从 S3 存储桶中提取秘密旗帜。但这不会容易。目标使用 AWS 数据边界来限制对存储桶内容的访问。Youve discovered a Spring Boot Actuator application running on AW…

2026/7/3 5:23:45 阅读更多

【Java课程设计/毕业设计】基于 SpringBoot 的企业智能考勤归档查询系统的设计与实现基于 SpringBoot 的数字化员工考勤综合服务系统【附源码、数据库、万字文档】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/7/3 5:22:03 阅读更多

知识蒸馏：SFT、RL、GKD等核心区别解析

一文讲懂知识蒸馏：SFT、RL、GKD、OPD-RL、OPSD 到底有什么区别？前言知识蒸馏，简单来说就是：让一个强模型当老师，一个小模型当学生。学生不是只背老师的最终答案，而是学习老师在每一步生成 token 时的“判断…

2026/7/3 5:21:42 阅读更多

民宿领域搜索与个性化推荐算法体系深度对比：召回、排序与冷启动技术解析

摘要据行业最新发布的《2026年中国在线民宿市场研究报告》显示，2026年国内民宿行业迈入结构性高质量增长阶段，市场规模稳步扩容，行业彻底告别早期粗放式流量扩张，全面进入算法驱动的精细化供需匹配与价值竞争时代。民宿区别于电商…

2026/7/3 6:37:58 阅读更多

手把手教你用8款AI论文网站，极速搞定各类论文

被论文写作各环节难住的大学生、研究生及科研人员看过来！本文详解8款免费AI论文神器，含一站式写作平台千笔AI、文献阅读助手SciSpace、对话式AI智谱清言与ChatGPT、内容生成工具Jasper AI与WriteSonic、权威文献库JSTOR、自动化写作助手图灵论文AI。不仅…

2026/7/3 6:37:18 阅读更多

Node.js短信验证码接口开发实战指南

1. Node.js短信验证码接口开发概述短信验证码作为现代应用最基础的安全验证手段，几乎渗透到所有需要用户身份确认的场景。从电商平台的订单确认到金融应用的转账操作，再到社交APP的新用户注册，短信验证码都扮演着关键角色。而Node.js凭借其非…

2026/7/3 6:37:18 阅读更多

【新手友好 AI】部署方案，OpenClaw v2.7.9 解压即用完整步骤（含安装包）

OpenClaw v2.7.9 图形化安装指南｜Win10/11 64 位本地 AI 智能体搭建适配系统范围 Windows 10、Windows 11 64 位操作系统，全系列版本均可兼容运行工具介绍 OpenClaw v2.7.9 是面向 Windows 桌面端打造的本地 AI 智能工具，采用纯图形化安…

2026/7/3 6:36:37 阅读更多

构建Python与Cadence Virtuoso的无缝集成架构：实现跨语言EDA自动化的完整解决方案

构建Python与Cadence Virtuoso的无缝集成架构：实现跨语言EDA自动化的完整解决方案【免费下载链接】skillbridge A seamless python to Cadence Virtuoso Skill interface 项目地址: https://gitcode.com/gh_mirrors/sk/skillbridge 在电子设计自动化&#x…

2026/7/3 6:36:37 阅读更多

大模型红利期！小白程序员如何抓住AI机遇，收藏这份高薪就业指南？

生成式AI与大模型技术爆发，算法工程师薪资远超其他岗位。字节、腾讯等大厂纷纷扩招，高薪岗位年薪可达154万。去年DeepSeek爆火，生成式AI和大模型技术呈现爆发式增长，也让算法工程师重新成了炙手可热的岗位，岗位薪资远…

2026/7/3 6:35:57 阅读更多

GPT-5与Veo3双引擎AI开发实战与避坑指南

1. 项目概述：下一代AI开发范式革新2026年的全栈开发正在经历一场静默革命。当GPT-5.2-Pro遇上Veo3，开发者终于可以摆脱繁琐的API对接噩梦。上周我用这个方案重构了公司的智能客服系统，原本需要3天完成的跨平台对接，现在只需在终端…

2026/7/3 0:00:48 阅读更多

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧【免费下载链接】AutoRaise AutoRaise (and focus) a window when hovering over it with the mouse 项目地址: https://gitcode.com/gh_mirrors/au/AutoRaise AutoRaise是一款革命性的macOS窗口管…

2026/7/3 0:00:48 阅读更多

STM32G071RB与WSEN-ISDS IMU运动跟踪开发指南

1. 项目背景与硬件选型解析在嵌入式系统开发中，精确跟踪物体在三维空间中的运动和姿态是一个常见但极具挑战性的需求。WSEN-ISDS（型号2536030320001）是Wrth Elektronik推出的一款高性能6轴MEMS惯性测量单元(IMU)，结合STM32G071RB微…

2026/7/3 0:01:09 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/3 0:18:29 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/3 2:01:12 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/3 2:01:03 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/3 0:03:16 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/3 0:18:23 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/3 0:18:26 阅读更多

相关文章