Python 高手编程系列十一：字符串与字节

发布时间：2026/6/10 1:03:59

对于只用 Python 2 编程的程序员来说字符串的话题可能会造成一些困惑。Python 3 中只有一种能够保存文本信息的数据类型就是 strstring字符串。它是不可变的序列保存的是 Unicode 码位code point。这是与 Python 2 的主要区别Python 2 用 str 表示字节字符串这种类型现在在 Python 3 中用 bytes 对象来处理但处理方式并不完全相同。Python 中的字符串是序列。基于这一事实应该把字符串放在其他容器类型的一节去介绍但字符串与其他容器类型在细节上有一个很重要的差异。字符串可以保存的数据类型有非常明确的限制就是 Unicode 文本。bytes 以及可变的 bytearray 与 str 不同只能用字节作为序列值即 0 x 256 范围内的整数。一开始可能会有点糊涂因为其打印结果与字符串非常相似print(bytes([102, 111, 111]))b’foo’对于 bytes 和 bytearray在转换为另一种序列类型例如 list 或 tuple时可以显示出其本来面目list(b’foo bar’)[102, 111, 111, 32, 98, 97, 114]tuple(b’foo bar’)(102, 111, 111, 32, 98, 97, 114)许多关于 Python 3 的争议都是关于打破字符串的向后兼容和 Unicode 的处理方式。从Python 3.0 开始所有没有前缀的字符串都是 Unicode。因此所有用单引号‘、双引号“或成组的 3 个引号单引号或双引号包围且没有前缀的值都表示 str 数据类型type(“some string”)class ‘str’在 Python 2 中Unicode 需要有 u 前缀例如 usome string”。从 Python 3.3 开始为保证向后兼容仍然可以使用这个前缀但它在 Python 3 中没有任何语法上的意义。前面的一些例子中已经提到过字节但为了保持前后一致我们来明确介绍它的语法。字节也被单引号、双引号或三引号包围但必须有一个 b 或 B 前缀type(bsome bytes)class ‘bytes’注意Python 语法中没有 bytearray 字面值。最后同样重要的是Unicode 字符串中包含无法用字节表示的“抽象”文本。因此如果 Unicode 字符串没有被编码为二进制数据的话是无法保存在磁盘中或通过网络发送的。将字符串对象编码为字节序列的方法有两种• 利用str.encode(encoding, errors)方法用注册编解码器registered codec对字符串进行编码。编解码器由 encoding 参数指定默认值为’utf-8’。第二个 errors 参数指定错误的处理方案可以取’strict’默认值、‘ignore’、‘replace’、‘xmlcharrefreplace’或其他任何注册的处理程序参见内置codecs 模块的文档。• 利用 bytes(source, encoding, errors)构造函数创建一个新的字节序列。如果 source 是 str 类型那么必须指定 encoding 参数它没有默认值。encoding 和 errors 参数的用法与 str.encode()方法中的相同。用类似方法可以将 bytes 表示的二进制数据转换成字符串• 利用 bytes.decode(encoding, errors)方法用注册编解码器对字节进行解码。这一方法的参数含义及其默认值与 str.encode()相同。• 利用 str(source, encoding, error)构造函数创建一个新的字符串实例。与 bytes()构造函数类似如果 source 是字节序列的话必须指定 str 函数的encoding 参数它没有默认值。实现细节Python 字符串是不可变的。字节序列也是如此。这一事实很重要因为它既有优点又有缺点。它还会影响 Python 高效处理字符串的方式。由于不变性字符串可以作为字典的键或set 的元素因为一旦初始化之后字符串的值就不会改变。另一方面每当需要修改过的字符串时即使只是微小的修改都需要创建一个全新的字符串实例。幸运的是bytearray是 bytes 的可变版本不存在这样的问题。字节数组可以通过元素赋值来进行原处修改无需创建新对象其大小也可以像列表一样动态地变化利用 append、pop、inseer 等方法。字符串拼接由于 Python 字符串是不可变的在需要合并多个字符串实例时可能会产生一些问题。如前所述拼接任意不可变序列都会生成一个新的序列对象。思考下面这个例子利用多个字符串的重复拼接操作来创建一个新字符串s “”for substring in substrings:s substring这会导致运行时间成本与字符串总长度成二次函数关系。换句话说这种方法效率极低。处理这种问题可以用 str.join()方法。它接受可迭代的字符串作为参数返回合并后的字符串。由于这是一个方法实际的做法是利用空字符串来调用它s “”.join(substrings)字符串的这一方法还可以用于在需要合并的多个子字符串之间插入分隔符看下面这个例子‘,’.join([‘some’, ‘comma’, ‘separated’, ‘values’])‘some,comma,separated,values’需要记住仅仅因为 join()方法速度更快对于大型列表来说更是如此并不意味着在所有需要拼接两个字符串的情况下都应该使用这一方法。虽然这是一种广为认可的做法但并不会提高代码的可读性。可读性是很重要的在某些情况下join()的性能可能还不如利用加法的普通拼接下面举几个例子。• 如果子字符串的数量很少而且已经包含在某个可迭代对象中那么在某些情况下创建一个新序列来进行拼接操作的开销可能会超过使用 join()节省下来的开销。• 在拼接短的字面值时由于 CPython 中的常数折叠constant folding一些复杂的字面值不只是字符串在编译时会被转换为更短的形式例如’a’ ‘b’ ‘c’被转换为’abc’。当然这只适用于相对短的常量字面值。最后如果事先知道字符串的数目可以用正确的字符串格式化方法来保证字符串拼接的最佳可读性。字符串格式化可以用 str.format()方法或%运算符。如果代码段的性能不是很重要或者优化字符串拼接节省的开销很小那么推荐使用字符串格式化作为最佳方法。

光伏、风电场电磁环境复杂？成都鼎讯DX-SZ3200系列如何精准“排雷”？

在新能源基建加速的背景下，光伏、风电场站的电磁环境日益复杂。如何确保通信链路的纯净与稳定？成都鼎讯推出的DX-SZ3200系列数字化射频实时频谱侦测接收机模块，以40GHz超宽频段覆盖和2000GHz/s的极速扫描能力，为行业提供了一把精准…

2026/6/10 1:02:58 阅读更多

Agent 到底是什么：感知-决策-执行的循环

🦞 一只用 AI Agent 搭副业产线的程序员给你看一段对话： 用户：帮我分析这个 Go 项目里有几个 SQL 注入风险 AI：好的，我来看看……额，我没法看你的代码。你把代码贴给我。用户：（贴…

2026/6/10 1:02:58 阅读更多

手打内容被判定AI？从误判到安全，全靠这3大免费指令和5款工具

相信这段时间，很多朋友为降ai率操碎了心，有些时候纯人工手打的内容都会被误判为AI生成。其实遇到这种情况不用慌，只要找到合适的降ai率工具，就能把因为用词太规范而产生的误判降下来。今天就来盘点一波实用干货，有3个…

2026/6/10 1:02:17 阅读更多

第四板块：Android 输入系统与触控事件 | 第十六篇：按键分发与软键盘（IME）的窗口协同

第四板块：Android 输入系统与触控事件 | 第十六篇：按键分发与软键盘（IME）的窗口协同所属板块：第四板块 — Android 输入系统与触控事件前置知识：第十五篇中的 InputReader 解析、InputDispatcher 投递、AN…

2026/6/10 3:56:33 阅读更多

从产品功能反推技术实现：一款微信扫码报修小程序系统架构解析

本文基于智汇故障报修系统的公开产品信息，尝试从功能表象反推其底层技术架构与实现思路。该系统是一个典型的微信小程序 Web后台的轻量级业务系统，在角色权限模型、二维码设备绑定、巡检表单引擎、消息推送机制等方面有一些值得分析的设计决策。一、系统…

2026/6/10 3:55:52 阅读更多

YOLO11/12/26/DEIM/RTDET：双径共鸣特征锻造模块SpectraForge(自研独家)，通过双径共鸣从通道与空间双维度交互融合，自适应筛选关键特征，提升多尺度检测精度。

SpectraForge：双径共鸣特征锻造模块大家平时做目标检测、图像分割这类视觉任务，在特征融合阶段都会遇到一个核心难题：来自网络不同层级的两条特征流，一条携带丰富的空间细节但语义薄弱，另一条语义丰富却丢失了空间精度…

2026/6/10 3:55:52 阅读更多

网络的管理

1、用nmcli c 新增一个名为ens201的连接，该连接的IP等网络参数(eg:ip获取的方式、dns、网关、IP地址)是自动获取的。新增一个名为ens203的连接，该连接的IP等网络参数(eg:ip获取的方式、dns、网关、IP地址)是手动设置的。2、用nmtui 新增一个名为ens202的…

2026/6/10 3:54:32 阅读更多

Kotlin高阶函数在Android开发中的高级应用：面试指南与最佳实践

在当今移动应用开发领域，Kotlin已成为Android开发的首选语言之一。它的简洁语法、功能强大的特性为开发者提供了高效的工具。其中，高阶函数作为Kotlin的核心概念，通过将函数作为参数或返回值，大幅提升了代码的复用性和灵活性。本篇文章将全面解析Kotlin高阶函数在Android开…

2026/6/10 3:53:31 阅读更多

采购激光熔覆设备避坑：工艺不对，再贵或再便宜也白搭

不少企业盲目跟风高价机型，结果因工艺不匹配，出现熔覆层开裂、脱落、稀释率超标等问题，返工成本远超设备差价。真正靠谱的设备，必须具备成熟工艺库，能针对不同材质、工件尺寸、硬度要求精准匹配参数，同时支…

2026/6/10 3:52:30 阅读更多

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析

NomNom存档编辑器架构解析：跨平台游戏数据管理技术实现深度剖析【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each …

2026/6/10 0:00:34 阅读更多

从导航软件到游戏寻路：用C++手把手实现Dijkstra最短路径算法（附完整代码）

从导航软件到游戏寻路：用C手把手实现Dijkstra最短路径算法每次打开手机地图导航，或是操控游戏角色穿越复杂地形时，背后都藏着一个数学魔法——最短路径算法。Dijkstra算法作为图论中的经典解决方案，从1956年诞生至今，已…

2026/6/10 0:01:14 阅读更多

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值

告别B站收藏夹吃灰：用BiliTools让每一秒学习都物超所值【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱，支持下载视频、番剧等等各类资源项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/6/10 0:02:17 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/10 0:41:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/10 0:41:54 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/10 0:32:14 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…