MD5是哈希,不是加密,防君子不防小人 一、先把概念说清楚很多开发者在日常交流中习惯说“MD5加密”这个说法流传太久以至于不少人真的以为MD5是一种加密算法。实际上MD5属于哈希Hash算法也叫散列算法或消息摘要算法。加密和哈希的本质区别在于加密是可逆的。明文通过密钥变成密文持有密钥的人可以把密文还原成明文。哈希是不可逆的。任意长度的数据输入后输出固定长度的摘要无法从摘要反推出原文。MD5输出的就是一个128位的哈希值无论输入是一个字符还是一部电影最终都变成32个十六进制字符。这个过程信息是有损的所以不可逆。因此说MD5是“加密”在术语上是不准确的。准确的叫法是MD5是一种哈希算法用来生成消息摘要。二、MD5当年是用来干什么的MD5由Ron Rivest在1991年设计初衷主要有两个应用场景一是完整性校验。文件下载后算一下MD5和官方公布的对比一致就说明文件在传输过程中没有损坏。这里验证的是“有没有被意外改动”不是“有没有被恶意篡改”——这点后面会说。二是密码存储。早期很多系统不存明文密码而是存密码的MD5哈希值。用户登录时把输入的密码算一遍MD5和数据库里的对比对上了就放行。这样就算数据库泄露攻击者拿到的也不是明文密码而是一串哈希值。这两个场景在当年看起来是合理的。MD5计算速度快实现简单消耗资源少在上世纪90年代到本世纪初被广泛使用。三、问题出在哪里“防君子不防小人”这个比喻确实贴切。密码存储太快反而成了致命伤先说密码存储。MD5的一个核心特征是快。快本身不是缺点但在密码存储场景下就成了致命伤。攻击者拿到泄露的哈希值后可以直接暴力枚举常用密码一个个算MD5去比对。算法越快单位时间内能尝试的密码就越多破解效率就越高。GPU让MD5彻底失去抵抗力这个问题在GPU面前被放大了几个数量级。GPU的设计思路和CPU完全不同——CPU擅长串行处理复杂任务而GPU拥有数千个计算核心擅长大规模并行计算。MD5这种算法结构简单、计算步骤规整恰好特别适合在GPU上并行跑。一台普通电脑的CPU每秒大概能算几百万次MD5。但一张高端消费级显卡比如英伟达RTX 4090或更新型号每秒可以计算数百亿甚至上千亿次MD5。这个数量级的差距意味着攻击者用一张显卡就能在短时间内穷举完所有常见密码组合。再配合彩虹表这种预计算技术常见密码的MD5值早就被算好存起来了直接查表比对即可几乎零成本。所以用MD5存密码在今天的硬件条件下基本上等于明文存储加了一层窗户纸。针对这个问题现在密码存储的标准做法是用慢哈希算法比如bcrypt、Argon2。这类算法故意把计算过程做得很慢每次哈希消耗可控但不可忽略的时间和资源。对正常用户来说登录时多花几十毫秒毫无感觉。但对攻击者来说暴力破解的成本会从“一张显卡跑几小时”变成“一堆显卡跑几百年”。再加上随机加盐让同样的密码在不同用户那里生成不同的哈希值彩虹表就彻底失效了。完整性校验碰撞让校验失去意义再说完整性校验。MD5的另一个致命问题是碰撞。2004年王小云教授团队公开了MD5的碰撞攻击方法可以在合理时间内构造出两个内容不同但MD5哈希值完全相同的文件。这意味着攻击者可以准备一个恶意文件让它和正常文件拥有相同的MD5值。如果系统仅凭MD5来判断文件是否被篡改是完全可以被绕过的。2008年研究人员利用MD5碰撞伪造了CA证书。2012年的Flame恶意软件也用了MD5碰撞来伪造微软的数字签名。这些事件之后MD5在安全领域的信用已经彻底破产。2026年的现状漏洞还在出即便到了2026年仍有厂商在使用MD5的安全场景中踩坑。根据美国国家漏洞数据库NVD近期的披露某厂商路由器的固件中使用MD5来生成用户会话的cookie攻击者可以伪造会话直接越权访问设备。另有电商平台使用时间戳作为种子去跑MD5来生成API的Session ID由于熵值严重不足攻击者猜出大概时间就能暴力枚举劫持会话。这些都不是新问题只是旧的错误在新的产品上重复出现。四、那MD5现在还能用吗能用但要看场景。一些不涉及安全的场景MD5依然可以胜任。比如文件去重系统只关心两个文件内容是否相同不担心有人恶意构造碰撞。再比如分布式系统中的数据分片用MD5做哈希环只要求分布均匀不要求抗碰撞。这些场景下MD5计算快、实现简单仍然是一个可用的选择。但凡是和安全沾边的场景都不应该再用MD5。密码存储用bcrypt、Argon2。完整性校验需要防篡改的场景用SHA-256或者带密钥的HMAC。数字签名用SHA-2或SHA-3系列。这些替代方案已经非常成熟切换成本并不高。五、总结MD5是哈希不是加密。它不可逆这是和加密的根本区别。它的历史贡献不小但在今天的硬件条件和已知攻击面前它在安全领域已经不具备实用价值。密码存储该换慢哈希算法完整性校验该换更强的哈希函数。继续在安全场景使用MD5是给自己留隐患。