如何得到一个完美的正则表达式? 这篇文章的目的是让你能得到完美的正则表达式而且还不用自己拼。说到正则表达式一直是令我头疼的问题这家伙一般时候用不到等用到的时候发现它的规则是一点儿也记不住\d表示一个数字\s表示包括下划线在内的任意单词字符也就是 [A-Za-z0-9_]还有[\s\S]*可以匹配包括换行在内的任意字符串。这你都能记住吗如果能的话那真的佩服反正我是记不住之前每次手写的时候都得跟查字典似的一个个的查简单的还好复杂的就很痛苦了。过程往往是这个样子的1、 先打开 Google搜索一篇正则表达式找到一份像上图那样的字典教程先看个几分钟回忆回忆还有可能回忆不起来。2、然后就开始根据需求写一个正则表达式。3、放到程序中执行一下。4、诶怎么不好用匹配不上啊接着修改正则。5、继续从 3 - 4 的循环直到运气来了正常出结果了。这是最早的时候真的是全靠那点仅有的实力和运气了。记得刚毕业不久的时候有一次领导给安排一个任务要在一堆 PDF 文件里把我们需要的数据摘出来。PDF 这玩意儿吧你把它的内容读出来它就是一大段文本要在这一堆内容不一致的文件中准确的拿到数据第一反应就是用正则。当时的做法就是上面的 1-5这几步来的加上当时候刚毕业比较菜跌跌撞撞才把程序写好中间有几次调试的时候程序一跑起来VS(Visual Studio)就特别卡。对的就是宇宙第一强大的 IDE 当时我还在写 C#纵然是宇宙第一强大也被我弄的特别卡。当时只道是正则写的有问题然后就一直改。后来才知道那是因为正则写的不合理发生了回溯现象越不合理回溯越严重加上当时的 PDF 内容很多所以导致开发工具都卡了这要是整到线上那怕是混不下去了。关于回溯的问题可以参考下面这篇文章《失控的正则表达式灾难性的回溯》https://www.regular-expressions.info/catastrophic.html后来就不至于那么菜了知道了一些关于正则表达式的在线网站上面有一些常用的正则表达式不用自己捣鼓了能偷懒当然要偷懒了。可以在 Goolge 上搜索关键词「正则表达式 在线」然后就会出来一大堆直接在上面用那些常用的正则例如手机号、邮箱、网址啊基本上能解决90%的需求场景。另外的10%呢以前可能只能自己琢磨了现在都2023年了基本上99%的概率都不用亲自动手了当然了如果是大佬呢就想自己写那完全没问题。ChatGPT 完美解决ChatGPT 是LLM(大语言模型)的产品最最擅长的事情就是分析语言而正则表达式的应用场景是什么呢其实就是在一大堆文本语言中按照我们的规则找到我们需要的内容总的来说也是对于文本语言的处理所以用 ChatGPT 解决正则表达式的问题简直太合适不过了。比如最简单的匹配中国的手机号直接让 ChatGPT 把正则写出来而且连代码都给你写好了。至于网址、邮箱等等也不在话下了。不仅ChatGPT 可以连百度文心一言也可以。百度文心一言虽然这样可以但是如果你反过来问它它就蒙圈了。比如我问 aaa126.com 是不是一个合法的邮箱ChatGPT 会告诉你这个邮箱是合法的但是百度文心一言就不行了。下面这个是 ChatGPT 的回答ChatGPT 的回答下面这个是百度文心一言的回答添加图片注释不超过 140 字可选文心一言的回答不仅邮箱不行你问它一个手机号是否合法百度文心一言也不行还会告诉你这个号码的归属地但是这个归属地也是错误的。这样就看出来什么是智能什么是大数据了明显 ChatGPT 更智能一点希望国产的大模型能在这两年追上吧。再举一个例子匹配一段 HTML 中的某个部分也是正则的常用场景做过爬虫的或多或少都用过正则吧。比如我在一大段 HTML 中有这么一部分div classtime这是一个this is some/div现在要拿到这个 div 中的内容部分当然有很多其他的方式了比如 Java 版的 jsoup使用 xpath、css selector 等都可以但是如果就要用正则呢是不是自己写的话一般菜鸟就感觉很麻烦了。这时候我们问问 ChatGTP 看看它怎么搞的。直接就这么问了★ div div classouter div classtime这是一个this is some/div div classbuttonbutton/div /div /div 用 Java 正则表达式匹配这段 HTML 中 classtime 的这个标签的 Text 部分 ”直接拿过代码跑一下没有任何问题。有同学说了这么明显的标签还用的着 ChatGPT 直接拿过来就写了。这里只是举个例子如果哪位有比较复杂的匹配逻辑也可以用ChatGPT 来试试基本上99%都能直接解决。还有一个网站很厉害如果你没有办法或者不想用 ChatGPT 也不想用百度文心一言这些我还发现一个网站这个网站我严重怀疑它已经接入了 ChatGPT 它也支持通过自然语言描述就能给出相应的正则表达式。网站地址 https://wangwl.net/static/projects/visualRegex比如我跟他说提取一段字符串中的中国手机号码部分而且还有正则可视化。上面的那个匹配 HTML 的例子我也在这个网站上试过结果也是可以的。纯粹的好东西分享我跟这个网站没有任何关系。一个帮你分析正则的网站接下来这个网站呢如果你想对正则有比较深入的理解或者想看看自己写好的正则或ChatGPT 帮你生成的正则表达式效果怎么样性能好不好都可以在这个网站进行。网站地址https://regex101.com/网站左侧可以选择你的目标语言也就是你的代码实现是哪种语言 Java 还是 JavaScript 等。中间上方是正则表达式中间下方是待匹配的内容。右侧上方是你写的正则对待匹配内容完整的匹配分析过程非常详细可以通过这里清楚的看出这个正则匹配的时候经过了哪些路径。右侧下方是最终的匹配结果。如果你写的正则在工作的时候发生了明显的回溯这里也会给出提示告诉你问题让你去优化。总结君子善假于物也虽然我很菜但是工具好用啊我好用的工具等于我也很厉害了。