Guide

如何把自然语言需求转成可用的 Regex - AI ToolBox

很多人并不是不会用正则，而是不知道怎么把业务需求翻译成模式规则。先把自然语言拆成边界、字符集和重复次数，Regex 才会稳定可测。

先把需求写成“要什么”和“不要什么”

例如“匹配中国手机号”并不够完整，还要补充是否允许空格、是否需要国家区号、是否允许在长文本中部分命中。负向约束越明确，生成的 regex 越不容易跑偏。

一条可用的正则，通常由开始边界、字符类别、长度限制、可选分组和结束边界组成。把需求拆成这些零件后，再交给生成器或手写补全，会更稳。

正则生成器适合给出第一版，但是否真的可用，必须看它对真实样本的命中和误伤情况。至少准备几条应该匹配和不应该匹配的测试数据。

如果这条正则会交给同事复用，最好同时保存一句自然语言说明，例如“匹配后台订单号，格式为 ORD-8 位数字”。这能降低后续维护成本。

不能。它更适合把模糊需求快速翻成候选模式，但真正决定可用性的，还是你有没有把边界条件说清楚。

通常是因为缺少边界条件，或者把字符范围写得太宽。补上起止锚点、长度限制和排除条件，误匹配会明显下降。

需要。生成器负责起草，tester 负责验证。只有两者配合，你才能知道模式在真实文本里是否稳定。

how-to-use-base64-safely-in-api-debugging

how-to-format-json