使用yolo和孪生网络模型识别字节点选验证码

抖音的验证码一般是这样的：

解决方案通常可以选择：

打码平台
自己训练模型

在请求量不大的情况下可以用第一种，而对于公司这种每天几千万的请求，这里就需要第二种

一、我们识别的思路是什么？

实际上在请求里还会带有这么一张标签图片：

我们需要按照标签中给出的文字顺序点击图里的文本，因此，按照人类的思维，我们应当是如下操作：

先找到标签中的文字和文本顺序
再去图片中找哪几个位置有文字，这些文字是什么
按照标签和图片中文字的关系进行点选

而对于机器来说，我们需要转换一下第一第二步的顺序，并且我们不需要知道这个文字是什么

先找出图片中找哪几个位置有文字（每个字的坐标）
再去识别图中切出的文字和标签文字中的相似关系，不需要知道文字是什么
最后按照顺序进行点选

如果我们知道了验证部分的文字在图片中的什么位置，然后我们把每个字给剪切出来，然后再通过某种方式，识别出哪些字跟上面标签部分的字最相近不就知道了我们需要点击哪几个字了吗？

这里我们可以使用yolo来进行位置识别（判断每个字的位置），再用用pytorch来训练网络模型（判断相似关系）

我们需要按照他给的标签汉字顺序点击验证部分的汉字，最终要达到的效果是这样：

（这张图中的精度较低，实际上平均能够达到80%以上的识别精度）

二、数据标注

获取验证码图片（包含标签部分图片），可以抓包刷新验证码接口，来获取图片，越多越好，我这里是获取1100张，1000张图片用来训练，100张用来验证，标签部分跟验证部分可以分开存在不同的文件夹。

数据集标注要进行模型训练，就需要对数据集进行标注

使用labelimg对内容进行标注，这个用起来还是挺方便的

微信截图_20231024040347.png

因为这里我们只需要在图中标注出来每个文字所在的位置，这里的标签，就统一给text;

这个名字可以随便起，没啥影响。

标注完之后，在保存标签的目录下，会生成很多跟原来图片名字一样的txt文件，内容就是标注出来的坐标

三、训练yolo目标检测模型

需要训练两个模型，一个用来识别目标，一个用来识别文字，模型不限，能用就行，这里我们先讲目标识别

目标检测模型有很多，这里使用的yolov5，最新的应该是yolov8，原理不讲，因为不懂，这里只说咋个用；

git clone https://github.com/ultralytics/yolov5

克隆下来之后，安装环境；一定要装在虚拟环境里隔离一下，不要将依赖安装在全局

在项目根目录，创建一个dataset文件夹，在下面创建几个子文件夹，像下面的目录结构：

dataset/images/train:放入刚刚标记好的1000张训练集样本图片（.jpg）
dataset/images/val:放入刚刚标记好的100张验证集样本图片（.jpg）
dataset/labels/train:放入刚刚标记时生成的1000个训练集标签文件（.txt）
dataset/labels/val:放入刚刚标记时生成的100个验证集标签文件（.txt）

接下来，在data目录下，创建（有就修改，没有就创建）一个叫做train.yaml的文件，如下：

path: /yolov5-master/dataset  # 你dataset的绝对路径
train: images/train           # 训练集的相对路径
val: images/val               # 验证集的相对路径
test:

# Classes（标签类型，我们打标签的时候，标注的text）
names:
  0: text

使用目标检测模型，获取验证部分的每个文字的坐标，并且剪切出来

使用神经网络模型，按标签部分的顺序，输入两张图片，一张标签部分的一张验证部分的，判定两张图片是否是一个字，如果是就返回坐标

下载权重文件

yolov5有很多个权重文件，我这里是使用的yolov5s这个：

下载链接是：https://github.com/ultralytics/yolov5/releases/download/v7.0/yolov5s.pt

下载之后，我们把yolov5s.pt文件放到根目录就行了。

开始训练

在train.py中，找到入口parse_opt函数

修改一下参数就可以开始训练了：

parser = argparse.ArgumentParser()
parser.add_argument('--weights', type=str, default=ROOT / 'yolov5s.pt', help='initial weights path')  #权重文件
parser.add_argument('--data', type=str, default=ROOT / 'data/train.yaml', help='dataset.yaml path') # 训练的配置文件
parser.add_argument('--epochs', type=int, default=100, help='total training epochs') # 训练轮次，我们这里训练100次
parser.add_argument('--batch-size', type=int, default=16, help='total batch size for all GPUs, -1 for autobatch') # 每次提取图片张树，电脑太垃圾了，这里设置16，好点的电脑可以搞32或者更高，根据自己配置来
parser.add_argument('--imgsz', '--img', '--img-size', type=int, default=352, help='train, val image size (pixels)') # 图片大小，可以默认，yolo有自适应缩放，如果要设置，这个值最好是32的倍数。
parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu') # 如有gpu就用gpu来训练，速度会快很多，我这个垃圾电脑，cpu
--project，项目输出，根据自己需求要不要改

其他参数默认就可以了，训练好后是这样子的，会在runs/train/exp/weights这个路径下会有训练生成的权重文件，这里默认是pt类型。

训练结果或者训练过程的数据，都可以在runs/train/exp路径下看到：

微信截图_20231024041718.png