验证码识别 java 深度学习_使用深度学习识别验证码注解

前言

在抓取一些网站的时候难免会遇到一些验证码。想起去年接触过一段时间的验证码识别技术，所以把之前使用的开源的cnn识别再拿出来做个注解。加深理解，也方便以后的使用。希望能对大家有所帮助！

正文

网上关于cnn验证码识别的文章有很多，以至于我想搜索之前的代码是从来看来都找不到出处了。但是大部分都是抄过来用用，改个函数名一贴。这样子其实是学不到什么东西的，对看到人也不会有多少帮助。所以我想拿过来做一些注解。前期的数据准备：深度学习识别验证码是需要大量的样本作为训练集的，并且给每个验证码打好label。有了训练集我们还需要做一些预处理： 1，将图片转成灰度图，这样做的目的是减少计算量。

def convert2gray(img):

if len(img.shape) > 2:

gray = np.mean(img, -1)

# 上面的转法较快，正规转法如下

# r, g, b = img[:,:,0], img[:,:,1], img[:,:,2]

# gray = 0.2989 * r + 0.5870 * g + 0.1140 * b

return gray

else:

return img

2，处理完的图片其实就是一个矩阵，我们还需要将对应的label向量化。向量化的目的是便于运算，并且能体现空间关系。这里用的方法是OneHotEncoder，就是把所有的已有的可能全部依次排成一个向量，以其中某一个为1其他为0来代表一种可能。举个栗子：只有数字组成的验证码所有可能性为0~9 向量化之后 0为：

[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

1为： [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

。。。等等

同理数字加英文大小写的验证码 a为：

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

A为：

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

代码为：

def text2vec(text):

text_len = len(text)

if text_len > MAX_CAPTCHA:

raise ValueError('验证码最长4个字符')

vector = np.zeros(MAX_CAPTCHA*CHAR_SET_LEN)

def char2pos(c):

if c =='_':

k = 62

return k

k = ord(c)-48

if k > 9:

k = ord(c) - 55

if k > 35:

k = ord(c) - 61

if k > 61:

raise ValueError('No Map')

return k

for i, c in enumerate(text):

idx = i * CHAR_SET_LEN + char2pos(c)

vector[idx] = 1

return vector

将向量转回text的代码为：

def vec2text(vec):

char_pos = vec.nonzero()[0]

text=[]

for i, c in enumerate(char_pos):

char_at_pos = i #c/63

char_idx = c % CHAR_SET_LEN

if char_idx < 10:

char_code = char_idx + ord('0')

elif char_idx <36:

char_code = char_idx - 10 + ord('A')

elif char_idx < 62:

char_code = char_idx- 36 + ord('a')

elif char_idx == 62:

char_code = ord('_')

else:

raise ValueError('error')

text.append(chr(char_code))

return "".join(text)

3,tensorflow中训练数据以一个batch为一个单位，batch_size为128就是128个图片矩阵集合，同样label也需要转化为128个向量的合集。

def get_next_batch(batch_size=128):

batch_x = np.zeros([batch_size, IMAGE_HEIGHT*IMAGE_WIDTH])

batch_y = np.zeros([batch_size, MAX_CAPTCHA*CHAR_SET_LEN])

# 有时生成图像大小不是(60, 160, 3)

def wrap_gen_captcha_text_and_image():

while True:

text, image = gen_captcha_text_and_image()

if image.shape == (60, 160, 3):

return text, image

for i in range(batch_size):

text, image = wrap_gen_captcha_text_and_image()

image = convert2gray(image)

batch_x[i,:] = image.flatten() / 255 # (image.flatten()-128)/128 mean为0

batch_y[i,:] = text2vec(text)

return batch_x, batch_y

接下来就是定义cnn的模型，我的理解是把这个模型当成一个黑盒，我们投入数据，模型算出一些参数weight和bias等等。如果有足够的计算资源我们可以选用一些经典的模型，慢慢调整以得到最佳模型。这里我们还是用这个开源的模型。

X = tf.placeholder(tf.float32, [None, IMAGE_HEIGHT*IMAGE_WIDTH])

Y = tf.placeholder(tf.float32, [None, MAX_CAPTCHA*CHAR_SET_LEN])

keep_prob = tf.placeholder(tf.float32) # dropout

# 定义CNN

def crack_captcha_cnn(w_alpha=0.01, b_alpha=0.1):

x = tf.reshape(X, shape=[-1, IMAGE_HEIGHT, IMAGE_WIDTH, 1])

# 3 conv layer

w_c1 = tf.Variable(w_alpha*tf.random_normal([3, 3, 1, 32]))

b_c1 = tf.Variable(b_alpha*tf.random_normal([32]))

conv1 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(x, w_c1, strides=[1, 1, 1, 1], padding='SAME'), b_c1))

conv1 = tf.nn.max_pool(conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

conv1 = tf.nn.dropout(conv1, keep_prob)

w_c2 = tf.Variable(w_alpha*tf.random_normal([3, 3, 32, 64]))

b_c2 = tf.Variable(b_alpha*tf.random_normal([64]))

conv2 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv1, w_c2, strides=[1, 1, 1, 1], padding='SAME'), b_c2))

conv2 = tf.nn.max_pool(conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

conv2 = tf.nn.dropout(conv2, keep_prob)

w_c3 = tf.Variable(w_alpha*tf.random_normal([3, 3, 64, 64]))

b_c3 = tf.Variable(b_alpha*tf.random_normal([64]))

conv3 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv2, w_c3, strides=[1, 1, 1, 1], padding='SAME'), b_c3))

conv3 = tf.nn.max_pool(conv3, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

conv3 = tf.nn.dropout(conv3, keep_prob)

# Fully connected layer

w_d = tf.Variable(w_alpha*tf.random_normal([8*20*64, 1024]))

b_d = tf.Variable(b_alpha*tf.random_normal([1024]))

dense = tf.reshape(conv3, [-1, w_d.get_shape().as_list()[0]])

dense = tf.nn.relu(tf.add(tf.matmul(dense, w_d), b_d))

dense = tf.nn.dropout(dense, keep_prob)

w_out = tf.Variable(w_alpha*tf.random_normal([1024, MAX_CAPTCHA*CHAR_SET_LEN]))

b_out = tf.Variable(b_alpha*tf.random_normal([MAX_CAPTCHA*CHAR_SET_LEN]))

out = tf.add(tf.matmul(dense, w_out), b_out)

#out = tf.nn.softmax(out)

return out

简单说一下我的理解，卷积层主要是为了选取局部的特征例如鸟的喙，2的弯曲等等。池化层的作用是为了减少计算量，我们将图片奇数行偶数列拿掉是不影响特征的选择的。cnn的每一层特征选择基本都差不多，第一行主要是提取轮廓，第二行第三行是一些细节。全连接层的作用是为了将所有的特征组合起来。

接下来定义训练入口函数：

# 训练

def train_crack_captcha_cnn():

output = crack_captcha_cnn()

loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=output, labels=Y))

# 最后一层用来分类的softmax和sigmoid有什么不同？

# optimizer 为了加快训练 learning_rate应该开始大，然后慢慢衰

optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss)

predict = tf.reshape(output, [-1, MAX_CAPTCHA, CHAR_SET_LEN])

max_idx_p = tf.argmax(predict, 2)

max_idx_l = tf.argmax(tf.reshape(Y, [-1, MAX_CAPTCHA, CHAR_SET_LEN]), 2)

correct_pred = tf.equal(max_idx_p, max_idx_l)

accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

saver = tf.train.Saver()

with tf.Session() as sess:

sess.run(tf.global_variables_initializer())

step = 0

while True:

batch_x, batch_y = get_next_batch(64)

_, loss_ = sess.run([optimizer, loss], feed_dict={X: batch_x, Y: batch_y, keep_prob: 0.75})

print(step, loss_)

# 每100 step计算一次准确率

if step % 100 == 0:

batch_x_test, batch_y_test = get_next_batch(100)

acc = sess.run(accuracy, feed_dict={X: batch_x_test, Y: batch_y_test, keep_prob: 1.})

print(step, acc)

# 如果准确率大于50%,保存模型,完成训练

if acc > 0.98:

saver.save(sess, "crack_capcha.model", global_step=step)

break

step += 1

这里我们需要定义一个loss函数，loss函数的作用是为了告诉模型计算出来的结果和预期结果相差有多远！优化器的选择一般就是Adam。这里的learning_rate我们可以在训练之初选择0.1，等loss平稳了再逐步减少。

后序

关于这个脚本的注解大体就是这样，其中有些函数是有相对应数学推导的，我只是简单方便理解的解释，如果有需要弄明白具体是怎么回事的，可以看台大李宏毅教授或者吴恩达的深度学习的视频。这类资料网上都很容易找到，感谢！！