在对图片文字识别中发现图片的质量对识别结果有很大影响。
在日常拍摄的图片大多存在着旋转和透视变换的问题,之前尝试过几何方法和一些深度学习的模型。但几何方法效果不好,深度学习的模型大小太大,不方便移植到移动端。
通过利用前期工作找到的深度学习模型的数据集,我们基于 PaddlePaddle 平台的 PaddleSeg 重新训练出了一个图像语义分割模型。
该模型可以找到图片中的文字区域,我们通过对文字区域的处理实现了对图片增强的目的。
PaddleSeg 是基于飞桨 PaddlePaddle 的端到端图像分割套件,代码开源,基于该套件训练出的模型可以移植到移动端。
MobileSeg 模型是 PaddleSeg 的超轻量级语义分割模型。
模型大小: 12 MB
模型处理对图片大小的影响:部分图片处理后会减小或不变,部分图片处理后会增大,但增大幅度在30%~50%区间
模型处理速度:
PS: FPS 指的是每秒可以处理的帧数,即每秒可以处理的图片
代码运行速度可以一秒处理一张图片
以下图片是在之前测试中难以被矫正的图片
原图片
模型识别的文字区域
代码处理后的文字框
矫正前后对比
原图片
模型识别的文字区域
代码处理后的文字框
矫正前后对比
原图片
模型识别的文字区域
代码处理后的文字框
矫正前后对比
原图片
模型识别的文字区域
代码处理后的文字框
矫正前后对比
原图片
模型识别的文字区域
代码处理后的文字框
矫正前后对比
原图片
模型识别的文字区域
代码处理后的文字框
矫正前后对比
上一篇:上海到苏州火车票价(南京到上海火车票价) 上海到苏州火车票价 苏州到上海票价
下一篇:二次开发:基于ssm的流浪猫狗救助系统(springmvc spring mybatis mysql jsp)1102