基于深度學習的熱軋鋼坯表面不同字體的字符識別研究

2021-10-09 23:26劉康錢煒楊康
軟件工程 2021年10期
關鍵詞:深度學習

劉康 錢煒 楊康

摘? 要:同一熱軋鋼坯生產線上會存在鋼坯表面字符的字體不一致的問題,而利用深度學習YOLOv3算法訓練不同字體的字符數據集,嚴重影響了整體字符的識別率,雖然原始的YOLOv3網絡結構適用性較好,但對噴印字符識別區域沒有針對性。為解決以上問題,根據噴印字符相對較小且沒有大小形態變化的特性,改進了YOLOv3模型結構,僅保留預測小、中目標的網絡結構,在保證較高檢測精度的同時,縮小模型容量;采用對不同字體字符分開訓練的識別方式,得出針對性分開訓練比混合字體整體訓練的識別準確率高的結論。結果表明,本方法比不同字體整體訓練的識別準確率提高了7%以上,可在工程上進行應用。

關鍵詞:深度學習;字符識別;熱軋鋼坯;YOLOv3

中圖分類號:TP301.6? ? ?文獻標識碼:A

Research on Character Recognition of Different Fonts on the Surface of

Hot Rolled Steel Billet based on Deep Learning

LIU Kang1, QIAN Wei1, YANG Kang2

(1.School of Mechanical Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;

2.Shanghai Baosight Software Co.,Ltd., Shanghai 201999, China)

1010898612@qq.com; 1458515538@qq.com; yangkang@baosight.com

Abstract: Aiming at character fonts inconsistency on the billet surface in the same hot-rolled billet production line, deep learning YOLOv3 algorithm is used to train character data sets of different fonts, which seriously affects the overall character recognition rate. Although the original YOLOv3 network structure is quite applicable, it is not targeted at the recognition area of printed characters. In order to solve the above problem, this paper proposes to improve YOLOv3 model structure according to the characteristics of relatively small print characters and no changes in size and shape. Only the network structure for predicting small and medium targets is retained, and the model capacity was reduced while ensuring high detection accuracy. It is concluded that the recognition accuracy of the targeted separate training is higher than that of the whole training of mixed fonts. The results show that the recognition accuracy of this method is more than 7% higher than that of the whole training of different fonts, and it can be applied in engineering.

Keywords: deep learning; character recognition; hot-rolled steel billet; YOLOv3

1? ?引言(Introduction)

計算機視覺技術的迅速發展,使其得以在工業自動化生產過程中發揮著極大的推動作用,大大提高了生產效率和產品質量[1]。在鋼材工件等金屬工業產品生產中,每個生產工件上會采用不同的字符組成來標注其專屬的生產標號,從而便于對其生產的監控、配套的管理和質量的追蹤。目前,采用傳統OCR技術識別字符的準確率還不理想,仍需人工讀取工件上的生產標號再次確認并記錄的解決方案耗費人工和時間。為實現熱軋鋼坯生產線達到較高的自動化水平,通過物料跟蹤系統對送板、軋輥、裝鋼、出鋼等工序進行全線數據跟蹤,其中數據跟蹤發揮著至關重要的作用,而字符識別的準確率直接影響到數據跟蹤[2]。車間物料跟蹤的范圍是從鋼坯入爐,經加熱爐、軋線軋制、上冷床至打捆稱重為止。物料跟蹤信息包括批號、軋件號、爐號、鋼種、產品規格、過程數據、生產時間等,每個軋件的跟蹤信息自動傳輸到后部工序。系統將整條軋線劃分成若干個跟蹤區域,對物料按照先進先出的原則實現連續實時跟蹤,使實際物料在每個區域都能及時準確地顯示出來[3]。因此,在復雜的生產現場環境下提高鋼卷號識別率十分迫切。在現階段研究與應用中,對于單一字體的噴印字符識別準確率比較理想,可對于混合字體的識別準確率還達不到技術要求。

如今YOLO系列的算法已有五個版本,依次為YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5,但本文用到YOLOv3算法,因為YOLO系列算法中是從YOLOv3開始被廣泛應用的,后面出的YOLOv4、YOLOv5是在YOLOv3基礎上的進一步改進,是在細枝末節上進行的優化,沒有YOLOv3在工業界的普遍適用性好[4]。該網絡采用Darknet53作為骨干網絡[5],由C語言實現,容易安裝,沒有任何依賴項,移植性非常好;支持CPU與GPU兩種計算方式,也適用于生產線現場無顯卡的硬件設備;具有輕量型、靈活性的特性,適合用于來研究底層,可以更為方便地從底層對其進行改進與擴展。

因此,本文依據不同字符字體圖像特征和識別任務的需求,采用基于YOLOv3的改進神經網絡分開訓練數據集進行對應字符識別和檢測分析,旨在保證識別速度的同時,準確地實現鋼坯表面噴印字符識別以便進行物料跟蹤。

2? ?YOLOv3網絡模型(YOLOv3 network model)

2.1? ?網絡結構

我們選用Darknet53作為目標檢測網絡YOLOv3的骨干網絡,因為其可保留原圖的大部分信息,能提取待訓練圖像的目標特征,其中:(1)CBL由卷積層(Conv)、批量歸一化(Bn)與Leaky_relu激活函數三者組成,是該網絡結構中的最小組件。(2)Res unit:借鑒Resnet網絡中的殘差結構,將殘差模塊集成到網絡中,得到更深的網絡構建,有利于檢測小目標。(3)ResX:由一個CBL和X 個殘差組件構成,表示這個殘差塊(res_block)里含有多少個Res unit,是YOLOv3網絡結構中的大組件。YOLOv3的骨干網絡Darknet53具有殘差結構,該設計有效緩解了深層網絡的梯度彌散后梯度爆炸問題,提升了檢測性能,每個殘差模塊由2 個卷積層和1 個shortcut連接。(4)concat:張量拼接,將Darknet中間層和后面的某一層的上采樣進行拼接,對應分支的特征圖融合。拼接的操作和殘差層add的操作是不一樣的,拼接會擴充張量的維度,而add只是直接相加不會導致張量維度的改變[6],如圖1所示。

2.2? ?網絡結構的改進

原始YOLOv3網絡結構采用三個不同尺度的特征圖進行目標檢測任務的原因是考慮原始圖像中可能包含的目標物體大小不確定,對于這一問題,YOLOv3算法的解決方法是在YOLOv2曾采用passthrough層結構[7]來檢測細粒度特征的基礎上,對原始圖像使用不同的粒度進行劃分網格,更進一步采用了三個不同尺度的特征圖來進行對象檢測。例如,劃分為13×13、26×26、52×52的網格,其中13×13的大網格用于檢測相對大的目標物體,26×26的網格用于檢測中等的目標物體,52×52的網格用于檢測相對小的目標物體,這是與主干網絡輸出的三種特征圖的大小是一一對應的[4]。

結合實際應用情況,鋼坯表面噴印字符相對較小,字符檢測任務針對的是小目標訓練。YOLOv3采用多尺度來對不同尺寸的目標進行檢測計算復雜度較高,對該噴印字符識別應用上有些浪費計算機算力,因此針對大小幾乎無變化的噴印字符不需要過多的尺度進行訓練,我們在保證較高識別準確率的同時,改進YOLOv3網絡結構,僅采用兩個不同尺度的特征圖來進行對象檢測,如圖2所示。

2.3? ?回歸函數

我們知道,要實現多類別的分類,有兩種改進普通的logistic回歸的方式:

(1)直接根據每個類別,分別建立一個二分類器,帶有這個類別的樣本標記為1,帶有其他類別的樣本標記為0。如果有k 個類別,那么就可以得到k 個針對不同標記的普通的logistic分類器。

(2)修改logistic回歸的損失函數,使其適應多分類問題。這個損失函數不再只考慮二分類的損失,而是具體考慮每個樣本標記的損失,這種方法就叫作Softmax回歸,即logistic回歸的多分類版本,可將多分類的結果以概率的形式呈現[8]。

原YOLOv3網絡會產生三種不同的特征圖,將被分別傳入logistic層中,進而運算產生模型的輸出。而logistic回歸是針對二分類問題的,鋼坯表面噴印字符檢測識別是互斥的多分類問題,在該目標檢測任務中,為了能去除無效預測框,保留最準確的預測框,同時根據噴印字符實際情況,即不存在多個目標物體重合的情況,因此普通logistic回歸就不適用了,我們采用的是Softmax回歸,介紹如下。

對于輸入數據有k 個類別的分類問題,先定義邏輯回歸假設函數[9],可以理解為Softmax回歸估算每一類的概率,詳見式(1)。

(1)

其中,是模型的參數,p是類別概率值。

Softmax回歸算法的代價函數[10](其中),詳見式(2)。

(2)

其中,是回歸的模型參數矩陣,c是類別,m是已標記的樣本數,是一個指示性函數,值為真即等于1,值為假即等于0。

通過式(2),可將logistic回歸的損失函數改為如式(3)所示。但對于,Softmax回歸與logistic回歸的計算方式不同,Softmax回歸是logistic回歸的一般形式[9]。

(3)

其中,是回歸的模型參數矩陣,c是類別,m是已標記的樣本數,p是類別概率值;是一個指示性函數,值為真即等于1,值為假即等于0。

3? ?實驗及結果分析(Experiment and result analysis)

3.1? ?實驗環境

本文實驗平臺環境配置情況如表1所示。

3.2? ?數據集構建

圖像數據集使用熱軋現場拍攝作為訓練識別噴印字符的數據樣本,根據字體不同分開統計出兩個數據集,每個數據集都包含10 種數字符號,采集圖像存儲格式為bmp,分辨率為2592×2048。采集的兩種字體的字符圖像分開整理成各自的訓練數據集,兩種原始字符圖像如圖3所示。數據集的標注采用labelimg軟件,具體對圖片目標區域內的單個字符依次進行標注。labelimg對字符圖像標注完成后,會生成與之對應的XML文件,隨后將XML文件里面的標注框名稱和目標邊框位置信息轉換為txt文件。

3.3? ?訓練結果

先利用本文網絡模型對一種數據集進行訓練,訓練過程中的損失變化情況如圖4所示。由圖4顯示的訓練過程迭代次數的平均損失曲線發現,訓練迭代1.5萬次后平均損失函數值降低至0.35;隨著迭代次數的增加,平均損失函數值基本保持不變,趨于穩定。

分別用本文網絡、原始YOLOv3網絡與YOLOv3-tiny網絡對相同數據集進行訓練,訓練好的模型測試相同測試集,結果如表2所示。

實驗結果表明,采用本文改進的YOLOv3網絡表現相對較好,在原始YOLOv3網絡借鑒殘差網絡結構基礎上,形成了更深的網絡層次,去除多余多尺度檢測,提升了mAP(各類別AP的平均值)及小目標檢測效果。在速度相當的情況下,本文網絡的識別準確率比原始YOLOv3網絡與YOLOv3-tiny網絡要高,得到了提升。網絡的Bn層與批量大小密切相關,批量越小訓練時受到的干擾越多,不同的訓練批量數下損失函數收斂速度略有不同,且識別準確率也有影響,批量統計估算不準確時,在識別任務中采用小的批量數時,誤差會迅速增加。用在訓練大型網絡和將特征轉移到計算機視覺任務中時受內存消耗限制,只能使用小的訓練批量數。改進的網絡結構可以減小此方面的影響,提升訓練批量數,減小誤差。

使用本文改進的網絡結構將統計的兩種數據集放置一起混合訓練,對混合訓練與分開訓練得到的模型測試相同測試集,統計結果如表3所示。顯然,分開訓練效果最好。

4? ?結論(Conclusion)

本研究在Darknet53作為骨干網絡的基礎上,確保YOLOv3對不同尺度預測模塊正常工作,結合鋼坯表面噴印字符大小特征去除多尺度預測對大目標的作用,只保證對無大小變化的小目標檢測無影響,減小因網絡結構大而占用的計算內存,來提高批量訓練的數量,在訓練過程中具有很好的收斂性,訓練速度也有一些提升,提升了識別準確率。網絡中采用10 類別的Softmax回歸層,適用多分類問題,有針對性地降低類別損失函數,提升本文網絡的訓練速度和識別準確率。最后證實不同字體的字符分開訓練比混合訓練的識別準確率更高,實際熱軋現場應用分開訓練模型。但本文改進的網絡結構仍存在一些問題:對噴印模糊字符的圖像進行特征提取效果不佳,還需提高模型的泛化能力及小樣本特征提取能力。下一步準備引入圖像馬賽克等數據增強方法,增加樣本的復雜程度,提升網絡對復雜鋼板表面字符圖像的識別精度。

參考文獻(References)

[1] 武宗茜,丁紹榮,溫志強,等.巨能特鋼棒材智能化生產管理系統[J].冶金自動化,2021,45(02):30-36.

[2] 王排書.熱軋鋼坯編號識別與表面質量檢測系統研究與設計[D].錦州:遼寧工業大學,2020.

[3] 賀笛.深度學習在鋼板表面缺陷與字符識別中的應用[D].北京:北京科技大學,2021.

[4] 蔡哲棟,應娜,郭春生,等.YOLOv3剪枝模型的多人姿態估計[J].中國圖象圖形學報,2021,26(04):837-846.

[5] 何帥.卷積神經網絡在手寫數字識別中的應用[J].電腦知識與技術,2020,16(21):13-15.

[6] 王輝,張帆,劉曉鳳,等.基于DarkNet-53和YOLOv3的水果圖像識別[J].東北師大學報(自然科學版),2020,52(4):60-65.

[7] SHEN Z J, ZANG S F, WU Q T. Weighted balanced distribution adaptation based on a softmax regression model for transfer learning[J]. Scientific Journal of Intelligent Systems Research, 2021, 3(5):27-36.

[8] 王玉,王夢佳,張偉紅.基于CNN和Group Normalization的校園垃圾圖像分類[J].吉林大學學報(信息科學版),

2020,38(06):744-750.

[9] 徐德榮,陳秀宏,田進.稀疏自編碼和Softmax回歸的快速高效特征學習[J].傳感器與微系統,2017,36(05):55-58.

[10] 孟佩,曹菡,師軍.基于Softmax回歸模型的協同過濾算法研究與應用[J].計算機技術與發展,2016,26(12):153-155,159.

作者簡介:

劉? ?康(1996-),男,碩士生.研究領域:機器視覺.

錢? ?煒(1964-),男,碩士,副教授.研究領域:機器人機構學,機械設計及理論,CAD技術.

楊? ?康(1985-),男,碩士,工程師.研究領域:智能裝備,金屬表面缺陷檢測、分類.

猜你喜歡
深度學習
一種端到端的個體出行軌跡重識別的深度學習方法
構建說理課堂 促進學生深度學習
基于深度教學理論的高中物理教學開展策略
基于數學史:軌跡概念教學中的問題串設計
基于小學數學深度學習的有效途徑分析
小學數學“深度學習”的實踐探索
基于深度學習的小學英語自然拼讀的教學策略研究
游戲化教學在小學數學教學中的應用與研究
英語詞匯深度學習策略
例談促進小學英語課堂深度學習的有效方法
中文天堂最新版在线www-bt天堂网www天堂-电影天堂