基于機器學習模型的制造業企業信用評級研究

2021-10-04 20:07王燦華
債券 2021年9期
關鍵詞:企業信用樣本評級

王燦華

摘要:本文基于可得數據,采用特征工程方法提取影響信用資質的核心因素,并將其作為自變量構建制造業企業信用違約預測的Logistic回歸模型和信用評分卡。實證結果顯示,企業性質、銷售費用/營業收入、流動資產周轉率、帶息債務/全部投入資本等六個指標對違約概率影響顯著。通過建立機器學習模型評級和外部評級之間的映射表,有望實現風險企業排雷、信用價值挖掘、信用風險定價等功能。

關鍵詞:機器學習特征工程 制造業企業信用評級

得益于大數據和非結構化數據處理技術的發展,基于大數據的機器學習模型應用日益廣泛。機器學習算法是根據特征對事物進行分類,本質上是降熵過程。企業信用評級是利用不同的信用評分或評級對樣本進行分類,進而實現將企業違約概率從等概率分布轉換為非等概率分布。非等概率的熵低于等概率的熵,信用評級降熵可用于評價企業信用資質。從功能和目標的角度看,將機器學習模型應用于企業信用評級具有一定優勢,但需要以大數據為基礎,以保證學習效果和參數估計準確,避免過擬合。考慮到難以具備海量企業樣本數據,在建模時,使用有較少參數估計需求的Logistic回歸算法更為合適。為減少變量共線性對模型估計的影響,筆者采用特征工程方法提取信用資質驅動核心因子入模。從行業看,制造業企業違約樣本數居行業之首,負樣本數量相對充足。將特征工程和機器學習方法應用于制造業企業信用評級在技術和數據方面具有較好的可行性。

指標選取、數據來源及特征工程

在樣本選擇方面,筆者選擇證監會行業分類標準下的制造業,訓練正樣本為截至2021年一季度末有存量債券、未發生違約事件且評級在A級以上的企業主體,共682家;負樣本為2014—2019年發生違約事件或者評級在BBB級及以下的企業主體,共56家。正負樣本之比約為12:1。將外部評級為BBB級及以下的企業視為負樣本基于兩方面考量:一是BBB級以下屬投機級,違約風險較高,考慮到外部評級實行發行人付費模式,為審慎起見,將正負切分線上調至BBB級;二是多數金融機構限制準入外部評級在A級及以下的債券,認為BBB級及以下債券的違約風險較高。

在觀察期和表現期選擇方面,考慮到債券市場的價格敏感度高于評級公司跟蹤評級以及真實違約消息,筆者將債券估值偏離度大于10%、評級低于A級、首次違約等三個事件發生之前作為樣本企業觀察期,將觀察期數據作為Logistic回歸自變量數據。觀察期之后為表現期,將表現期違約與否作為因變量數據。

為客觀地基于機器學習模型預測制造業企業違約情況,需構建信用資質影響因子矩陣。考慮到信用債發行主體樣本總量相對有限,且待估參數過多可能影響估計結果,筆者將企業性質和30項財務指標作為原始指標,具體包括:一是盈利能力指標6項[銷售凈利率、銷售費用/營業總收入、營業利潤/營業總收入、稅息折舊及攤銷前利潤(EBITDA)/營業總收入、經營活動凈現金流/利潤總額、凈資產回報率的增長率];二是現金流量指標4項(經營活動產生的現金流量凈額/營業總收入、經營活動產生的現金流量凈額占比、投資活動產生的現金流量凈額占比、投資活動現金凈流量/營業總收入);三是營運能力指標4項(存貨周轉天數、應收賬款周轉率、流動資產周轉率、總資產周轉率);四是償債能力指標5項(長期負債占比、EBITDA/利息費用、經營活動凈現金流/帶息債務、經營活動凈現金流/總負債、貨幣資金/短期債務);五是成長能力指標7項(營業總收入同比增長率、利潤總額同比增長率、凈利潤同比增長率、營業利潤同比增長率、凈資產同比增長率、營業總收入3年復合增長率、凈利潤2年復合增長率);六是資本結構指標4項(資產負債率、長期資本負債率、帶息債務/全部投資資本、流動負債/負債總計)。

利用特征工程方法從原始指標篩選入模變量。在進行特征工程之前利用相關性分析和VIF檢驗剔除了方差膨脹因子VIF大于10的指標。特征工程首先對原始指標進行分箱,透過卡方分箱方法計算不同指標的證據權重WOE和信息量IV值,如表1所示,最終選取IV值大于0.2的變量入模,確保入模變量具有較好的違約預測能力。

機器學習模型:Logistic回歸及結果

Logistic回歸模型將多元線性回歸通過Sigmoid函數轉為違約概率預測的計算函數,因變量是樣本違約與否的結果,自變量為特征工程篩選出的22個特征變量。通過回歸結果的p值測量回歸系數的顯著性大小,結合逐步回歸確定最終入模指標。筆者選擇顯著性較高(p值小于5%)的特征變量。對樣本按照7:3的比例隨機分為訓練集和測試集,訓練集回歸結果如表2所示。

從回歸結果來看,制造業企業信用影響因子涵蓋企業性質、盈利能力、營運能力、資本結構、償債能力和成長能力中的6個指標。如圖1所示,結合特征工程分箱及不同箱體的WOE值分析內在機理。預期內的結論是:影響信用資質的核心指標包括企業性質、流動資產周轉率、經營活動凈現金流占負債的比例、有息負債占投入資本的比重、凈利潤復合增長率。超預期的結論是:銷售費用占營業收入的比重越低越容易違約。這說明對于制造業企業來說,銷售收入可提高盈利和償債能力。

如表3所示,訓練集和測試集的KS值分別為0.67和0.65,顯著大于0.3,說明模型具有良好的等級區分能力;由表4可見,訓練集和測試集的AUC值分別為0.90和0.88,顯著高于0.75的界限值,說明模型具有較高的精準性;表4所示測試集的混淆矩陣顯示模型應用于測試集的效果較好,違約預測精準度高達73.33%。

制造業企業信用評級模型及評分卡

基于Logistic回歸模型及參數估計結果,計算制造業企業的違約概率p,再基于p構建信用評級評分卡,評分Score=500-20?log(p/1-p),即以500分為基準分,以20分為單一等級分數區間,違約概率越高,則評分越低。基于上述邏輯構建制造業企業的信用評分卡,如表5所示。基于評分卡對存量738家制造業企業進行信用評級打分,以30分劃分一級,將企業分成12個等級,結果如表6所示。10級以上企業占比為13.69%,與外部評級相比,模型更具區分度。外部評級為AA級及以上的企業占比為70%,AAA級占比高達22%,集中度較高,區分度較低。

在信用違約預測方面,機器學習模型表現較好,違約預測命中率達75%。如表7所示,2020年下半年至2021年一季度實際違約企業4家,其中3家基于2019年數據的評級結果低于6級,基于2018年數據的評級結果均低于7級,僅B公司的評級結果為9級。

研究結果的潛在應用

將制造業企業外部評級和基于機器學習方法的信用評級建立二維映射表,如表8所示,單元格內容代表外部評級為該列對應外部等級和機器學習模型評級為所在行對應模型等級的企業家數。映射表可用于三個方面。一是風險企業排雷,當企業外部評級低于AA-級且模型評級低于5級時,可認為信用風險較高,應避免投資。二是信用價值挖掘,當企業外部評級在AA-級及以下,但模型評級為9級及以上時,可進一步研究,挖掘被市場誤判帶來的信用溢價。三是警惕市場高估,當企業外部評級在AA-級以上,但模型評級為5~9級時,可考慮結合進階信用研究并利用債券借貸等做空機制參與做空。

學習模型結果還可用于信用風險定價和內部評級檢驗。利用模型評級結果計算不同等級的違約概率,并將違約概率應用于不同信用等級制造業企業的信用風險定價。模型評級還可為機構內部評級提供交叉驗證和補充,助力內部評級方法的改進和完善。

注:1.單元格內數字代表同時具有相應外部評級和模型評級的企業數量

2.橙色區域為可選優質企業區,綠色區域為信用價值挖掘區,深藍色區域為市場高估區,紅色區域為排雷區

作者單位:東莞銀行資產負債管理部

責任編輯:陳森? 鹿寧寧

猜你喜歡
企業信用樣本評級
工行企業信用報告可線上查詢
能源局試點承裝修試電力設施企業信用監管
直擊高考中的用樣本估計總體
隨機微分方程的樣本Lyapunov二次型估計
分析師最新給予買入評級的公司
分析師最新給予買入評級的公司
財務報表分析在企業信用評價中的運用
基于支持向量機的測厚儀CS值電壓漂移故障判定及處理
創投概念股評級一覽表
創投概念股評級一覽表
中文天堂最新版在线www-bt天堂网www天堂-电影天堂