少林寺_少林功夫_嵩山少林寺

朝阳35处少林七十二绝技特征工程进阶

发布时间:2020-9-29 13:08:51   点击数:
皮肤病最好医院 http://pf.39.net/bdfyc/140106/4322700.html

处座在上一篇文章《数据科学的江湖:剑宗与气宗》之中说到:数据科学的江湖之争,剑宗气宗各有擅场,而武功的最高境界其实是是内外兼修。通常来说,这里的招式是指包括特征生成、特征变换、特征筛选、模型训练、模型筛选在内的编码实现能力,而内力则是在这一系列过程中体现出的对业务和数学原理的理解。《笑傲江湖》中说到,“剑宗功夫易于速成,见效极快。大家都练十年,定是剑宗占上风”。处座也在上篇文章中讲:在大部分企业,BOSS并没有足够的耐性,你还没有气宗出师就被逐出门墙了。于是,处座将从数据建模中的特征工程开始,一点一点探讨数据科学招式的奇妙。等剑宗小有所成,再继续锤炼内力。

而相对来说,特征工程中的特征筛选部分一方面方法更为固定,另一方面本身特征筛选的过程也和模型训练过程息息相关。所以限于篇幅,本文以征信评分为例(毕竟是处座的看家本领),着重探讨特征的生成和变换,希望和各位一同练就绝世武功。

太祖长拳——专家特征

聚贤庄一战,中原各路英雄围攻乔峰,乔峰使出一套太祖长拳战尽天下英雄而不败。早年,宋太祖赵匡胤也就这样以一对拳头打下了大宋锦绣江山。再到乔峰时候,“太祖长拳”和“太祖棒”已经成为了当时武林中最为流行的武功。江湖人士“就算不会使的,看也看得熟了”。

专家特征就是这样一种武功。简单说,专家特征是根据业务专家的业务知识,将信息用数据表示的结果。听上去非常简单,熟悉业务的人士大多都可以举出多种业务相关的特征信息。然而实则易懂难精,面对复杂的业务逻辑,真正找到本质的特征非天赋异禀或者长期的业务经验积淀不可。就像寻常武林人士都可以出来耍上两手,但只有乔峰这样内力精湛、武学造诣巅峰造极的武林高手一招打出,才能使人情不自禁的喝采!

以个人征信评分为例,如果问一个风控专家,如何判断一个人是否会按时偿还贷款。专家回答:古语有云,“有借有还,再接不难”,我会先看看这个人过往的贷款记录。所谓的专家特征,就是把数据库中客户贷款偿还历史汇总、加总、抽象为一个数字。这个数字可能是0-1分类型,如过去是否有逾期记录,是则为1,否则为0;也可能是连续型的,如历史最大的连续逾期日长,客户曾经出过59天忘记还信用卡账单。这个称之为原始特征,直接根据专家经验提炼。

除了原始特征以外,我们还可以对原始特征进行进一步的特征转换。风控专家说,我们已经提取了客户若干负债水平,如房贷总金额x1,车贷总金额x2,消费贷总金额x3,但是,我们认为客户整体的负债水平比在不同产品类型上的负债水平更为重要,于是我们生成了x1+x2+x3这样一个新的加总特征x4,这种方法称之为线性组合特征。

更多研究后风控专家又发现,相同整体负债水平的人,现有信用额度高的用户明显面对风险有更好的抗压能力。对相同信用额度的人,长期保持在很高负债水平的人也更多的没有能力按时偿还。因此,通过相除总体负债金额x4,和信用额度x5,得到信用额度使用率。这种无法通过加减法简单计算的特征,统称为非线性组合特征。根据业务性质的不同,非线性组合特征通常包括:(以下x,y都是原始特征)

1.比例特征,新特征为x/y

2.多项式特征,新特征为x^2,x*y,y^2

3.对数特征,新特征为log(x),log(y)

美国拥有完善的信用体系,在长期的风控实践中,FICO开发的一套个人信用评级法,已经得到社会广泛接受。这个模型所用到的特征本质上都属于专家特征,大致分为如下五个维度:

FICO五个维度及所占权重

这些维度的提取都没有用到复杂的数学和高深的工程学知识,而且FICO建模中通常也使用的是基于WOE特征转换的逻辑回归。这些简单方法的组合,却在对量化精度要求很高的金融风控行业取得了很好的效果。这完全佐证了我们上一篇的观点:随着对业务的熟悉和对模型本质理解的加深,简单的招式也可以取得很好的效果,但这个前提是深厚的业务理解和极高的业务抽象能力。

一百零八大罗汉阵——递归决策树提取特征

如果说太祖长拳体现了大道至简的武学哲学,那么一百零八大罗汉阵可能是走向了另一个极端:人多欺负人少。在传统业务中,变量维度不高,训练数据不多,逻辑回归作为一种广义线性模型,有着稳定性强、在特征提取恰当的情况下效果不错的优点。进入到大数据时代,线性模型学习能力有限的缺点暴露出来。想要通过逻辑回归得到一个很好的效果,通常需要大量专家分析和人工干预,通过特征工程预先分析出有效特征和进行特征的变换。缺点是耗时耗力,效果也未必比机器做得好。

递归决策树提取特征,就是这样一种思路。通过使用递归决策树模型原始特征和标签,再根据训练好的决策树模型里面子树结构的分支逻辑作为提取新特征的方法。这种方法往往生成了大量的新特征,再把这些弱的子模型提取的特征当做新的特征和原始特征放在一起,重新训练,以提高模型效果。下图中,每个决策树都会把每个原始数据映射到唯一的叶子节点上,具体是哪一个叶子节点可以用一列(1,0,…,0)这样的向量表示。比如图中,第一颗子树在第三个叶子,则新特征为(0,0,1,0,0,0,0,0);类似的,第二颗子树生成特征是(0,0,0,1,0,0)。

如来神掌——深度学习特征

将深度学习特征称之如来神掌,倒不是说这两者有什么特别的相似之处。只是作为星爷粉丝,感觉只有如来神掌能配得上深度学习特征的强大威力。GBDT提取特征虽然已经实现了高阶特征的自动组合,取得了很好的效果。但是由于GBDT算法的特性,在面对高维稀疏矩阵的时候效果并不好。因为为了控制过拟合,GBDT通常会限制叶子节点的样本数目,稀疏矩阵经过少量分支就已经到达了减枝条件,也就无法体现深度挖掘组合关系的特点。在高维稀疏矩阵建模的时候,可能对某一个稀疏特征做过一次分支以后,其中一个叶子上的样本数据就少到无法继续挖掘,于是就会遗漏这部分信息。

但是在大数据信用评估领域,如何解决高位稀疏矩阵建模恰好是最具挑战的业务痛点。

这个时候深度学习就闪亮登场了。使用深度学习框架做特征提取,最常用的算法是AutoEncoder算法。AutoEncoder,即自动编码机(结构如下图),可以实现在没有人工干预的情况下自动将稀疏特征编码。通过一个深度学习网络结构,用特征经过一系列网络结构预测自己。这样的模型设定通过设定最优化目标是是否可以通过自己预测自己,保证在降低数据噪音、降低数据维度的同时,最大限度的保留原有数据的信息量。下图中隐藏层就是生成特征。

倚天屠龙——特征哪里找

对比一下,特征提取和转换方法各有优劣:

1.专家特征的特点在于实施简单,但是需要长时间的业务实践经验和深度的分析,耗时更多的实在业务分析上。

2.GBDT特征适合深度挖掘饱和度较高、数据量较大的

3.深度学习特征则更为强大,在保留GBDT特征挖掘能力的基础上,还兼有稳定性更强,函数形式更丰富的优点,在大规模稀疏矩阵上的优势更是独一无二。

还是那句老话,没有最厉害的武功,只有最适合的招式,乔峰也是因地制宜的使用太祖长拳三十三式才能打败天下无敌手。另一方面,练就了无上武功,英雄也要宝剑配,数据科学行业最厉害的武器就是数据。很多时候,个人信用评估对于信贷公司最大的痛点在于没有数据来源。前海征信公司借力平安集团的数据积累优势和数据建模经验,推出了联合建模平台,将海量金融标签与合作伙伴共同建模,助力提升风控模型效果。

长路漫漫,希望各位少侠女侠都可以早日手持屠龙宝刀练就绝世武功。先不说了,处座继续回公司打坐去了,以后有机会再来分享《易经洗髓:人工智能中的数学》。

枯藤昏鸦

?本文作者介绍:

枯藤昏鸦,一个爱写代码的伪理想主义者,讲情怀的科学家。

▼▼▼

为了促进行业从业人员之间的学习和交流,目前已开通1.贷前风控、2.反欺诈、3.贷后不良资产处置、4.FinTech大数据技术等四个

转载请注明:http://www.wuzhonghr.com/slhj/10300.html

------分隔线----------------------------