2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。
您是否曾在新的商店或地點使用過您的信用卡才能拒絕?由于您收取的金額高于平時,因此銷售是否被阻止?
在合法交易中,消費者的信用卡經常出人意料地被拒絕。一個原因是消費者銀行使用的欺詐檢測技術錯誤地將銷售標記為可疑?,F在,麻省理工學院的研究人員采用了一種新的機器學習技術,大大減少了這些誤報,為銀行節(jié)省了資金,減輕了客戶的挫敗感。
使用機器學習來檢測財務欺詐可以追溯到20世紀90年代初,并且多年來一直在發(fā)展。研究人員訓練模型,從過去的交易中提取行為模式,稱為“ 特征 ”,表示欺詐行為。當您刷卡時,卡會對模型進行 ping操作,如果功能與欺詐行為相符,則銷售會被阻止。
然而,在幕后,數據科學家必須想到這些功能,這些功能主要集中在數量和位置的一攬子規(guī)則上。如果任何給定的客戶在一次購買時花費超過2,000美元,或者在同一天進行大量購買,則可能會被標記。但由于消費者的消費習慣各不相同,即使在個人賬戶中,這些模型有時也是不準確的:Javelin Strategy and Research 2015年的一份報告估計,只有五分之一的欺詐預測是正確的,錯誤可能導致銀行損失1180億美元的收入,拒絕客戶然后不使用該信用卡。
麻省理工學院的研究人員已經開發(fā)出一種“自動化特征工程”方法,可以為每個單獨的交易提取200多個詳細功能 - 例如,如果用戶在購買期間在場,以及某些供應商在特定日期花費的平均金額。通過這樣做,它可以更好地確定特定持卡人的消費習慣何時偏離常態(tài)。
通過對來自大型銀行的180萬筆交易的數據集進行測試,該模型比傳統模型減少了54%的誤報預測,研究人員估計可以為銀行節(jié)省190,000歐元(約合220,000美元)的收入損失。
麻省理工學院信息與決策系統實驗室(LIDS)的首席研究科學家Kalyan Veeramachaneni說:“這個行業(yè)面臨的巨大挑戰(zhàn)是誤報。”該論文的共同作者是該論文的共同作者,該論文在最近的歐洲會議上發(fā)表。用于機器學習。“我們可以說特征工程和[減少]誤報之間存在直接聯系。這對提高這些機器學習模型的準確性是最有影響力的。”
論文的共同作者是:主要作者Roy Wedge,前LIDS數據實驗室研究員; James Max Kanter '15,SM '15; 和Banco Bilbao Vizcaya Argentaria的Santiago Moral Rubio和Sergio Iglesias Perez。
提取“深層”功能
三年前,Veeramachaneni和Kanter開發(fā)了深度特征合成(DFS),這是一種從任何數據中提取高度詳細特征的自動化方法,并決定將其應用于金融交易。
企業(yè)有時會主持競爭,提供有限的數據集以及欺詐等預測問題。數據科學家開發(fā)預測模型,現金獎勵最精確的模型。研究人員參加了一次這樣的比賽,并獲得了DFS的最高分。
然而,他們意識到如果對幾種原始數據源進行培訓,該方法可以充分發(fā)揮其潛力。Veeramachaneni說:“如果你看一下公司發(fā)布的數據,它只是它們實際擁有的一小部分。” “我們的問題是,'我們如何將這種方法用于實際業(yè)務?'”
在國防高級研究計劃局的數據驅動的模型發(fā)現計劃的支持下,坎特和他的團隊在FeatureLabs上進行商業(yè)化,該技術開發(fā)了一個用于自動特征提取的開源庫,名為Featuretools,用于本研究。
研究人員獲得了一家由國際銀行提供的三年數據集,其中包括有關交易金額,時間,地點,供應商類型和所用終端的詳細信息。它包含來自約700萬張個人卡的大約9億筆交易。在這些交易中,大約122,000個被確認為欺詐。研究人員在該數據的子集上訓練和測試了他們的模型。
在培訓中,該模型尋找交易模式以及與欺詐案件相匹配的卡片。然后,它會自動將它找到的所有不同變量組合成“深層”功能,從而為每個事務提供高度詳細的視圖。從數據集中,DFS模型為每個事務提取了237個特征。Veeramachaneni說,這些代表了持卡人的高度定制變量。“說,周五,顧客通常會在星巴克花5美元或15美元,”他說。“這個變量看起來像'星期五早上在咖啡店花了多少錢?'”
然后,它為該功能帳戶創(chuàng)建一個if / then決策樹,該功能可以指向欺詐,也可以不指向欺詐。當通過決策樹運行新事務時,模型會實時決定交易是否是欺詐性的。
與銀行使用的傳統模型相比,DFS模型產生了大約133,000個誤報,而289,000個誤報,大約減少了54%。研究人員估計,除了檢測到的漏報數量較少 - 未檢測到的實際欺詐行為 - 可以為銀行節(jié)省大約19萬歐元。
堆疊基元
模型的主干包括創(chuàng)造性地堆疊的“基元”,簡單的函數,它們接受兩個輸入并提供輸出。例如,計算兩個數的平均值是一個基元。這可以與查看兩個事務的時間戳的原語組合,以獲得事務之間的平均時間。堆疊另一個原語來計算這些事務中兩個地址之間的距離,給出兩個特定位置的兩次購買之間的平均時間。另一個原語可以確定購買是在工作日還是周末進行,依此類推。
“一旦我們擁有這些基元,就不會阻止我們堆疊它們......你開始看到之前沒有想到的這些有趣的變量。如果你深入研究算法,那么基元是秘密的,”Veeramachaneni說。
Veeramachaneni指出,模型生成的一個重要特征是計算這兩個位置之間的距離,以及它們是親自發(fā)生還是遠程發(fā)生。如果有人在Stata中心親自購買東西,半小時后,在200英里以外的地方購買東西,那么欺詐的概率很高。但如果通過手機進行一次購買,則欺詐概率會下降。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。