• ?

    第四范式榮獲國內首個遷移學習算法大賽冠軍

    2017.6.8

    ?

    【2017年6月3日,北京】由前海征信主辦、科賽網承辦的“好信杯”大數據算法大賽落下帷幕,該賽事將賽題鎖定在遷移學習方向。僅由第四范式機器學習工程師羅遠飛一人組成的dandange團隊利用第四范式自主研發的分布式并行計算框架GDBT,在顯著減少特征工程工作量的情況下,取得了出色的模型效果。并在決賽答辯中展現了豐富的知識儲備,以精湛的算法和穩定的現場表現獲得大賽冠軍。

    ?

    據悉,該賽事歷時兩個月,共吸引242支隊伍共600多位選手參賽,選手們共提交145份模型作品、17份算法方案,最終10支團隊入圍決賽。

    ?

    正是看準了遷移學習的巨大潛能,本次算法大賽將遷移學習設為主題,參賽選手依據給定的4萬條業務信用貸款數據及4千條現金貸數據,建立現金貸業務的信用評分模型,將信用貸款數據所獲得的知識遷移到現金貸業務中。

    ?

    遷移學習的核心難點在于如何發現共同點,即如果發現源數據領域A和目標領域B之間的共同特征。此次在建模中,dandange通過多任務學習、TrAdaBoost(第四范式創始人兼首席執行官戴文淵于2007年發表的《Boosting for Transfer Learning》論文中提及)等不同的方法建模,最后通過加權平均的方式對多個模型進行融合,從而提升算法的精度和穩定性。

    ?

    由于特征工程和業務緊密相關,所以單純依賴特征工程來提升建模效果的遷移學習方案并不具備可擴展性。此次dandange在減少特征工程工作量的前提下,基于GDBT平臺,實現了完整的遷移學習解決方案。因該方案并未針對具體業務實施特征工程,而是更側重于遷移學習算法的優化,使該方案有較強的可擴展性,從而讓遷移學習的能力應用到不同的領域中。

    ?

    與其他參賽選手使用開源工具如XGBoost不同,dandange使用的算法均基于GDBT平臺。GDBT平臺是第四范式針對機器學習計算任務自主設計開發的分布式并行計算框架,在計算、通訊、存儲、災備等方面針對機器學習任務進行了深入優化,兼顧了開發效率和運行效率。且隨著計算能力的提升,該架構使模型的復雜度與投入的計算資源呈線性增長,與以往的架構相比,節省了大量的計算資源。

    ?

    此前,第四范式聯合創始人兼首席科學家楊強教授認為,遷移學習將是人工智能下一個重大技術風口之一。首先,機器學習需要在大量的數據中學習,因此數據的規模和質量非常重要。但在實際的商業及生活中,部分場景的數據樣本量較小,該類場景就需要遷移學習技術實現“AI化”。其次,遷移學習可以實現可靠性強的系統處理能力,做到舉一反三,融會貫通。如同我們掌握了一個知識,可以把它再推廣到其他的領域中去應用。第三,未來個性化的數據愈加重要,我們面臨如何能夠把一個通用的系統加上個性化的小數據,遷移到不同的個性化的場景中,因此遷移學習是必不可少的工具。DeepMind創始人Demis Hassabis也曾在《經濟學人》上公開表示Google正在探索遷移學習技術。

    ?

    目前,第四范式在遷移學習領域保持著全球絕對領先的優勢,作為遷移學習技術的全球領軍者——楊強教授在遷移學習領域的單篇論文引用數世界第一,戴文淵的論文引用數世界第三,也正因如此遷移學習被新華社等權威媒體稱為是“中國技術追趕發達國家的重要契機”。

    水中色