IEEE ICDM 2023數(shù)據(jù)挖掘研究頂會落幕,網(wǎng)易易盾獨占鰲頭

近日,IEEE ICDM 2023圖學(xué)習(xí)挑戰(zhàn)賽決賽圓滿落幕。本次比賽由螞蟻集團與浙江大學(xué)聯(lián)合主辦,旨在通過深度圖學(xué)習(xí),解決社區(qū)發(fā)現(xiàn)和團伙挖掘等風(fēng)險問題。

歷時4個多月,經(jīng)過初賽、復(fù)賽、決賽“三級賽制”的角逐和專家評選,網(wǎng)易易盾數(shù)據(jù)挖掘團隊在該項任務(wù)中,以綜合指標(biāo)第一名的成績擊敗來自海內(nèi)外的數(shù)十支隊伍,在Adjusted Rand Score(ARI)評價指標(biāo)上達到0.5006,大幅領(lǐng)先第二(0.425)/三名(0.368)對手, 并于技術(shù)答辯階段憑借方法創(chuàng)新性、工業(yè)應(yīng)用價值等方面的優(yōu)異表現(xiàn),斬獲大賽唯一一項一等獎。

IEEE ICDM 2023數(shù)據(jù)挖掘研究頂會落幕,網(wǎng)易易盾獨占鰲頭

IEEE ICDM(IEEE International Conference on Data Mining)是全球領(lǐng)先的數(shù)據(jù)挖掘研究會議之一,與ACM SIGKDD和SIAM SDM同列為數(shù)據(jù)挖掘領(lǐng)域的三大頂級國際會議。ICDM提供了一個展示原創(chuàng)研究成果的平臺,研究范圍橫跨數(shù)據(jù)挖掘與人工智能領(lǐng)域,包括算法、軟件、系統(tǒng)和應(yīng)用程序等,吸引了大量來自相關(guān)領(lǐng)域的研究人員和應(yīng)用程序開發(fā)人員參會。

IEEE ICDM 2023數(shù)據(jù)挖掘研究頂會落幕,網(wǎng)易易盾獨占鰲頭

“社區(qū)發(fā)現(xiàn)”與“團伙挖掘”

本次賽題主題“社區(qū)發(fā)現(xiàn)”是網(wǎng)絡(luò)科學(xué)領(lǐng)域的一個重要問題,其主要目標(biāo)是將給定的圖網(wǎng)絡(luò)劃分成若干個互相連接、內(nèi)部聯(lián)系緊密的社區(qū),從而揭示網(wǎng)絡(luò)中存在的隱藏結(jié)構(gòu)和模式。圖學(xué)習(xí)有助于改進社區(qū)發(fā)現(xiàn)的效果。

社區(qū)發(fā)現(xiàn)在社交網(wǎng)絡(luò)分析、生物信息、風(fēng)控、推薦等領(lǐng)域有著廣泛的應(yīng)用,例如在風(fēng)控場景中,將相似用戶劃分為社區(qū)有利于黑產(chǎn)追蹤。但是在實際業(yè)務(wù)中,黑產(chǎn)追蹤和團伙挖掘任務(wù)經(jīng)常面臨缺乏大量的標(biāo)記數(shù)據(jù)的困難,因此社區(qū)發(fā)現(xiàn)方法變得尤為重要。

當(dāng)今社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)的快速發(fā)展,使得網(wǎng)絡(luò)中的節(jié)點數(shù)量和連接關(guān)系快速增長,這也導(dǎo)致了社區(qū)發(fā)現(xiàn)和團伙挖掘問題變得更加復(fù)雜和具有挑戰(zhàn)性。在這種背景下,深度圖學(xué)習(xí)開始被應(yīng)用于社區(qū)發(fā)現(xiàn)和團伙挖掘,它能夠自動學(xué)習(xí)網(wǎng)絡(luò)中的高級表征,從而提高社區(qū)發(fā)現(xiàn)和團伙挖掘的效果。

將預(yù)訓(xùn)練模型應(yīng)用于社區(qū)發(fā)現(xiàn)和團伙挖掘是一個相對較新穎且具有挑戰(zhàn)性的問題。該任務(wù)的難度較大,需要更多的深入探索和研究。為了激勵研究者在這個領(lǐng)域使用預(yù)訓(xùn)練模型相關(guān)技術(shù),本次比賽提供了一個平臺,旨在鼓勵參賽者探索預(yù)訓(xùn)練模型在社區(qū)發(fā)現(xiàn)和團伙挖掘中的應(yīng)用潛力。

“團伙挖掘”與“數(shù)字內(nèi)容風(fēng)控”

在本屆競賽中,網(wǎng)易易盾深入研究了關(guān)系圖譜中的社區(qū)向量化技術(shù),并首創(chuàng)一種頗具實用價值的欺詐團伙檢測算法——Risk-DCRN,通過社區(qū)預(yù)劃分和社區(qū)向量化兩階段管道方法,實現(xiàn)了大規(guī)模圖網(wǎng)絡(luò)上稀疏標(biāo)簽數(shù)據(jù)條件下欺詐用戶群體的高效精準(zhǔn)識別。

區(qū)別于業(yè)界對于該問題場景的常規(guī)解決方式,該方法的contribution主要體現(xiàn)在針對真人作弊場景的絕佳適配,當(dāng)“人機識別”被“真人”挑戰(zhàn)時,因欺詐者與正常用戶的行為邊界模糊,業(yè)界所使用的圖深度學(xué)習(xí)向量化算法普遍存在表征塌陷問題,導(dǎo)致樣本Embedding傾向于映射至同一特征子空間內(nèi),限制了節(jié)點表征向量的區(qū)分能力,從而影響了最終的網(wǎng)絡(luò)聚類性能。

為此,易盾數(shù)據(jù)挖掘團隊針對該垂類場景,精心設(shè)計了一種基于對偶相關(guān)性衰減網(wǎng)絡(luò)(Dual Correlation Reduction Netework,DCRN)的稠密子圖自監(jiān)督深度圖聚類框架(如下圖所示),應(yīng)用于從社區(qū)預(yù)劃分結(jié)果中進一步通過稠密風(fēng)險子圖向量的相似性聚類,最終準(zhǔn)確挖掘出潛藏于龐大關(guān)系網(wǎng)中的346個欺詐團伙。

IEEE ICDM 2023數(shù)據(jù)挖掘研究頂會落幕,網(wǎng)易易盾獨占鰲頭

該框架包含2大模塊:

一、Graph-Distortion:類似于在NLP領(lǐng)域研究者通過會隨機mask掉一定比例字符,網(wǎng)易易盾根據(jù)相似性矩陣值小于0.1將其置0來構(gòu)造掩碼矩陣,使得模型從節(jié)點的不同上下文鄰居中學(xué)習(xí)到更豐富的特征表達。

二、DICR(Dual Information Correlation Reduction):從樣本及特征視角都考慮了相關(guān)性的降低,這樣可以過濾冗余信息,在潛在空間中保留更明顯的特征,從而學(xué)習(xí)到高區(qū)分度的表征,避免崩潰,提高聚類性能。

本屆大賽重點聚焦于業(yè)務(wù)安全領(lǐng)域中最經(jīng)典的團伙檢測問題,恰好與網(wǎng)易易盾當(dāng)前深耕的業(yè)務(wù)方向緊密契合。目前,大規(guī)模圖深度學(xué)習(xí)及社區(qū)發(fā)現(xiàn)等前沿創(chuàng)新技術(shù)正在助力網(wǎng)易易盾智能風(fēng)控開辟新的商業(yè)化增值空間,并于游戲、社交娛樂等行業(yè)均實現(xiàn)了技術(shù)成果業(yè)務(wù)轉(zhuǎn)化,屢破游戲外掛工作室、社交引流詐騙團伙等群體作案風(fēng)險,在客戶服務(wù)層面取得了眾多成功實踐。網(wǎng)易易盾以體系化的數(shù)字內(nèi)容風(fēng)控技術(shù)為客戶提供實現(xiàn)長效運營的基礎(chǔ)安全保障。

這也是近半年來,網(wǎng)易易盾數(shù)據(jù)挖掘團隊繼AIWIN、數(shù)博會等權(quán)威賽事獲獎后,再次摘得國際研究頂級會議主辦的大數(shù)據(jù)與AI結(jié)合的競賽冠軍。

未來的浪潮是AI,AI的底層是大數(shù)據(jù)。網(wǎng)易易盾正在用一項又一項扎實的研究成果夯實AI技術(shù)在數(shù)字內(nèi)容風(fēng)控行業(yè)的創(chuàng)新應(yīng)用,以為客戶創(chuàng)造更高價值。

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/613571.html

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論