美國(guó)時(shí)間8月4日—8日在阿拉斯加州召開(kāi)的KDD2019(國(guó)際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì))上,我國(guó)數(shù)據(jù)挖掘領(lǐng)域的創(chuàng)新技術(shù)以論文的形式獲得發(fā)表。
“很多時(shí)候靜態(tài)文本無(wú)法充分表達(dá)人們內(nèi)心最深層的需求,而動(dòng)態(tài)交互行為的文本偏好信息恰能輔助你理清內(nèi)心真實(shí)的需求?!北本┐髮W(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員嚴(yán)睿表示,為了更好地為求職者和崗位之間達(dá)成匹配,北大團(tuán)隊(duì)與BOSS直聘自然語(yǔ)言處理中心通過(guò)引入記憶模塊,首次利用簡(jiǎn)歷文檔和崗位描述文檔歷史交互行為下的信息來(lái)學(xué)習(xí)潛在偏好的信息,把人類(lèi)求職經(jīng)歷中的“偏好”體現(xiàn)在數(shù)據(jù)的“記憶”中。
人類(lèi)的記憶是有偏好的,讓數(shù)據(jù)也長(zhǎng)出“記憶”,能更準(zhǔn)確地挖出大數(shù)據(jù)中有用的信息。之前的研究集中于對(duì)比“簡(jiǎn)歷與崗位”在文本上的匹配度,而在現(xiàn)實(shí)世界中,除了靜態(tài)文本信息外,動(dòng)態(tài)行為交互信息(例如求職招聘雙方各自的面試歷史記錄)中蘊(yùn)含著對(duì)預(yù)測(cè)匹配更有幫助的因素。
“我們發(fā)現(xiàn),雙方的偏好也決定著匹配的準(zhǔn)確度?!彼窝蟊硎?,團(tuán)隊(duì)利用記憶網(wǎng)絡(luò)對(duì)面試歷史記錄這一外部知識(shí)進(jìn)行學(xué)習(xí),并加入到模型參數(shù)中去,從而提升人崗匹配效果。
讓數(shù)據(jù)長(zhǎng)出“記憶”,是不是符合人類(lèi)群體的“記憶”?這個(gè)方法究竟能不能提高匹配準(zhǔn)確度呢?這些都需要實(shí)踐檢驗(yàn)。
“我們基于數(shù)據(jù)集采用5個(gè)評(píng)測(cè)指標(biāo)對(duì)模型進(jìn)行驗(yàn)證?!彼窝蠼忉?zhuān)鐣?huì)公共類(lèi)的調(diào)查沒(méi)有真人實(shí)驗(yàn),但可以固定一個(gè)時(shí)間窗口來(lái)取求職者和招聘者雙方的歷史面試記錄,用來(lái)預(yù)測(cè)之后一段時(shí)間樣本集合內(nèi)的求職者和招聘者雙方是否發(fā)生匹配,這與實(shí)際情況是一致的,實(shí)驗(yàn)結(jié)果也證明全新的數(shù)據(jù)挖掘技術(shù)優(yōu)于當(dāng)前最優(yōu)的人崗匹配方法。
相關(guān)專(zhuān)家認(rèn)為,中國(guó)由于人口基數(shù)大、互聯(lián)網(wǎng)應(yīng)用發(fā)展成熟等特點(diǎn),是大數(shù)據(jù)的主要產(chǎn)出國(guó),如何有效地利用數(shù)據(jù),提高現(xiàn)有諸如職位對(duì)接、商務(wù)對(duì)接等的有效率,將真實(shí)世界的特點(diǎn)融入到大數(shù)據(jù)向知識(shí)的轉(zhuǎn)化中,亟待大數(shù)據(jù)挖掘技術(shù)的創(chuàng)新。例如,互聯(lián)網(wǎng)上存在著數(shù)億規(guī)模的求職者簡(jiǎn)歷以及崗位招聘信息,有效的數(shù)據(jù)挖掘技術(shù)將大大提升人崗匹配效率,減少耗費(fèi)比,對(duì)國(guó)民經(jīng)濟(jì)帶來(lái)良性作用的同時(shí),讓每個(gè)人都能發(fā)揮出自己的價(jià)值。(記者 張佳星)