我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
美國(guó)麻省理工學(xué)院(MIT)的研究團(tuán)隊(duì)近日發(fā)表論文指出,現(xiàn)有的第三方推特(Twitter)機(jī)器人賬戶自動(dòng)檢測(cè)工具并不準(zhǔn)確,因?yàn)槠鋽?shù)據(jù)集過于簡(jiǎn)單,缺乏泛用性。
此前有消息稱,機(jī)器人賬戶過多是阻止馬斯克收購(gòu)?fù)铺氐脑蛑?。推特?dāng)時(shí)聲稱其日活躍用戶中有 5% 是機(jī)器人賬戶,但馬斯克表示這個(gè)數(shù)字要比 5% 高得多。
推特有自己的機(jī)器人賬戶識(shí)別系統(tǒng),但并未公開。因此,對(duì)于普通公眾而言,第三方工具是較為可行的檢測(cè)方法。這些第三方工具使用從推特收集的數(shù)據(jù)集和機(jī)器學(xué)習(xí)模型來檢測(cè)機(jī)器人的可疑跡象,許多工具和模型已被用于研究社交媒體上的機(jī)器人活動(dòng),相關(guān)論文甚至已達(dá)數(shù)千篇。
這些論文中的大多數(shù)基準(zhǔn)數(shù)據(jù)集都是在不同推文中收集的數(shù)據(jù)集合,其中許多都是在特定推文(例如包含特定主題標(biāo)簽的推文)中收集的,每條都由人類手動(dòng)標(biāo)記為機(jī)器人或人類。然而這種經(jīng)過專門訓(xùn)練的機(jī)器人檢測(cè)模型在該專業(yè)領(lǐng)域表現(xiàn)出色,卻并沒有涵蓋全部領(lǐng)域,并且嚴(yán)重依賴于特定數(shù)據(jù),而不是機(jī)器人和人類之間的根本差異。
當(dāng)這些模型在其他領(lǐng)域的數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),它們的準(zhǔn)確性很差,幾乎與隨機(jī)預(yù)測(cè)水平相當(dāng)。同時(shí),在許多數(shù)據(jù)集上,即使是相對(duì)簡(jiǎn)單的模型也與最先進(jìn)的機(jī)器學(xué)習(xí)模型(SOTA)準(zhǔn)確率相當(dāng)。
換言之,在一個(gè)數(shù)據(jù)集上訓(xùn)練的模型不能推廣到其他數(shù)據(jù)集,現(xiàn)有的機(jī)器人檢測(cè)數(shù)據(jù)集由于數(shù)據(jù)收集簡(jiǎn)單而通用性較低。
最后,研究人員警告說,當(dāng)使用現(xiàn)有的機(jī)器人檢測(cè)數(shù)據(jù)集時(shí),用戶應(yīng)該仔細(xì)考慮可能存在哪些類型的偏差。研究人員認(rèn)為,一個(gè)根本的解決方案是推特等社交媒體本身就應(yīng)該為研究人員提供豐富、可靠的數(shù)據(jù)以及高質(zhì)量的真實(shí)標(biāo)簽。
?。?a href="http://m.jinteng090.cn">碼上科技)
美國(guó)麻省理工學(xué)院研究團(tuán)隊(duì)指出 第三方推特機(jī)器人賬戶自動(dòng)檢測(cè)工具不準(zhǔn)確 11:51:31
東芝推出實(shí)時(shí)測(cè)量技術(shù) 比現(xiàn)有技術(shù)快 150 倍 11:02:11
扎克伯格的教練表示 不確定會(huì)贏得與馬斯克的戰(zhàn)斗 10:50:46
英特爾宣布 超級(jí)計(jì)算機(jī) Aurora 已完成安裝工作 14:50:44
臺(tái)積電熊本縣晶圓廠還未投入量產(chǎn)已被預(yù)訂一空 14:47:31
工信部:將推動(dòng)不少于 3000 家企業(yè)建設(shè) 5G 工廠 14:44:56