我們擅長商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
3 月 31 日,正如馬斯克一再承諾的那樣,Twitter 已將其部分源代碼正式開源,其中包括在用戶時間線中推薦推文的算法。目前,該項(xiàng)目在 GitHub 已收獲 10k+ 個 Star。
馬斯克在 Twitter 上表示此次發(fā)布的是“大部分推薦算法”,其余的算法也將陸續(xù)開放。他還提到,希望“獨(dú)立的第三方能夠以合理的準(zhǔn)確性確定 Twitter 可能向用戶展示的內(nèi)容”。在關(guān)于算法發(fā)布的 Space 討論中,他說此次開源計(jì)劃是想讓 Twitter 成為“互聯(lián)網(wǎng)上最透明的系統(tǒng)”,并讓它像最知名也最成功的開源項(xiàng)目 Linux 一樣健壯。“總體目標(biāo),就是讓繼續(xù)支持 Twitter 的用戶們最大程度享受這里。”
Twitter 官網(wǎng)博客詳細(xì)介紹了算法在確定 For You 時間線所顯示的推文時,會具體參考哪些內(nèi)容并如何對其進(jìn)行排名和過濾。
從博文來看,推薦管線由三個主要階段組成。
首先,它會收集“來自不同推來源的最佳推文”,之后使用“機(jī)器學(xué)習(xí)模型”對各推文進(jìn)行排名。最后,它會過濾掉來自已屏蔽用戶的推文、已經(jīng)看過的推文或者在工作時間不宜觀看的內(nèi)容,最后將結(jié)果顯示在時間線上。
文中還進(jìn)一步對過程中的具體步驟做出解釋。
例如,第一步大約會查看 1500 條推文,目標(biāo)是讓 For You 時間線中約 50% 的推文來自已關(guān)注的用戶(即「人際網(wǎng)絡(luò)內(nèi)」),50% 的推文來自“尚未關(guān)注的「人際網(wǎng)絡(luò)外」賬戶”。排名則“參與積極性進(jìn)行優(yōu)化(例如點(diǎn)贊、轉(zhuǎn)發(fā)和回復(fù))”,最后一步則努力保證用戶不會看到同一個人的過多推文。
誠然,代碼透明(用戶能夠看到系統(tǒng)到底在以怎樣的機(jī)制為時間線選擇推文)和代碼開源(允許社區(qū)提交自己的代碼作為備選,也可在其他項(xiàng)目中使用 Twitter 算法)并不完全是一碼事。雖然馬斯克反復(fù)提到要開源,但如果 Twitter 想要言而有信,就必須滿足后者的標(biāo)準(zhǔn)。換言之,Twitter 需要建立新的治理系統(tǒng),決定批準(zhǔn)哪些 PR、關(guān)注哪些用戶提出的問題,以及如何阻止惡意人士出于個人目的而破壞代碼。
目前來看,Twitter 正在為此而努力。GitHub 上的自述文件提到,“我們邀請社區(qū)在 GitHub 上提交問題和 PR,為推薦算法的改進(jìn)提出建議。”但文件還寫道,Twitter 仍在構(gòu)建“用于建議管理并將變更同步至內(nèi)部代碼倉庫的工具”。馬斯克領(lǐng)導(dǎo)下的 Twitter 曾經(jīng)做出過不少承諾,但并沒能堅(jiān)持下來,所以恐怕要到其實(shí)際接收社區(qū)代碼之后才能確定這是否屬實(shí)。
馬斯克的開源承諾
此前,馬斯克曾多次表示將開源 Twitter 算法。
2022 年 3 月,馬斯克曾在 Twitter 發(fā)起一項(xiàng)調(diào)查,詢問用戶對該平臺算法開源的看法。他寫到:“我擔(dān)心 Twitter 算法中實(shí)際存在的偏見會產(chǎn)生重大影響,我們怎么知道背后到底發(fā)生了什么?”馬斯克認(rèn)為,我們對 Twitter 這個公共平臺的信任程度越高,文明的風(fēng)險(xiǎn)就越小。
2022 年 5 月,馬斯克曾與 Twitter 聯(lián)合創(chuàng)始人兼前 CEO Jack Dorsey 就該平臺的算法問題發(fā)生過爭執(zhí)。馬斯克表示,“算法正在以你們意識不到的方式操縱你們……我不是說算法有惡意,但它的確在猜測你想看什么內(nèi)容,這樣就會無意間操縱/放大你的觀點(diǎn),而你卻完全沒有意識到正在發(fā)生什么。”
2022 年 10 月接管 Twitter 后,馬斯克關(guān)于開源 Twitter 算法的想法也沒有發(fā)生改變。
2023 年 2 月 21 日,馬斯克稱將于下周對 Twitter 算法進(jìn)行開源。當(dāng)時一位 Twitter 用戶表示,如果 Twitter 能夠開源算法,他們將會“真心折服”。馬斯克回應(yīng)道:“當(dāng)我們下周開源算法時,一開始請做好失望的準(zhǔn)備,但之后將會快速改善。”
不過遺憾的是,馬斯克并未兌現(xiàn)“下周開源”的承諾。直到 3 月 18 日,馬斯克再次發(fā)聲:“Twitter 將于 3 月 31 日開源所有用于推文推薦的代碼。”
馬斯克表示:“我們的‘算法’過于復(fù)雜且內(nèi)部未完全理解。人們會發(fā)現(xiàn)很多愚蠢的事情,但我們會在發(fā)現(xiàn)問題后立即修補(bǔ)。我們正在開發(fā)一種簡化的方法來提供更具吸引力的推文,但這項(xiàng)工作仍在進(jìn)行中,這也將是開源的。提供代碼透明度一開始可能會令人尷尬,但它應(yīng)該會讓推薦質(zhì)量快速提高。最重要的是,我們希望贏得您的信任。”
不過尷尬的是,據(jù)美聯(lián)社當(dāng)?shù)貢r間 3 月 26 日報(bào)道,一份法律文件顯示,推特公司的部分源代碼遭泄露,被發(fā)布在開源編程及代碼托管網(wǎng)站 GitHub 上。為防止該事件對其服務(wù)產(chǎn)生潛在的破壞性損失,Twitter 已經(jīng)采取了法律行動,GitHub 遵從通知并刪除了被泄露的代碼。
DMCA 通知顯示,這次泄露的源代碼是 Twitter 平臺和內(nèi)部工具的私有源代碼,嚴(yán)重侵犯了 Twitter 的版權(quán)。具體的倉庫地址是:https://github.com/FreeSpeechEnthusiast/PublicSpace。該帳號的名字 “FreeSpeechEnthusiast”,這顯然是對馬斯克的攻擊,畢竟他曾自稱 “言論自由絕對主義者”。
現(xiàn)在,馬斯克終于如愿開源 Twitter 算法,但他的決斷也面臨著強(qiáng)烈的反對之聲。用戶們對自己 For You 頁面中經(jīng)常顯示馬斯克的推文表示不滿,而馬斯克的支持者們則擔(dān)心自己在社區(qū)中的參與度正在降低。他辯解稱,新的推薦算法希望“最大限度削減”負(fù)面和仇恨內(nèi)容,但之前無法訪問這些代碼的外部分析師對這種說法并不買賬。
此外,Twitter 還可能面臨來自開源社區(qū)的競爭壓力。Mastodon 是一個去中心化社交網(wǎng)絡(luò),目前在特定圈子里正越來越受歡迎。Twitte r 公司聯(lián)合創(chuàng)始人 Jack Dorsey 則正在支持另一個名為 Bluesky 的類似開源項(xiàng)目。
Twitter 推薦算法的底層工作機(jī)制
像 Twitter 這樣復(fù)雜的系統(tǒng),開源算法并非易事。開源作者 Travis Fischer 曾在一篇文章中分析道,Twitter 的推薦算法是由一個個性化推薦系統(tǒng)提供的,用于預(yù)測用戶最有可能與哪些推文和用戶互動。關(guān)于這個推薦系統(tǒng),最重要的兩部分是:
用來訓(xùn)練 ML 模型的基礎(chǔ)數(shù)據(jù),即 Twitter 的大規(guī)模專有網(wǎng)絡(luò)圖;
在確定相關(guān)性時考慮的排名信息。
大規(guī)模專有網(wǎng)絡(luò)圖
像 Twitter 這樣的社交網(wǎng)絡(luò)就是超大圖的實(shí)例,節(jié)點(diǎn)是用戶和推文的模型,邊則是回復(fù)、轉(zhuǎn)發(fā)和喜歡等互動的模型。
Twitter 動態(tài)網(wǎng)絡(luò)圖的可視化,作者是 Michael Bronstein,來自 Twitter 的 Graph ML 部門(2020)。
Twitter 的核心商業(yè)價值有很大一部分來自于這個龐大的由用戶、推文和互動構(gòu)成的基礎(chǔ)數(shù)據(jù)集。用戶登錄、查看推文、點(diǎn)擊推文、查看用戶資料、發(fā)布推文、回復(fù)推文等,在 Twitter 上的每一次互動都會被記錄到內(nèi)部數(shù)據(jù)庫。
從 Twitter 的公共 API 獲得的數(shù)據(jù)只是 Twitter 內(nèi)部跟蹤數(shù)據(jù)中的一小部分。這一點(diǎn)很重要,因?yàn)?Twitter 的內(nèi)部推薦算法可以獲得所有這些豐富的互動數(shù)據(jù),而任何開源工作都可能僅能使用一個有限的數(shù)據(jù)集。
排名信息
2017 年,Twitter 的研究人員曾在一篇名為《在 Twitter 時間線上使用大規(guī)模深度學(xué)習(xí)》的文章中提到,為了預(yù)測某條推文是否會吸引用戶,Twitter 的模型考慮了以下幾個要點(diǎn):
推文本身:它的新近度,存在的媒體卡(圖像或視頻),總互動數(shù)(如轉(zhuǎn)發(fā)和喜歡的數(shù)量)。
推文作者:用戶過去與這個作者的互動,用戶與他們聯(lián)系的強(qiáng)度,用戶關(guān)系的起源。
用戶:用戶在過去覺得有吸引力的推文,用戶使用推特的頻率和程度。研究人員表示,“我們考慮的特征及其各種互動的清單在不斷增加,為我們的模型提供了更多存在細(xì)微差別的行為模式。”
這些 2017 年的排名信息描述可能有點(diǎn)過時,但這些核心信息在今天仍然與 Twitter 高度相關(guān)。因?yàn)檫@份清單很可能已經(jīng)推廣到幾十甚至幾百個重點(diǎn)機(jī)器學(xué)習(xí)模型,它們支撐著 Twitter 的算法。
一個深度學(xué)習(xí)模型的可視化,用于確定一個用戶在未來關(guān)注另一個用戶的可能性。這個模型代表了 Twitter 內(nèi)部各種推薦系統(tǒng)的一小部分。
Travis Fischer 認(rèn)為,將 Twitter 推薦算法開源難免會遇到一些重大的工程挑戰(zhàn)。
比如,Twitter 的網(wǎng)絡(luò)圖非常龐大,包含數(shù)以億計(jì)的節(jié)點(diǎn)和數(shù)十億的邊。Twitter 的實(shí)時性帶來了另一個獨(dú)特的挑戰(zhàn):用戶希望 Twitter 盡可能地接近實(shí)時,這意味著底層網(wǎng)絡(luò)圖是高度動態(tài)的,延遲成為一個真實(shí)的用戶體驗(yàn)問題。此外,還有可靠性、安全與隱私方面的挑戰(zhàn)。
但無論如何,馬斯克還是兌現(xiàn)了他的開源承諾,Twitter 推薦算法開源也標(biāo)志著,這類平臺的透明度正在邁出關(guān)鍵一步。
?。?a href="http://m.jinteng090.cn">碼上科技)