抖音推薦: 淺談抖音推薦系統(tǒng)的初步研究方向!
yanfei 2020-12-08 17:33在過去的十年里面,我都在研究搜索引擎,尤其是百度的規(guī)則。我們SEO這一行,被許多從業(yè)者自身認(rèn)為是苦力活,這是讓我倍感奇怪的。因?yàn)橹两裎覐氖碌拇蟛糠侄际腔A(chǔ)理論層面的研究,盡管「基礎(chǔ)理論」看著離「實(shí)際應(yīng)用」頗遠(yuǎn),但也沒那么遠(yuǎn),有收獲不錯(cuò)的成績(jī)——給各種大小網(wǎng)站共計(jì)提升過數(shù)百萬的日均UV。
重視理論研究,以及重視實(shí)踐出真知,這某種程度上可謂是兩大門派了。根據(jù)我所觀察的,站隊(duì)實(shí)踐出真知的人數(shù)比例往往是壓倒性的。
但是,這里有一個(gè)根本矛盾——實(shí)踐出真知的「實(shí)踐」,到底是該去實(shí)踐些什么呢?如果沒有基礎(chǔ)理論的支撐,可能只是瞎想到什么就去瞎試罷了。
憑借著對(duì)于搜索引擎的理論研究經(jīng)驗(yàn),最近我開始抽出一部分精力,對(duì)抖音的推薦系統(tǒng)做出第一步的探索。
為什么要去研究推薦系統(tǒng)呢?難道不是視頻內(nèi)容質(zhì)量決定一切嗎?
這就好比做搜索引擎流量的時(shí)候,我的大多同行們也永遠(yuǎn)聲張著「內(nèi)容為王」,卻罕見他們優(yōu)質(zhì)的內(nèi)容有做出什么流量。
類似的,抖音上面,爆火的視頻經(jīng)常是發(fā)布者自己也沒有預(yù)料到的,而他們有時(shí)發(fā)布的自己認(rèn)為質(zhì)量很高的視頻反而無人問津。如果單純把原因歸結(jié)為「運(yùn)氣」,就太過隨意了。
畢竟百度的檢索系統(tǒng)和抖音的推薦系統(tǒng),本質(zhì)上都是把信息提供給用戶,多少有些異曲同工之處。所以我來談?wù)劵蛟S可行的研究方向,可能還算略有資格。
如何初步開啟對(duì)于推薦系統(tǒng)的反向研究?
許多年前我就看過科幻扛鼎之作的《三體》系列第一部,直到最近我才剛把后面兩部給看完了。在第二部里面,有一個(gè)我極其認(rèn)同的地方。
書中,主人公羅輯通過得知了兩條宇宙公理,逐步推論出宇宙的「黑暗森林法則」。簡(jiǎn)言之,是高級(jí)文明在發(fā)現(xiàn)任何一個(gè)其它文明存在跡象的時(shí)候,都會(huì)選擇消滅它。這個(gè)結(jié)論是怎么推論來的,不重要。重要的是,對(duì)于書里面的設(shè)定,這個(gè)結(jié)論是「合乎邏輯」的。
因此,當(dāng)?shù)厍蚣磳⑹艿揭粋€(gè)高級(jí)文明攻擊的時(shí)候,主人公便威脅他們:「如果你們不停手,我會(huì)把你們星球的位置暴露給其它文明,那么你們就會(huì)被其它更高級(jí)的文明所摧毀?!棺罱K,證明這個(gè)威脅是有效的,地球和那個(gè)文明在很長(zhǎng)一段時(shí)間內(nèi)維持了和平。主人公羅輯靠邏輯拯救了地球。
為什么?因?yàn)橹灰负诎瞪址▌t」是由嚴(yán)謹(jǐn)?shù)倪壿嬐普摮鰜淼?,同時(shí)又因?yàn)椤高壿嫛惯@個(gè)東西放諸四海都一樣有效,所以,更高級(jí)的文明極大概率也早已推論出了黑暗森林法則。
換句人話來說:只要我們知道了一個(gè)確實(shí)經(jīng)得起邏輯推敲的結(jié)論,那么遠(yuǎn)遠(yuǎn)比我們考慮的更全面更深遠(yuǎn)的人,多半是會(huì)在這件事上面有共識(shí)的。
像是百度、抖音這種在其核心系統(tǒng),已經(jīng)做到相對(duì)而言非常成熟水平的公司,他們?cè)诖蠓较蛏献匀皇且呀?jīng)趨于「完美」的。
所以,我們不一定需要去設(shè)法「直接」了解具體百度、抖音是怎么做的,而是可以「間接」的通過邏輯等工具去揣測(cè)什么樣才是完美的解決方案。這兩種手段最終的效果往往是差不多的,而后者的可行性通常要強(qiáng)得多。
先舉一個(gè)百度上面的例子吧。搜索引擎可以如何通過盡少的數(shù)據(jù)指標(biāo),來判斷一個(gè)網(wǎng)頁的質(zhì)量?
在你閱讀后文之前,我認(rèn)為這是一個(gè)蠻值得先停下來進(jìn)行思索的問題。
過去多年里面,SEO從業(yè)者對(duì)于這個(gè)問題給出的最常見答案是兩個(gè):
1) PageRank
2) 跳出率
PageRank,是看一個(gè)網(wǎng)頁是否有被其它網(wǎng)頁通過鏈接的形式所推薦。若展開說可以說出許多PageRank的局限性,此處跳過。最關(guān)鍵的地方在于,它終究只是一個(gè)「過程性」的數(shù)據(jù)指標(biāo)。和最終用戶對(duì)于搜索結(jié)果的滿意程度指標(biāo),還差了很遠(yuǎn)的距離。
有些SEO從業(yè)者,或許還會(huì)因?yàn)樽约河X得「跳出率」指標(biāo)比「PageRank」指標(biāo)更重要,從而覺得自己專業(yè)水平更高。如果那樣想,就是荒謬至極了。
「公理」級(jí)別的搜索引擎排序原則是:
設(shè)法讓盡多的用戶,在盡短的時(shí)間內(nèi)找到可以滿足自己需求的搜索結(jié)果。
如果連公理都沒想明白,后面的一切都是無從展開的。哪怕偶爾做出效果,恐怕也只是運(yùn)氣的加持。
比方說,你搜索某個(gè)明星的身高,一個(gè)搜索結(jié)果網(wǎng)頁上明確的告訴你答案了,你看到這個(gè)答案后,迅速的關(guān)閉了被打開的網(wǎng)頁。這時(shí)候,跳出率是100%,但哪有存在任何問題嗎?
如果你沒有跳出,還繼續(xù)訪問了網(wǎng)站上面其它的網(wǎng)頁,在一部分情況下反而可能說明,你的搜索需求或許沒有被直接滿足,還在花費(fèi)更多時(shí)間去找想要的東西。所以,跳出率在個(gè)別情況下,甚至是和網(wǎng)頁質(zhì)量呈現(xiàn)負(fù)相關(guān)的,沒理由被百度當(dāng)做核心指標(biāo)(而且百度怎么去全面收集第三方網(wǎng)站的跳出率也是個(gè)問題)。
所以,百度該看什么指標(biāo)呢?這兩年,不少?gòu)臉I(yè)者可能給出的一個(gè)答案是,看用戶在搜索結(jié)果頁面上面,對(duì)于每一個(gè)搜索結(jié)果的點(diǎn)擊率。
但這里的問題也非常明顯。確實(shí),用戶都不樂意點(diǎn)的搜索結(jié)果,自然多半是不那么高質(zhì)量的;但平常大家都是用過搜索引擎的,應(yīng)該清楚,當(dāng)點(diǎn)擊了一條搜索結(jié)果以后,也經(jīng)常會(huì)覺得這并不是自己想要的,然后又退出來打開其他搜索結(jié)果。所以,單純的點(diǎn)擊行為,并沒法全面的說明問題。
其實(shí)最終答案已經(jīng)提到了。理論上接近完美的解決方案正是,去看用戶點(diǎn)擊了當(dāng)前的搜索結(jié)果之后,是否還會(huì)退回百度去點(diǎn)擊其它搜索結(jié)果;如果點(diǎn)擊了當(dāng)前搜索結(jié)果之后,就把百度關(guān)閉了,那這就是大概率是一次滿意的搜索行為。
得到這樣的猜想之后,還可以設(shè)法去收集數(shù)據(jù)來驗(yàn)證。既然我在這里寫這個(gè)東西,自然是實(shí)際數(shù)據(jù)驗(yàn)證過的。
但其實(shí),用數(shù)據(jù)去驗(yàn)證猜想這一步,在不少情況下甚至是可有可無的。道理就是前面說的,只要我們的結(jié)論邏輯上是足夠經(jīng)得起推敲的,百度做了十幾年的搜索引擎還沒想到這一點(diǎn)的可能性是幾乎不存在的。
這也正是邏輯工具的一個(gè)強(qiáng)大之處所在——通過實(shí)踐去驗(yàn)證,通過數(shù)據(jù)去驗(yàn)證,盡管在很多場(chǎng)景下仍然是更好的選擇,但在另一些場(chǎng)景下,因?yàn)閷?shí)驗(yàn)、數(shù)據(jù)收集都有時(shí)間、技術(shù)等方面的難題,會(huì)使得這些手段變得極為低效,難以獲得研究成果上的質(zhì)變。
唯有邏輯,只需要我們的大腦。
在進(jìn)入抖音的話題之前,還是先來再談個(gè)外賣的排序研究。幾年前有個(gè)小伙伴和我說她可能要去和人合伙做外賣創(chuàng)業(yè)了,花了不到一個(gè)小時(shí)簡(jiǎn)單給看了下。具體看的是哪一家外賣平臺(tái)的我給忘了。
這是一個(gè)可能更容易被理解的簡(jiǎn)單統(tǒng)計(jì)為主的粗淺研究,但仍有非常直接有效的用途。
首先,我們總是應(yīng)該通過各種方式,把能確定的東西盡可能的確定下來,之后再去做未知部分的探索。比方說搜索引擎,能確定的東西很大一部分來自于搜索引擎原理書籍、百度官方搜索資源平臺(tái)的文章、百度專利……當(dāng)然,還有在無論任何領(lǐng)域都通用的——常識(shí)。
常識(shí)告訴我們,外賣的配送距離或是時(shí)間,一定是排序影響最大的因素之一。
其次,常識(shí)也能告訴我們,口味的評(píng)分、銷量等一些和用戶反饋相關(guān)的數(shù)據(jù)指標(biāo),也較有可能是會(huì)影響排序先后的。
隨后,收集具體的排序結(jié)果,及對(duì)應(yīng)的數(shù)據(jù)指標(biāo)。
如果一家店,前面幾個(gè)指標(biāo)表現(xiàn)都良好,排名也不錯(cuò),就視為正常結(jié)果。反之,如果排名不錯(cuò),但主要指標(biāo)都不佳的那些排序結(jié)果,則是主要需要分析的部分。
只要分析到這些結(jié)果的共性(且同時(shí)差異于正常結(jié)果的),便基本上是真正對(duì)排名有影響的地方。
第一個(gè)額外排序因素很快就被發(fā)掘到了,新店。對(duì)于新開的店,外賣平臺(tái)會(huì)先流量扶持一陣。但這個(gè)排序因素可操作性不強(qiáng),并非我關(guān)注的重點(diǎn)。
刨除掉新店影響后,繼續(xù)分析剩余那些排名異常的店家的共性,發(fā)現(xiàn)了那些商家的圖片,大多數(shù)都是品牌LOGO,而這些商家都使用了菜品的圖片。大部分場(chǎng)景下,商品圖片的CTR都明顯高于品牌LOGO,因此基本可以斷定,點(diǎn)擊率或受到點(diǎn)擊率影響的其它指標(biāo),是一個(gè)重要的排序因素。
也因此,外賣排名談什么刷單、好評(píng)返現(xiàn)刷評(píng)分等等極其高成本的操作之前,哪怕花幾分鐘把商家圖片從品牌LOGO換成菜品,訂單量也能大幅提升。
是不是聽上去蠻有意思的?
相比起研究了早就超過10000小時(shí)的搜索引擎,抖音我到現(xiàn)在不過研究了最多十幾二十個(gè)小時(shí)。于是能寫的東西,相對(duì)淺薄許多。
首先,我第一步仍然是在統(tǒng)計(jì)的方向進(jìn)行了探索。得出的結(jié)論是,如果單純的橫向?qū)Ρ韧粋€(gè)發(fā)布者的視頻,這時(shí)評(píng)論÷獲贊比例、轉(zhuǎn)發(fā)÷獲贊比例這般的指標(biāo),整體上和獲贊量沒有呈現(xiàn)明顯的正相關(guān),甚至在個(gè)別專業(yè)領(lǐng)域下,它們有時(shí)是呈現(xiàn)出負(fù)相關(guān)的。類似的,從其它方式收集到的一些個(gè)例來看,甚至在橫向?qū)Ρ韧粋€(gè)發(fā)布者的視頻時(shí),完播率(完整看完整個(gè)視頻的比率)和播放量之間也沒有比較必然的聯(lián)系。
這兩天粗看了一本推薦系統(tǒng)原理方面的書籍。期間,有想到一個(gè)可能比較重要的思想實(shí)驗(yàn):
假設(shè)抖音推送了一條超級(jí)美女的視頻,那么可以想象,男人都是大豬蹄子,看完的可能性很大;而且女性通常天性上也會(huì)欣賞美女,因?yàn)橛写敫校ǚ催^來男性不那么會(huì)欣賞帥哥),看完的可能性也不小。
鑒于大眾對(duì)于美女的喜愛,以及這類視頻在整個(gè)平臺(tái)里面幾乎算時(shí)長(zhǎng)最短的類型。這時(shí),這些視頻的完播率很可能是很高的。
而且,抖音這種大型平臺(tái)里面不乏超級(jí)美女(和強(qiáng)大的美顏功能或多或少有關(guān)系),它可以不斷的推送這樣的視頻。如果這樣,用戶在線時(shí)長(zhǎng)在短期內(nèi)可以達(dá)到很大的提升。
但這樣的話,用戶花不了多久就會(huì)發(fā)現(xiàn)全都只是這一類視頻,漸漸覺得抖音內(nèi)容過于缺乏多樣性。再怎么樣的美女看多還是會(huì)看膩,用戶就逐漸流失。因此抖音必然是要么存在一個(gè)機(jī)制,天生就使得這一類(或類似)視頻不會(huì)過度爆火,要么是額外存在著一個(gè)抑制機(jī)制。
同時(shí),在刷抖音的實(shí)際過程里面不難發(fā)現(xiàn)的是,每一類自己感興趣的領(lǐng)域,刷到的視頻數(shù)量總體上是相對(duì)平均的。很少會(huì)連續(xù)拼命推送同一類型的視頻。
對(duì)于以上兩個(gè)現(xiàn)象,不難得到一種猜想:抖音根據(jù)每個(gè)用戶的喜好程度,給TA推送相應(yīng)數(shù)量比例的那些個(gè)「類別」的視頻。一些質(zhì)量數(shù)據(jù)指標(biāo),只需要在特定類別里面有相對(duì)的領(lǐng)先就夠了。
如果上述猜想是正確的,那么如何從抖音獲得更高的推送量?
答案就是,把自己的視頻蹭到有更多用戶關(guān)注的類別里面去,也就是「蹭熱點(diǎn)」。
似乎像是說了一句廢話,因?yàn)樯晕⒄J(rèn)真做過抖音的人,應(yīng)該都知道蹭熱點(diǎn)可以獲得更多播放量,看上去沒有什么技術(shù)含量可言。
比如有一個(gè)抖音號(hào)叫做「大能」,主要是講玩表的話題,抖音至今才做了不到兩個(gè)月,已經(jīng)有了將近700萬的粉絲。玩表是非常小眾的領(lǐng)域,但他的視頻仍然經(jīng)常能有幾十萬的獲贊,不乏偶爾爆出個(gè)百萬級(jí)別獲贊的視頻。其中的主要原因之一就是他喜歡蹭熱點(diǎn)。
他獲贊最多的視頻將近兩百萬,那個(gè)視頻在羅志祥成為話題人物的期間,講的是「羅志祥戴的是什么表」。大家都樂意八卦一下渣男的奢侈生活,于是在原本玩表的話題上面,完美的順勢(shì)蹭到了一波熱點(diǎn)。但顯而易見的是,這種「完美順勢(shì)蹭熱點(diǎn)」的機(jī)會(huì)是可遇不可求的,并且對(duì)文案創(chuàng)作有較高的要求。
這些天,他又蹭了一個(gè)熱點(diǎn),視頻里面講「隱秘的角落」這個(gè)時(shí)下大紅大火的電視劇,又收獲了幾十萬的獲贊。但這個(gè)視頻講的主要是他對(duì)于這部電視劇的感想,和玩表的話題完全無關(guān),因此新增的粉絲肯定是不精準(zhǔn)的。這種蹭熱點(diǎn),完全就屬于是「強(qiáng)蹭熱點(diǎn)」,肯定不能說毫無作用,但相對(duì)而言會(huì)收益有限。
「完美順勢(shì)蹭熱點(diǎn)」的收益巨大但前提條件較為苛刻,「強(qiáng)蹭熱點(diǎn)」沒什么前提條件但收益較小。因此一個(gè)更具研究?jī)r(jià)值的方向,就是去尋找那些既容易實(shí)現(xiàn),又收益更高的辦法。
首先,應(yīng)該先明白抖音大體上是如何判斷一個(gè)視頻的所屬類別的,這是我們?nèi)ゲ鋭e的類別的前提。「類別」這個(gè)東西可不是普通人直覺上那么簡(jiǎn)單的東西,遠(yuǎn)遠(yuǎn)不是隨便把一個(gè)視頻歸屬到一個(gè)類目這么簡(jiǎn)單。在機(jī)器學(xué)習(xí)的領(lǐng)域,它主要是「分類」和「聚類」兩大塊,根據(jù)目前的分析,抖音多半是以聚類為主導(dǎo)的。但聚類對(duì)于沒有機(jī)器學(xué)習(xí)相關(guān)經(jīng)驗(yàn)的人,卻又難以三言兩語描述清楚,這里無從展開。
其次,也應(yīng)該要明白一個(gè)根本矛盾——蹭一個(gè)不是很相關(guān)的類別的同時(shí),因?yàn)椴シ帕勘欢兑舴职l(fā)給了對(duì)視頻沒直接興趣的用戶,很容易會(huì)把視頻的質(zhì)量數(shù)據(jù)指標(biāo)拉低,反而導(dǎo)致抖音不樂意后續(xù)再分發(fā)更多用戶過來。
所以,如何在不顯著影響質(zhì)量數(shù)據(jù)指標(biāo)的同時(shí),蹭到抖音其它類別/熱點(diǎn)的流量,是現(xiàn)階段我的主要研究方向之一。已經(jīng)有了個(gè)別的側(cè)面佐證,正在設(shè)法實(shí)際驗(yàn)證。而這里,就留個(gè)懸念了。