網(wǎng)上各種關(guān)于網(wǎng)易云音樂的個(gè)性推薦算法的詳解五花八門,但是官方從未現(xiàn)身說(shuō)法!為了解開用戶們對(duì)每日推薦歌單背后算法的好奇心,我們闖進(jìn)網(wǎng)易云音樂總部里的產(chǎn)品與技術(shù)部門,挾持了技術(shù)專家,把我們心中的疑惑全都吐了出來(lái)。
本文轉(zhuǎn)自:機(jī)器之能 撰文 | 宇多田
老鐵們,知道今天是什么日子嗎?
明知應(yīng)該說(shuō)聲節(jié)日快樂,但咱們也不能忘記在寒冷狗窩里坐等國(guó)家分配的單身汪們(仿佛說(shuō)的不是我自己)。
今天一早,當(dāng)發(fā)現(xiàn)朋友圈撒的狗糧已經(jīng)夠吃 一年后,我還是打開了網(wǎng)易云音樂,想在熱鬧的評(píng)論區(qū)尋找同類:另一群?jiǎn)紊砉穫儭?/p>
沒想到,他們除了搞出個(gè)“單身元年特別訪談”,每日推薦給我推的第一首歌竟然是:
好吧,歌詞“我不會(huì)自暴自棄,不要喚醒我,這是我人生中最美好的一天”,讓我嚴(yán)重懷疑,網(wǎng)易云音樂的個(gè)性推薦已經(jīng)洞悉了所有單身狗用戶的生活常態(tài):
“別總在評(píng)論區(qū)呆著了,請(qǐng)?jiān)谙聜(gè)元年來(lái)之前,找到自己的幸福。要不然,狗年一過,你的頭銜就會(huì)變成‘單身豬’。”
情人節(jié)快樂,狗年快樂。

在知乎上,“網(wǎng)易云音樂的歌單推薦算法是怎樣的”與“網(wǎng)易云音樂到底好在哪里”這兩個(gè)問題,分別占據(jù)了“網(wǎng)易云音樂”熱門話題的第三與第八位。
而很大程度上,第一個(gè)問題成就了第二個(gè)問題。

或許網(wǎng)易云音樂在知乎上好評(píng)一邊倒的原因五花八門(有人說(shuō)雇了大量水軍,如果是這樣,那應(yīng)該是筆重金投入。我不會(huì)告訴你兩個(gè)平臺(tái)的社群重合度很大的),但歌單質(zhì)量硬,且個(gè)性推薦對(duì)比國(guó)內(nèi)競(jìng)品相對(duì)精準(zhǔn),是讓一部分用戶發(fā)展成為網(wǎng)易云音樂死忠粉的關(guān)鍵原因之一。

以及,第一個(gè)問題也可以解釋,為何你在很多歌的評(píng)論區(qū)里,都會(huì)看到像“日推第一”、“日推第二”、“日推+FM同時(shí)推薦”這類的大量評(píng)論。

然而,有人把網(wǎng)易云音樂比作是”獨(dú)立且小眾音樂愛好者的天堂“其實(shí)并不十分貼切。將那些被大眾忽視的歌重新曝光于你的眼下,很多時(shí)候是技術(shù)在背后起的作用。
就像你今天下載了一首周杰倫的歌,系統(tǒng)第二天是推給你周杰倫另一首曲風(fēng)類似的熱門歌曲,還是推一首曲風(fēng)類似的冷門歌曲,更會(huì)讓你感到新奇?

不過倒是讓人有點(diǎn)驚訝,網(wǎng)易云音樂從來(lái)沒有官方披露過自己的推薦算法與產(chǎn)品應(yīng)用細(xì)節(jié)。但這不妨礙大眾對(duì)其技術(shù)與產(chǎn)品融合的過程產(chǎn)生興趣。
因此,網(wǎng)易云音樂里的算法模型與 AI 應(yīng)用,基本已經(jīng)被知乎用戶們扒了個(gè)底朝天了。
你完全可以在“網(wǎng)易云音樂的歌單推薦算法是怎樣的”這個(gè)知乎話題里找到非常棒的解答與推測(cè)(里面的高贊答案比媒體的報(bào)道簡(jiǎn)直不要清楚太多,講的明白易懂)。
而我們之所以要拜訪網(wǎng)易云音樂的數(shù)據(jù)挖掘工程師徐家與產(chǎn)品經(jīng)理沈博文,與其說(shuō)是揭開算法秘密,不如說(shuō)是驗(yàn)證此前(包括網(wǎng)絡(luò)上)的種種猜測(cè),以及幫用戶們解答在使用網(wǎng)易云音樂過程中產(chǎn)生的疑惑。
實(shí)際上,網(wǎng)易云音樂個(gè)性化推薦的算法與今日頭條、B 站還有很多 O2O 電商平臺(tái)應(yīng)用的基礎(chǔ)推薦算法大同小異。這個(gè)得到了徐家的認(rèn)證,就是我們熟知的那類基礎(chǔ)算法:
這個(gè)算法要?dú)w功于亞馬遜工程師的發(fā)明——一個(gè)客戶買了這個(gè)東西,那么他也可能買另一個(gè)東西。
簡(jiǎn)單來(lái)說(shuō),該算法的預(yù)測(cè)標(biāo)準(zhǔn)取決于人與人之間相似的消費(fèi)模式。譬如,我喜歡這兩首歌,而你的歌單里也有這兩首歌,所以你歌單里有可能存在其他我喜歡的歌。
以上的說(shuō)法只是便于理解。實(shí)際上,協(xié)同過濾算法其實(shí)應(yīng)該分為兩類:基于用戶與基于項(xiàng)目(單曲)。
1、基于用戶:我與小明收藏的歌單相似度很高,那么在判斷我們口味相似的基礎(chǔ)上,可以給小明推薦我歌單里她沒收藏過的單曲。

2、基于項(xiàng)目(單曲):就是將用戶對(duì)一首歌的偏好作為向量計(jì)算單曲之間的相似度,比對(duì)相似度后,根據(jù)這個(gè)用戶歷史偏好為另一位用戶推薦單曲。
舉個(gè)例子,小歆下載了《勇氣》《小情歌》兩首單曲,而小宜下載了《勇氣》《天黑黑》和《小情歌》,而小藝下載了《勇氣》…
那么根據(jù)這些用戶的歷史偏好,網(wǎng)易云音樂可以判斷《勇氣》與《小情歌》是相似的,喜歡《勇氣》的可能也會(huì)喜歡《小情歌》,那么可以把《小情歌》推薦給小藝。

總之,如果你覺得對(duì)于“協(xié)同過濾”這種算法仍然理解困難,那可以只記住一個(gè)詞:人以群分。
在這里要歪個(gè)樓:正是這種本質(zhì)上基于用戶偏好相似度的推薦模型,在無(wú)形中讓用戶在聽音樂中組成了一個(gè)個(gè)“彼此聊得來(lái)”的社群。
因此,沈博文并沒有把“以后可能會(huì)發(fā)展成全國(guó)最大的婚戀交友網(wǎng)站”看作是一個(gè)無(wú)厘頭的笑話。而是認(rèn)為這種基于音樂喜好的社交趨勢(shì),反而比當(dāng)下的交友平臺(tái)更靠譜:
好奇心日?qǐng)?bào)之前曾做過一個(gè)調(diào)查,有關(guān)于人類找到靈魂伴侶的主要參考標(biāo)準(zhǔn)是什么?——是音樂品味。

神經(jīng)網(wǎng)絡(luò)模型下的“物以類聚”
可以看到,這種推薦算法絕對(duì)缺不了用戶歷史數(shù)據(jù)的支撐。在數(shù)據(jù)量龐大且足夠干凈的時(shí)候,協(xié)同過濾算法是非常強(qiáng)大的。
那么反過來(lái)想,假如我是一個(gè)新用戶,或者我使用網(wǎng)易云音樂的頻率特別低。也就是說(shuō),在數(shù)據(jù)稀少的情況下,網(wǎng)易云音樂該怎么獲知我的口味?
這種冷啟動(dòng)問題,意味著不同算法模型交叉使用的必然性;蛟S下面的第二大類算法能在一定程度上消除這個(gè)障礙。
基于內(nèi)容的推薦算法。