目錄
一、數(shù)據(jù)驅(qū)動價值:驅(qū)動決策、驅(qū)動產(chǎn)品智能數(shù)據(jù)驅(qū)動能做什么? 我們認為主要包含驅(qū)動決策、驅(qū)動產(chǎn)品智能兩方面的價值。 圖 1 數(shù)據(jù)驅(qū)動價值 驅(qū)動決策包括運營監(jiān)控、產(chǎn)品迭代、營銷分析、商業(yè)決策。 其中涉及的每一個場景在今年數(shù)據(jù)驅(qū)動大會都會有專門的講師來介紹。 驅(qū)動產(chǎn)品智能,現(xiàn)在基本上已成為所有的電商類、資訊類產(chǎn)品的標配,如“產(chǎn)品推薦”、“猜你喜歡”等。企業(yè)要么組建團隊實現(xiàn)智能化的應用場景,要么應用外部工具來解決問題,因為在流量紅利逐漸消失的今天,千篇一律的內(nèi)容會讓你的“留存”數(shù)字非常難看。 我們曾為某一家很知名資訊類企業(yè)做 Feed 流的改版,神策來提供具體的推薦策略。通常,個性化推薦的評價指標是 CTR——展現(xiàn)了一千種內(nèi)容,有多少人點擊? 在 2018 年,我們認為再評價一個算法的好壞,用 CTR 非常不合適。神策從關(guān)注指標 CTR 轉(zhuǎn)為衡量“命中了策略的人”跟“命中熱門隨機內(nèi)容”的兩大用戶群體,觀察他們在平均訪問深度、7 日留存、停留時長等更深層指標上的差異。 二、數(shù)據(jù)驅(qū)動閉環(huán)數(shù)據(jù)采集——數(shù)據(jù)建?!獢?shù)據(jù)分析——數(shù)據(jù)反饋,這是一個完整的數(shù)據(jù)驅(qū)動閉環(huán)。我們在很多場合提到此,這里不再贅述。 圖 2 數(shù)據(jù)驅(qū)動閉環(huán) 有很多企業(yè)來找我做關(guān)于數(shù)據(jù)采集方面的分享,我用這張圖描述了典型的數(shù)據(jù)分析平臺,一個為數(shù)據(jù)驅(qū)動而構(gòu)建的數(shù)據(jù)分析平臺,各位可以參考。 圖 3 一圖全面展示數(shù)據(jù)分析平臺架構(gòu) 三、數(shù)據(jù)采集:一切數(shù)據(jù)應用的根基1. 采集內(nèi)容:數(shù)據(jù)類型、數(shù)據(jù)所有者、數(shù)據(jù)來源數(shù)據(jù)采集是一切應用的根基,“大、全、細、時”由桑文鋒提出(詳情可戳此查看桑文鋒談大數(shù)據(jù)分析的四個重要環(huán)節(jié)),是神策一貫堅持數(shù)據(jù)采集理念,具體到采集內(nèi)容上,包括數(shù)據(jù)類型、數(shù)據(jù)所有者、數(shù)據(jù)來源。 數(shù)據(jù)類型包括用戶行為數(shù)據(jù)、用戶數(shù)據(jù)、業(yè)務運行數(shù)據(jù)、內(nèi)容數(shù)據(jù):
從數(shù)據(jù)所有者上來講,我們采集第一方數(shù)據(jù)——也就是“我們自己的產(chǎn)品,我們自己的用戶,自己用戶在自己產(chǎn)品上發(fā)生了什么?!边@是第一方數(shù)據(jù)。 第一方數(shù)據(jù)采集在完全可控環(huán)節(jié)下發(fā)生,不僅比較便捷。 在隱私策略方面,我們完全符合最嚴格的 GDPR 標準。 目前我們采集第一方數(shù)據(jù)為主;而第三方數(shù)據(jù),市面上一些免費的 SaaS 工具可以做采集和統(tǒng)計,并做一些處理、脫敏;用這些數(shù)據(jù)作為第三方數(shù)據(jù),提供給客戶。這是有悖我們價值觀的,我們絕不涉及。 從數(shù)據(jù)來源上來講:新零售的火熱,線下數(shù)據(jù)采集還是非常火的,不管是攝像頭、藍牙探針等,是線下場景很好的補充。 不過從目前實踐經(jīng)驗來看:攝像頭、ID 識別的準確度非常低,基本不太可用。 對這一部分,我們保持持續(xù)關(guān)注,一些客戶會將通過二維碼、店員主動拿 Pad 做展現(xiàn)等方式,將用戶從線下行為引到線上,從而保證用戶數(shù)據(jù)的可采集、可衡量。 2. 根據(jù)需求采取合適的采集方案我們一貫的觀點,是數(shù)據(jù)采集沒有萬能靈藥,要根據(jù)需求選擇合適的采集方案,這一點我在不同場合講很多次,這里不再展開。 圖 4 根據(jù)需求采取合適的采集方案 3. 數(shù)據(jù)采集的接入這是宏觀上對于不同內(nèi)容,不同來源數(shù)據(jù)的采集統(tǒng)一架構(gòu)。 圖 5 一個典型的用戶行為相關(guān)數(shù)據(jù)采集 這是一種典型的用戶行為采集方案??蛻舳瞬杉p交互的內(nèi)容;服務器日志采集 Nginx、UI、Server 瀏覽、檢索、理財產(chǎn)品等內(nèi)容。 而對于一些業(yè)務操作,例如客戶跟客服之間的交互,或者內(nèi)部的客戶運營,主要是在業(yè)務采集上搞定的。 4. 客戶端采集我來介紹下目前被提及最多的客戶端采集。客戶端是直接跟用戶發(fā)生交互關(guān)系的一端,可以是 APP、小程序、網(wǎng)頁、H5、公眾號等,客戶端采集數(shù)據(jù)操作,包括點擊按鈕、瀏覽頁面、下拉框選擇、提交表單、上傳照片、切換導航條等。 這些操作是輕交互的,它的采集在通常意義上被稱為埋點,我個人覺得埋點更多指客戶端采集。 (1)客戶端采集的基本原理 客戶端采集的基本原理有三點: 第一:提供 SDK 與使用者的應用“編譯”到一起 客戶端采集有各種各樣的模式,但本質(zhì)上都是提供 SDK 和使用者的應用編譯在一起。 拋開埋點方式,完成這樣的事情,很多容易被忽視的,基礎(chǔ)屬性要覆蓋我們能想到的所有內(nèi)容,包括簡單的用戶行為相關(guān)、操作系統(tǒng)版本、物理分辨率等,還有很多客戶通過 SDK 提供部分風控數(shù)據(jù)的采集。 比如說 iphone 手機有沒有越獄,瀏覽的時候是橫屏還是豎屏,以及電量等等。(之所以要用 SDK 采集當前的電量,是因為如果用戶用模擬器訪問,那么它的電量變化跟真正的手機有非常大的不同。) 所以基礎(chǔ)屬性雖然看起來比較簡單,但是很多時候可以發(fā)揮很大的作用。 第二:SDK 完成匿名 ID 生成、基礎(chǔ)屬性采集、數(shù)據(jù)打包壓縮加密、本地緩存、網(wǎng)絡(luò)傳輸?shù)裙ぷ?/strong> 數(shù)據(jù)打包和加密,不僅可以在本地打包,還可以在必要的時候刪掉,神策現(xiàn)在服務很多銀行證券客戶,對加密要求的非常高,比如給某一個字段要用什么加密等,這些都是 SDK 要完成的。 本地緩存在 IOS 與安卓中特別重要,因為為避免影響用戶體驗,當發(fā)生一次點擊,對應的數(shù)據(jù)不會立刻傳到后端,所以都是緩存到本地等待最佳網(wǎng)絡(luò)時機。本地緩存、網(wǎng)絡(luò)緩存這些都是SDK 來做的。 第三:一般使用 HTTP(S) 協(xié)議通過公網(wǎng)傳輸數(shù)據(jù) 有人問,所謂的代碼埋點、全埋點、可視化埋點有什么不一樣?我們可以這樣理解:SDK 完成基礎(chǔ)數(shù)據(jù)的采集、數(shù)據(jù)儲存打包、傳輸?shù)龋瑫r向上埋點應用層提供 API,所謂的代碼埋點就是直接利用 API,告訴采集了什么數(shù)據(jù)。 全埋點則是在用戶完成某個操作的時候,自動的調(diào)用 SDK。所以說 SDK 完成一些基礎(chǔ)工作,代碼埋點開發(fā)者直接調(diào)用 API;而全埋點開發(fā)者不用直接調(diào)用,可以比較自動的完成。 說到這里會打一個廣告,我們會馬上出版一本書,專門講安卓 8 種全埋點,到時候有興趣的話可以看看。(白皮書 |《Android 全埋點技術(shù)白皮書》重磅推出!開源所有項目源碼?。?/p> (2)ID-Mapping 構(gòu)建多設(shè)備用戶管理體系 多設(shè)備下的用戶關(guān)聯(lián)是今年新的進展,新的趨勢。 ID-Mapping 解決的是不同用戶多設(shè)備的使用情況。 圖 6 構(gòu)建多設(shè)備用戶管理體系 大家可以看下如圖的例子。我們做了一些工作,后臺架構(gòu)有很大改進,可以實現(xiàn)將第二個設(shè)備,跟同一個用戶綁定,只要用戶登錄,神策就可以把不同情況下登錄的數(shù)據(jù)完全打通,這是非常典型的 ID-Mapping 的場景。 同樣非常典型的場景是用戶行為多端關(guān)聯(lián)機制。 用戶產(chǎn)品本身可以多端使用,可以在網(wǎng)頁上使用,例如說發(fā)了營銷 H5,用戶在微信內(nèi)置瀏覽器 H5 完成注冊,跳到 Appstore 完成激活。如果不能將營銷 H5 的用戶行為,與登錄激活之前的行為貫通,那么也沒有辦法詳細分析 H5 的營銷效果。 再如,小程序突然火起來了,客戶有需求,為此我們專門做了小程序采集,包括預置采集的事件,以及小程序相關(guān)的屬性,同時一樣帶動了代碼與自動化采集兩種方式,小程序可以充分得到微信里面的社交信息,對小程序分享傳播的屬性采集是非常重要的。 圖 7 小程序的采集 小程序最復雜的事情,它有不同的匿名 ID 或者設(shè)備 ID。 一個人在設(shè)備上,又使用小程序,又使用一個 APP,又換了一個小程序,但是兩個小程序之間登錄帳號打通,最終我們實現(xiàn)可以把兩個 LoginID 與 OpenID 設(shè)備貫通起來。 5. 服務器日志采集圖 8 服務器日志采集 我現(xiàn)在畫了很簡單服務器日志采集架構(gòu)圖,看似技術(shù)上沒什么問題。 從實際經(jīng)驗上來說:想高質(zhì)量搭建日志采集非常難,設(shè)置日志用哪些內(nèi)容,一次性工作很難。更難的還體現(xiàn)在產(chǎn)品迭代上,比如產(chǎn)品兩周發(fā)一個版本,程序員會說產(chǎn)品功能都測不完,沒法搞日志。 要搭建一個高質(zhì)量的日志采集,要貫穿在整個開發(fā)流程,從最早期一直到運維上線,到復盤整個迭代項的時候,每一步都要有意識。這也是為什么很多SaaS 產(chǎn)品都沒有采集日志的能力。 圖 9 用戶行為數(shù)據(jù)應用案例 這是我們在中國銀聯(lián)典型的案例,包括設(shè)備指紋采集、加密傳輸?shù)?,當然這個圖畫出來體現(xiàn)對用戶行為數(shù)據(jù)不同的應用,除了做日常行為之外,還有一些其他的應用。最后是業(yè)務數(shù)據(jù)的采集,包括 CRM 系統(tǒng)等。 四、數(shù)據(jù)建模數(shù)據(jù)建模最重要的是數(shù)據(jù)模型的選擇,以及對應的儲存。數(shù)據(jù)模型選擇為什么重要?因為數(shù)據(jù)模型抽象好了,后面的分析模型可以做的更好。如果數(shù)據(jù)模型抽象的太復雜,整體過程非常復雜。 我們現(xiàn)在的數(shù)據(jù)模型是 Item 實體、Event 事件、User 用戶,我們不會把模型搞得太復雜,現(xiàn)在模型下面,數(shù)據(jù)采集到建模所要做的工作是比較少的,基本可以通用化、產(chǎn)品化。 我們已經(jīng)有了標準的數(shù)據(jù)模型,同時通過不同的采集方案采到了很多數(shù)據(jù),所要做的工作主要是把采集到的數(shù)據(jù)映射,這里面非常多的工作不再具體展開。 不同的數(shù)據(jù)模型選不同的儲存方案,儲存方案的選擇主要根據(jù)數(shù)據(jù)本身的特點,例如是否可追加、可修改、訪問是以什么樣的訪問為主,是否會需要刪除等。 五、數(shù)據(jù)分析有了標準模型,有非常合適的儲存結(jié)構(gòu),后面是對數(shù)據(jù)怎么分析。 1. 數(shù)據(jù)統(tǒng)計與分析的兩種方法論數(shù)據(jù)統(tǒng)計與分析有兩種方法論,通常情況下是圖片左邊方法論,PM 給 RD 提,老板要看這些報表,給 RD 提要求,RD 寫一些東西并發(fā)郵件出來,改程序后又有新的需求。 老板可能問你 PV 為什么是這么多? 你可能要把整個計算過程完整講一遍……在這種情況下,RD為了不想太頻繁操作和改變,總是會給 PM 設(shè)置各種限制。 圖 10 數(shù)據(jù)統(tǒng)計與分析的兩種方法論 右邊的方法論,抽象的模型覆蓋指標體系以及大部分分析需求,通過友好的交互讓需要數(shù)據(jù)的人自主獲取數(shù)據(jù)。這種方法論是神策產(chǎn)品提供的,我們不需要問你看什么指標,因為你看的指標可能在整個行業(yè)都有通用性,我們會把需求抽象下來,接下來就是模型抽象。 如此,你的工作就變成你自己用分析模型,通過拖拖拽拽,把你要的條件選出來,就能完成一次分析。 這兩種方法論區(qū)別是,是否讓需要數(shù)據(jù)的人直接使用數(shù)據(jù),造成的工作效率相差非常大,這就是為什么現(xiàn)在神策產(chǎn)品能夠賣出去,并不是我們造了一個這樣的需求,而是真正有這樣的需求。 接下來這個圖是神策實現(xiàn)的自助式分析: 圖 11 自助式數(shù)據(jù)分析 2. 針對不同角色的數(shù)據(jù)分析:決策者、營銷、產(chǎn)品、運營通過不同角色分析四個不同的場景。 (1)決策者 老板關(guān)心的是第一關(guān)鍵指標是什么。第一關(guān)鍵指標該如何選擇? 不同階段關(guān)鍵指標不相同,每個發(fā)展階段都有最關(guān)注的數(shù)據(jù),集中注意力,提升第一指標。 有了第一關(guān)鍵指標,如何構(gòu)建指標體系?有了第一關(guān)鍵指標,我們要繪制整個用戶旅程。 以電商產(chǎn)品為例,我們關(guān)心總營收額,如何得到? 先繪制用戶旅程:用戶首先要訪問網(wǎng)站,之后要注冊賬號,實現(xiàn)首購之后會重復性購買,只有這樣的用戶旅程最終會帶來總銷售額的增長。接下來就要根據(jù)用戶旅程來組建增長模型。 圖 12 繪制用戶旅程 拆解的好處,不同團隊提不同的項目,你可以調(diào)整項目的優(yōu)先級。 圖 13 組裝增長模型 (2)營銷 市場營銷希望實現(xiàn)流量拉新,渠道投放評估。 市場營銷團隊,他們最關(guān)心兩個事,一是老板給了多少預算,二是怎樣花出去最有用。 如何衡量? 像電視廣告、樓宇廣告,一定程度上是不可追蹤的,但是像抖音、頭條都是可以追蹤。同一個用戶在媒體上點廣告,跟進入到產(chǎn)品之后,只要把這個行為打通起來,整個投放效果就是可追蹤的。現(xiàn)在我們可支持二三十種大大小小的渠道。 我們把用戶在點擊廣告前后的行為串通起來,剩下的工作就是分析,比如我們在頭條花了10000 塊錢買了 1000 個點擊,其中 50 個用戶使用產(chǎn)品,我們可以設(shè)置從哪些角度來衡量這些人的效果,來衡量用戶的轉(zhuǎn)化率、留存、復購等。 也可以對比不同的渠道,對比不同渠道下不同的投放關(guān)鍵詞帶來效果等,來對比與衡量用戶真正的價值。 圖 14 數(shù)據(jù)驅(qū)動市場營銷案例 圖 15 數(shù)據(jù)驅(qū)動市場營銷案例 這個是很典型的數(shù)據(jù)驅(qū)動市場營銷的例子,某家理財產(chǎn)品投放廣告,剛開始假設(shè)關(guān)注 P2P 理財產(chǎn)品都是資質(zhì)相對較好的白領(lǐng),因此在核心商圈的寫字樓電梯間投放廣告。 但是經(jīng)過轉(zhuǎn)化分析后,發(fā)現(xiàn)進件轉(zhuǎn)化率很低,因此對借款人畫像分析,確定目標人群特征:24-30 歲,工作時間短,收入一般,身處非核心高檔區(qū)域。得到這種結(jié)論后,將投放渠道放到了抖音和快手這類短視頻平臺,轉(zhuǎn)化率得到明顯提升。 (3)產(chǎn)品 圖 16 數(shù)據(jù)驅(qū)動產(chǎn)品優(yōu)化 這個是我之前一個產(chǎn)品同事發(fā)給我的,他說這些是產(chǎn)品關(guān)心的指標。 因為我是工程師出身,我根本不懂這些東西,但是我知道怎么改進產(chǎn)品:我們把這些指標全部算出來,進行監(jiān)控,一旦發(fā)現(xiàn)某一個指標異常,立刻分析原因,并解決這些原因。 如果指標沒有異常,可以和別人家進行對比,你的轉(zhuǎn)化率是多少,我的轉(zhuǎn)化率是多少,看我們有多少提升空間,來提升指標。 所以,整個邏輯很簡單,先設(shè)置關(guān)心的問題,實際算出來,并關(guān)注是否異常,找到異常原因,分析解決異常,看數(shù)據(jù)有沒有真正得到上升。 場景 1:內(nèi)容產(chǎn)品的“Aha Moment” 通過用戶行為將用戶群體劃分成四類:路人、打醬油、參與(點贊、轉(zhuǎn)發(fā))、深度參與,如何提升這四類人的用戶留存? 很簡單,首先我觀察四類人的留存率,很明顯,行為深度越深,用戶留存肯定越高。 那該怎么操作? 擴大“參與行為”使用者面積,門檻太高,落地性較差;擴大“圍觀行為”使用者面積?這個方法更可行,在產(chǎn)品信息流頁露出“熱評”,可以提升留存,來驗證新增“熱評”之后效果如何。 場景 2:電商,收藏按鈕位置改版 某電商的首頁存在兩個“收藏”,一開始設(shè)置有點問題,一個點擊率極高,一個點擊率極低。顯而易見,浪費了非常重要的位置。后來將點擊率低的收藏按鈕位置換成了“服務”的按鈕,經(jīng)過驗證,點擊進入量沒有明顯下降,同時“服務”點擊量提升。 經(jīng)過 SA 中的數(shù)據(jù)對比發(fā)現(xiàn),BEST 分類的點擊流量并沒有預想中高,甚至跟 MEN 分類的訪問量差不多。猜想可能用戶不習慣往左滑動頁面,習慣往右滑動界面。 同時,該電商還進行了首頁 BEST 分類按鈕位置調(diào)整,將 BEST 類目放到 FUN 類目右邊。效果:經(jīng)過調(diào)整后,50% 以上的首頁用戶會進入 BEST 類目,比原來調(diào)整之前相對提高了 78% 。 場景 3:小程序的產(chǎn)品迭代案例 這是一個純女性短視頻社區(qū)案例,他們一直致力將數(shù)據(jù)分析融入到運營乃至產(chǎn)品迭代的最細節(jié)處。這是他們的工作方式。 圖 17 把數(shù)據(jù)分析融入到運營至產(chǎn)品迭代的最細節(jié)處 該企業(yè)的小程序更新發(fā)版很快。用戶分享之后裂變,有一個完整的看板讓大家來評估的自己的影響。日裂變作為關(guān)鍵指標,某版本上線后發(fā)現(xiàn)裂變指數(shù)(uv 數(shù) x 內(nèi)部調(diào)整因子)迅速下跌。 圖 18 某版本上線后發(fā)現(xiàn)裂變指數(shù)迅速下跌 通過回溯過去 7 日的分析看到:“分享”按鈕的點擊數(shù)據(jù)出現(xiàn)連續(xù)下滑,“下載”按鈕的數(shù)據(jù)在出現(xiàn)大幅度提升。 圖 19 回溯 7 日數(shù)據(jù)快速篩查可能原因 通過用戶實際回訪,確認“保存按鈕”其實弱化了“分享意愿”,造成分享減少。次日晨完成新版本上線后,指標變得正常。 (4)運營 除了數(shù)據(jù)驅(qū)動產(chǎn)品迭代,下一個案例是用數(shù)據(jù)驅(qū)動運營,數(shù)據(jù)驅(qū)動運營同樣是發(fā)現(xiàn)問題,分析原因,來驗證效果。 圖 20 基于數(shù)據(jù)的驅(qū)動閉環(huán),驅(qū)動業(yè)務決策 六、反饋最后給大家介紹幾個重要閉環(huán)。 1. 用戶運營的閉環(huán)反饋我們推出了自動化運營的新產(chǎn)品,我們發(fā)現(xiàn)大家對產(chǎn)品運營自動化越來越高。 神策自動化運營是基于分群標簽的全流程運營閉環(huán)分析系統(tǒng),通過用戶精準分群、靈活創(chuàng)建并管理營銷活動計劃,比如知道用戶數(shù)據(jù)、業(yè)務數(shù)據(jù),最終精準的刻畫了用戶畫像。基于用戶畫像采用不同的觸達方式,比如優(yōu)惠券等。 做完之后,我可以分析衡量觸達效果怎么樣,從而評價營銷效果。有了第一次營銷效果之后,可以針對性的改進,做第二次營銷效果。真正形成自動化、精細化的運營閉環(huán)。 圖 21 用戶運營閉環(huán)反饋 2. 產(chǎn)品智能閉環(huán)反饋這是個性化推薦的全流程,包括采集各種不同的數(shù)據(jù),構(gòu)建相應的興趣模型,特定的場景推薦下做推薦,不同緯度、不同指標做測量。 圖 22 產(chǎn)品智能閉環(huán)反饋 東方明珠是神策數(shù)據(jù)的客戶(東方明珠:融媒時代的大數(shù)據(jù)轉(zhuǎn)型之路打造),以百視通 IPTV 某駐地為例,日活數(shù)百萬用戶通過 IPTV 機頂盒付費觀看授權(quán)內(nèi)容,部分精品內(nèi)容需額外充值觀看;在接入神策推薦之前,主要依賴人工推薦,以熱門、付費和內(nèi)容相關(guān)性為主要推薦參考。 為提升用戶的觀影體驗、提高用戶留存以及充值付費營收,東方明珠利用神策推薦解決方案,完成采集點擊日志、展示日志、播放日志等所需用戶行為數(shù)據(jù),基于行為數(shù)據(jù)構(gòu)建深度學習召回算法策略,采用 GBDT+LR 排序模型訓練數(shù)據(jù)。 推薦算法上線兩周后,神策推薦的效果,對比人工推薦,僅 CTR 一個指標即提升了 6 倍,對推薦內(nèi)容的人均瀏覽次數(shù)提升了 1.9 倍。 這就是我講的內(nèi)容,基本圍繞數(shù)據(jù)驅(qū)動閉環(huán)。 希望對你有所幫助! 本文由 @神策數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載 |