超AI說 | 支持CDP多樣的應用場景,需要哪些底層技術保障?
2021-12-24
我們首先來理解一下CDP和DMP有哪些區別。CDP和DMP主要區別在于兩個方面:
傳統DMP只支持網絡廣告渠道的精準化營銷,CDP可以在其他的渠道,比如說短信、微信公眾號、APP、小程序推送進行一些精準化營銷。
傳統的DMP只能做人群畫像,CDP可以集成BI系統,做更多的定制化報表,以及個體消費者360的明細數據分析。
傳統DMP只能做簡單的人群放大,CDP可以支持消費者線索打分、消費者置換購模型、消費者商品推薦等應用場景。由于它觸點數據越來越多,所以CDP的應用場景相比于DMP范圍更大一點,或者說更偏向于用戶精準化營銷這方面。
CDP為了支持這些額外的應用,接收的數據比DMP會更多。
DMP接收的數據其實還是比較單一和標準的,主要就是網絡廣告的監測和投放數據;CDP在這些網絡廣告數據的基礎上,額外支持電商的購買數據、小程序的用戶行為數據、微信公眾號的粉絲數據、官網和APP的行為日志數據等。有了這些數據之后,CDP才能支持剛剛所說的這么多額外的應用場景。
由于CDP接收數據的渠道又多又雜,所以技術上對于CDP的數據打通和整合能力、數據處理能力、數據質量的監控能力其實要求也越來越高。具體業務上的技術考量無非就是三點。
第一,怎么更有效或者更精準地進行數據處理和轉置。具體來說,怎么將多源異構數據變成標準化的數據模型,支持后續的各種應用,以及怎么樣在大數據的情況下支持實時和離線的數據處理。
第二,在拿到渠道的數據之后,怎么進行具體的數據整合,或者怎么進行多觸點的用戶ID打通。
第三,怎么保證多渠道數據進入CDP之后,它的數據質量是持續的、可控的、精準的,并且發現問題之后能及時進行監控和報警。
關于數據處理這一塊,行業上主要的難點在于兩點。
第一點,怎么保證數據處理的橫向擴展性。具體來說在數據量不斷增長的情況下,保證業務能夠持續地穩定和增長。
第二點,如何保證數據處理可以支持實時的應用場景,比如說消費者實時的觸達。
關于數據打通或者ID打通這一點,因為CDP接入了更多源異構的消費者數據,其實會有很明顯的多渠道用戶觸達和用戶打通的需求。一個消費者可能會在微信上留下他的OpenID,這個消費者在電商渠道可能會留下他的一個手機號,這時候我們一定要將微信渠道的OpenID和他電商上的手機號打通成在一起,或者說認為是同一個人,才能做跨渠道的用戶分析,或者跨渠道的用戶觸達。
在行業上,其實跨渠道的用戶分析和跨渠道的用戶觸達各個CDP都有,但其實還是有一定難點的。具體難點的話,按照我們之前的經驗主要存在于兩個地方。
第一是如何保證用戶的ID打通是比較精準的,或者說是比較干凈的。
由于我們打通關系非常多,有時候會發現一個數會存在過度綁定或者過度打通的問題。典型的場景是,一個用戶在網站上的留資,會留下他的CookieID和手機號,但可能由于一些特殊的原因,我們常常會發現,多個手機號綁定在一個CookieID上,這時候其實對于整體的ID打通造成了非常大的臟數據或者說是過度綁定的問題。
第二是我們希望ID綁定具有擴展性。企業主的渠道其實是不斷擴展的,比如今年企業主對于消費的渠道,可能就只有一個微信公眾號,明年可能會增加微信小程序、電商和APP這三個渠道。那我們的ID打通渠道或者ID打通的規則,其實也應當可以支持靈活擴展。
明略科技在ID打通方面有相當豐富的實踐經驗。對于ID打通的干凈或者準確程度,明略科技參考了國外的各種競品,并基于自己的實際經驗,使用了一種叫做高優先級ID唯一的ID打通方法論。具體是指,一個Cookie對應多個手機號的時候,只會取某一個手機號,或者將這些綁定記錄認定為異常的綁定記錄進行去除。這樣就會很大程度上保持ID綁定關系的準確性和收斂程度。
我們使用Flink Gelly的圖計算來支持ID綁定的計算,因為它是一個抽象的、靈活的計算方式,所以隨著企業主的觸點不斷增長,比如說從一個兩個觸點增加到五個觸點,原有的ID綁定功能和ID綁定的計算方式都可以支持這種規則上的擴展。這樣,無論是從ID綁定的數據準確性方面,還是從ID綁定的規則和數據量擴展性方面,明略科技標準CDP的ID綁定功能都可以滿足企業用戶的需求。
從數據接入和上游的對數、系統核對的監控來說,一般來說CDP需要做到接入的數據跟上游的數據,無論是從文件層面上還是從數據量層面上進行核對。
CDP作為一個應用系統,除了傳統應用系統對于業務任務的監控和基礎應用的監控之外, 由于處理了多源渠道的大量消費者數據,所以說對于消費者數據質量的監控其實也是有非常高的要求。行業內對于數據質量監控的需求其實是端到端的,具體來說就是覆蓋數據接入、處理、輸出這個全流程。
一般來說數據接入上的監控分為兩種:第一種就是基于CDP文件層面上的監控,也就是核對CDP收到的數據文件和上游系統發送的數據文件的MD5;第二種就是數據內容或者數據記錄上的監控,基本上就是基于CDP文件的接收記錄和上游的發送記錄進行核對,看是不是一致,來進行數據記錄上的條數的監控。
只有做到數據文件級別的監控與數據記錄數量上的監控,我們才能知道CDP數據接入和上游系統是保持完整一致的。
關于數據處理過程當中的數據質量監控,一般來說,都是基于自定義的業務規則來進行。一般來說常見的數據探查規則就看某一份數據的數據字段是否標準,某一些字段是否存在空值的情況,某一些字段是否會有唯一值的情況,某一些數據是否會有數據傾斜的情況。
常見的用來支持這些或者提高這些數據探查效率的解決方案,可以用一些外部的標準化數據處理平臺的工具,比如Informatica或者Kylo;有一些CDP自己也支持一些原生的數據探查工具。
在明略科技標準CDP當中,有一個數據質量探查的模塊,它支持一些預設的數據質量探查規則和功能,包含空值探查、唯一值探查、數據標準化的探查,也支持用戶在CDP上自定義一些業務的數據質量探查的規則。用戶可以在這個功能模塊上自己嵌入自定義的SQL的數據探查規則,來看某一份數據的探查結果是否符合規則,或者不符合規則的數量是否超過一定閾值;超過閾值的話,我們會支持各種情況的報警,這樣就能保證數據處理過程當中,問題能夠及時進行發現,并且及時處理。
信息填寫