肉乳床欢无码a片120秒厨房里,女邻居的大乳hd,疯狂做受xxxx高潮a片,各类老熟女老熟妇视频在线观看

資訊中心

資訊中心

數據治理的策略

作者: 時間:2021-12-10 來源: 字號:  


01

前言

為什么想開這個話題,一是因為目前業內數據產品也基本完成了從0-1的建設工作,但主要集中在數據生產加工和數據應用分析兩側,對于數據管治方向的建設多分散在了包括安全、指標元數據、SLA等在內的各個環節,缺乏統一的規劃統籌,筆者認為,數據產品可以分為工具類數據產品、業務分析類數據產品和管控治理類數據產品三類,而工具類數據產品和業務分析數據產品市面上也開始趨近飽和,但管控治理類數據產品其實是更高能力要求的一個細分工種,既需要懂工具建設也需要懂數據分析,還需要具備跨多團隊橫向協調的項目推動能力和策略運營能力;二呢,筆者曾經就做過一次失敗的大治理工作,也做過一次相對成功的安全治理工作,也參與過指標監控、安全工具等的建設,所以也想把這其中那的成功和失敗的經驗分享出來供大家參考。

02

概念定義

根據筆者的研究,目前業內數據治理總結起來一共分為兩類,一類是狹義的數據治理,是指數據指標口徑一致性的治理,此類數據治理主要是解決指標口徑的一致性,解決數據“不準”的問題,也由此引申出一些智能數倉、指標元數據工具,比如美團的起源、快手的蓋亞、阿里的dataphin等等;另一類是指廣義的數據治理,是指包括數據指標口徑治理、數據安全治理、數據資源成本治理、數據資產元數據治理、數據產出治理等在內的大治理,此類數據治理是需要綜合解決數據從采集加工到應用分析再到銷毀全生命周期內的口徑、成本、安全、合規和產出問題,在工具建設上,目前筆者看到的多是分散在數據安全、資產中心、SLA中心等不同的產品領域。

03

結論先行

這次筆者就不賣關子了,直接拋觀點,筆者認為,數據治理戰略層面的設計總結就兩點:

第一,數據治理是一個系統性工程。數據治理主要面對三個問題,一是用戶心智培養問題,二是組織保障問題,三是系統提效問題,所以,單純從組織保障層面發力會面臨效率和質量不高成本卻奇高的問題,單純從運營機制建設層面發力會面臨缺乏組織和工具來落地策略的問題,單純從建設工具發力會面臨缺乏組織抓手且找不到核心使用用戶,需求無法進入正向循環的問題。以上問題一句話總結就是靠組織無法長期有效,靠運營無法落地實施,靠工具又缺乏用戶和需求持續跟進,因此,數據治理是一個需要組織保障、運營實施和工具建設三位一體跟進的工作。

第二,數據治理又是一個抓大放小的工程。世界本質是一個熵增的過程,即任何事物本質是一個自發的由有序向無序發展的過程,這個既是人性也是客觀規律,而數據治理本質是減熵的過程,是建立秩序,因此任何的治理本身是逆人性和逆客觀規律的,需要源源不斷投入能量(資源)才能維持熵值平衡。但問題就在于,人性天然有建設性和破壞性兩面,想要秩序的存在并維持下去,本身就是需要投入非常大的建設精力和成本的,而且這個成本還不是一成不變的,它是隨著公司資產的累加而增加的,也是會隨著公司戰略、制度和文化的革新變化而變化的,因此,數據治理工程中追求完美主義是不可取的,我們要學會分類分級,學會判斷優先級,學會抓大放小,允許有序和無序的并存。

04

問題分析

數據治理到底解決什么問題?或者說什么問題的存在才需要數據治理?首先,我們來場景化模擬下數據從誕生到銷毀的一生中遇到的主要問題。

場景1:小明是A視頻公司的策略產品經理,工作職責之一就是分析用戶的特點和行為習慣,從而幫助算法工程師優化視頻推薦策略,從而提高用戶對視頻APP的使用黏性。這天,小明抽樣了部分用戶瀏覽行為數據,發現部分用戶單位時間內視頻切換速率較高,停留時長較短,且點贊和關注數都較少,小明猜測是算法推薦的質量有問題,小明找了算法RD,算法RD卻回復最近視頻推薦的準召率(準確率和召回率)沒有問題,并沒有出現下降,肯定不是算法的問題,是視頻內容質量的問題,或者是抽樣數據的問題。小明很苦惱,為什么數據分析下來,小明覺得用戶對視頻的喜好度是不夠高的,但研發說準召率卻沒問題,那問題出在哪?

場景2:小紅是B咨詢公司的新來的數據分析師,最近她接到一個任務,需要為客戶的一個市場咨詢報告提供數據分析支持,因此小紅從業務經理那里了解完需求后,開始從公司數據庫和第三方數據庫獲取數據,但事情卻一波三折,就單單在業務數據分析的定義上就來回溝通了好幾次,業務經理告訴小紅她想知道a指標的數據,小紅翻閱了前人關于a指標的統計口徑記錄發現,a指標居然有不下10個統計口徑,諸如a1字段在x1維度下的聚合、a2字段在x2維度下的聚合等等,到底應該遵循哪個規范?結果咨詢一堆同學,發現每一個口徑都有特定的需求背景和定制化規則,這一通忙活。。。

場景3:小東是C公司的數據RD,最近他經常半夜被各種數據跑批任務延遲和失敗告警給吵醒,原來是公司最近要迎接618,活動量的爆炸式增長導致業務數據量的爆炸式增長,而業務報表的數據統計邏輯和背后的數據源卻沒有及時優化,導致集群計算資源不足以支撐暴漲的需求而出現任務延遲或者失敗的情況,這個情況又影響了業務報表的數據及時展示,影響了公司各業務KP郵件報表的及時性。

場景4:小陽是D公司的安全運營,最近公司上線了一個新業務,和已經上線的幾家公司形成了假正經關系,然后他最近經常收到市場情報反饋,競品公司能迅速感知到公司的投放數據和增長數據,到底是哪個環節出了問題,為什么競品公司能這么快知道公司核心數據機密,這讓他最近壓力倍增?

分析以上問題,場景1其實是數據指標準確性的問題,場景2的問題主要是數據指標規范性和唯一性的問題,場景3主要是數據產出及時性的問題,而場景4是數據安全性的問題,以上,筆者認為都屬于數據治理需要解決的問題。

05

治理目標


綜上,數據治理的目標主要是解決以下四方面的問題:


  • · 規范治理:解決數據完整性、規范性和唯一性問題
  • · SLA治理:解決數據產出及時性問題
  • · 口徑治理:解決數據指標準確性和口徑一致性問題
  • · 安全治理:解決數據采集生產應用各環節中賬號注冊認證、權限管理、安全審計和隱私保護等安全治理問題


06

策略概述


1.? 成立數據治理委員會,提供立法和組織保障:

·? ? 成立治理制度執委會,負責研究和出臺相關治理制度和規范標準,目標是促成公司內各個業務團隊達成共識,形成統一規范,避免信息孤島

·? ? 成立治理產品執委會,負責梳理數據各環節的需求處理流程和業務流轉流程,負責各環節的治理工具建設,形成可執行方案,然后報制度執委會推行

·? ? 成立治理技術執委會,負責數據各環節的技術定義、模型設計和口徑維護,對數據資產的落庫規范性和唯一性等負責

·? ? 成立第三方治理審計監察組,負責治理效果的評估、badcase的運營跟進和事后追溯審計

2.? 建設數據治理套件,提供工具保障:

·? ? 建設資產治理中心,目標是為解決數據元信息的完整性、規范性、唯一性提供技術支持

·? ? 建設SAL治理中心,目標是為解決數據生產加工任務產出的及時性和任務調度的運維提供技術支持

·? ? 建設指標治理中心,目標是統一指標定義、指標生產和服務,解決指標口徑一致性和服務的效率問題

·? ? 建設安全治理之心,目標是為數據安全5A領域)(賬號、認證、授權、審計、隱私保護)的問題提供技術支持

07

策略詳述


1? 流程保障策略

圖1:數據治理流程保障規劃示意圖

思路:如上圖所示,數據治理流程保障規劃整體思路參考PDCA循環,即制定詳細規范方案,然后去驗證并解決問題,接著檢查問題是否真實被根本解決,最后根據反饋再繼續爹迭代方案,進入下一個循環。

機制:如上圖所示,數據治理流程保障規劃整體解決機制上分為三個部分,分別是事前預防,事中監控和事后處理。第一部分的目標是盡量將潛在問題在未爆發前就消滅掉;第二部分的目標是盡量將問題都找出來,減少影響范圍;第三部分的目標是對暴露出的問題進行快速響應和解決,并總結經驗。

整體流程:如上圖所示,數據治理流程保障規劃整體流程上將以解決數據質量六性問題(唯一性、規范性、完整性、準確性、及時性、安全性)為目標,按照“規范建設-質檢審查-發現問題-評估問題-解決問題-驗收問題”的閉環流程,貫穿整個事前、事中和事后的環節。

具體實施:如上圖所示,數據治理流程保障規劃的具體實施細則上,會重點依托易龍的“數據治理五大項目模塊”,然后每個模塊都按照“規范建設-質檢審查-發現問題-評估問題-解決問題-驗收問題”的閉環流程進行梳理和規劃。

1.1 定義理想態

①發現問題

·? ? ? 召回率(覆蓋率)100%

·? ? ? 準確率100%

指標釋義:

召回率(覆蓋率):召回率又叫覆蓋率,是指所有真實存在的問題中,系統或者人工檢測出的問題占比。例如一共100條數據,其中20條存在異常,系統報警顯示有30條存在問題,事后被驗證30條報警中真實存在問題的有10條,則召回率(覆蓋率)=10/20*100%=50%

準確率:是指所有被系統或者人工檢測出的問題中,真實存在問題的占比。例如一共100條數據,其中20條存在異常,系統報警顯示有30條存在問題,事后被驗證30條報警中真實存在問題的有10條,則準確率=10/30*100%=33.3%

注意: 理論上最理想的狀態就是一次監控任務中,所有問題都被發現,且所有報警的數據中沒有摻雜虛報情況,也就是召回率達到100%,準確率為100%。但是實際場景中,這樣的理想情況幾乎是不存在的! 過度追求高召回率,監控規則一定會設置的異常簡單,那往往會有很多正常的波動會被系統判定為“異常”;同理,過度追求高準確率,監控規則一定會設置的異常苛刻,那自然被報警的數據都是存在異常的,準確率100%,但是這樣往往很多異常數據會被監控系統給漏掉,漏報率就會異常的高!

因此,優秀的監控系統都是根據實際場景一直在找尋召回率和準確率間的平衡點。

②解決問題

·? ? ? 響應時長:24小時內響應問題

·? ? ? 定位問題:3天內完成問題的定位

·? ? ? 解決問題:2周內徹底解決問題

③數據通道質量

·? ? ? 丟失率<0.1%

·? ? ? 重復率<0.1%

·? ? ? 延遲率<0.5%

1.2 規范建設

①唯一性

·? 指標、緯度、模型、庫表、數據、報表的唯一

·? ID唯一

·? 名稱唯一

·? 定義唯一

·? 加工邏輯唯一

·? 產出渠道唯一

·? 相似的指標、緯度、模型、庫表、報表做減法,減少冗余

②規范性

·? ? ? 流程規范

·? ? ? 需求→評估→處理→測試→上線→驗收環節嚴格執行

·? ? ? 數據和流程double check

·? ? ? 測試、試驗驗證數據質量和流程執行情況

·? ? ? 日志、庫表、模型、報表、代碼有統一的設計和輸出規范,信息齊全、分層合理、資源使用合理

③完整性

·? ? ? 日志、庫表的元信息完善,灰度測試階段只有空值率、異常值占比、分區缺失等指標合格后方可上線發布

1.3 發現問題:監控體系建設

如圖2和圖3所示,對于重要級別的日志、指標、庫表數據,除了粗粒度的質檢外,還需要每天進行更加嚴格和科學的監控,以提前發現問題并推動解決:

圖2:數據埋點質量監控報表

圖3:數據指標準確性監控報表

①完整性(是否缺失或不可用)

·? 日志

·? 丟失率

·? 庫表

·? 丟失率

·? 分區缺失

·? 信息缺失(0、空值、NULL)

②準確性

·? 業務側

·? 相同指標不同報表間建立交叉驗證

·? 相同報表不同指標間建立邏輯驗證

·? 相同報表相同指標建立波動驗證

·? 技術側

·? 埋點間的交叉驗證

·? 多層庫表間相同指標交叉驗證

·? 明細層和統計層建立數據量、行數、計算結果的比對驗證

③及時性

·? 日志上報

·? 有效上傳率

·? 延遲率

·? 資源使用

·? 當前占用占比

·? 剩余資源占比

·? 任務調度

·? 完成率

·? 失敗率

·? 延遲率

1.4 問題分級

①監控分級

·? 對業務的影響度

·? 模型、庫表、報表使用熱度

·? 作業耗時熱度

·? 故障分級

②預警分級

·? 藍色預警

·? 黃色預警

·? 紅色預警

③報警方式

·? ?電話

·? ?郵件

·? ?短信

·? ?企業微信

1.5 事后處理

①問題跟蹤處理

·? ?問題分發(按業務、主題、部門等劃分問題歸屬)

·? ?問題跟蹤

·? ?問題原因追溯

·? ?問題解決排期

·? ?問題解決反饋

②問題驗收

·? ?業務驗收

·? ?監控系統驗收

③定責存檔

·? ?事故等級劃分

·? ?事故存檔

2組織保障策略

圖4:數據治理組織保障規劃示意圖

責任劃分:以“規范建設-質檢審查-發現問題-評估問題-解決問題-驗收問題”的閉環流程為切入點,將“需求規劃組、模型工程組、質檢監控組、審計評估組、數倉工程組、應急響應組”分別配屬到對應的環節中去,以提供流程執行的組織人力保障。

平臺支持:重點建設埋點管理平臺、元數據管理平臺、質檢監控平臺、工單管理平臺,為各流程環節中的組織人效提供幫助和支持。

具體實施:如上圖所示,數據應用PM、數據平臺PM和模型工程師將對整個數據治理組織和平臺的健康高效運轉負責,并對其向數據治理委員會匯報。

2.1 成立數據治理委員會,提供立法和組織保障

·? ? 成立治理制度執委會,負責研究和出臺相關治理制度和規范標準,目標是促成公司內各個業務團隊達成共識,形成統一規范,避免信息孤島

·? ? 成立治理產品執委會,負責梳理數據各環節的需求處理流程和業務流轉流程,負責各環節的治理工具建設,形成可執行方案,然后報制度執委會推行

·? ? 成立治理技術執委會,負責數據各環節的技術定義、模型設計和口徑維護,對數據資產的落庫規范性和唯一性等負責

·? ? 成立第三方治理審計監察組,負責治理效果的評估、badcase的運營跟進和事后追溯審計

2.2 項目落地實施劃分一系列項目小組

·? ? 成立需求規劃小組,對所有業務需求的接待和規范負責

·? ? 成立模型工程小組,對接數據應用PM,對數據從業務關聯到技術側的文檔和規范負責

·? ? 成立質檢監控小組,對數據業務測試和技術測試的實施負責,對數據上報的質量篩查負責,對數據質量的監控負責

·? ? 成立審計評估小組,對上報的問題評估定級負責,對問題的合理分發和處理進展負責

·? ? 成立數倉工程小組,對數倉的規范建設負責,對問題的修復負責

·? ? 成立應急響應小組,對緊急高優先級的需求快速高質量負責

3運營思路

數據治理項目規劃地圖橫向一共分為機制、流程保障、細則、責任劃分、工具平臺和各個子項目模塊(包括日志埋點模塊、通道傳輸模塊、內容規范模塊、加工過程模塊、語義定義模塊)

數據治理項目機制劃分為:事前預防——事中監控——事后處理

數據治理項目流程保障劃分為:規范建設→質檢審查→發現問題→評估問題→解決問題→驗收問題

圖5:數據治理項目規劃地圖

05結語

本期主要從數據治理的問題分析、治理目標和治理策略進行了闡述


作者:明明美團數據安全與易用性工作組PM,8次馬拉松完賽經歷,在線教育行業雙師直播模式的第一批參與者,喜歡《三體》,偶像章北海,向往“不困豫成績,不懼悔將來”的人生,立志成為一名受人尊敬的產品經理。



鏈接:https://www.toutiao.com/a6985883413601419787/?channel=&source=search_tab

————————————————————————————————————————————

免責聲明:本文轉載自網絡,所發內容不代表本網站立場,如有侵權請聯系刪除。


聯系我們

主站蜘蛛池模板: 合肥市| 横峰县| 德江县| 田林县| 大悟县| 永修县| 伊通| 达拉特旗| 汉中市| 秦皇岛市| 宁乡县| 荥经县| 商河县| 和林格尔县| 萍乡市| 乌审旗| 宜君县| 常山县| 吐鲁番市| 通河县| 武汉市| 绥滨县| 临夏市| 金溪县| 哈密市| 葫芦岛市| 寿宁县| 梨树县| 桦甸市| 张北县| 利津县| 泗洪县| 赣州市| 柞水县| 商城县| 嫩江县| 皮山县| 霍林郭勒市| 宕昌县| 长海县| 平舆县|