從數據到行動和洞察力 - Conviva的經驗分享
目錄
- 自我介紹
- 關於Kuvira和Auto Tech Gnostics Alert
- 網絡視頻流媒體行業的發展趨勢
- 架構和運作方式
- 如何檢測異常
- 異常診斷的過程
- 機器學習在小組評估中的應用
- 上線產品的反饋和未來發展
- 總結
- 常見問題解答
自我介紹
嗨大家好,歡迎來到我們的介紹。我是Yen,這是我的同事Ray。我們都來自Kanaeva的工程團隊。今天,我們將談論在Kuvira上開發的一個項目——Auto Tech Gnostics Alert。這個系統旨在檢測網絡視頻流媒體中的異常,自動診斷其根本原因,並採取即時措施解決問題。
關於Kuvira和Auto Tech Gnostics Alert
Auto Tech Gnostics Alert(下文簡稱ATA)是一個先進的系統,旨在解決網絡視頻流媒體行業面臨的挑戰。隨著互聯網視頻流媒體的快速發展,很多內容提供商紛紛將他們的內容上傳到網絡上。然而,保證端到端的成功視頻流仍然非常困難。
ATA通過分析時間序列數據,自動檢測質量問題,並診斷問題的根本原因。它通過監測視頻會話,計算關鍵績效指標(KPI),並對視頻生態進行優化,從而提高觀眾參與度。它使用先進的演算法在客戶端播放器和後端運行,不斷改進視頻質量。總之,ATA的目標是最大化觀眾參與度,這是我們客戶成功的關鍵。
網絡視頻流媒體行業的發展趨勢
在過去的幾年裡,網絡視頻流媒體行業發生了巨大變革。從傳統電視到網絡視頻,越來越多的內容只能在網絡上觀看。根據Cisco的預測,到2019年,全球80%以上的互聯網流量將用於網絡視頻流媒體。可以看出,這個行業正在飛速增長。
然而,要保證成功的端到端流媒體仍然非常困難。這是因為網絡視頻流媒體的管道中存在許多實體,任何實體都可能在任何時候靜默失效。這些故障可能會導致視頻質量下降。例如,如果iPhone的播放器有問題,可能會導致使用iPhone的觀眾經歷緩衝問題。在這種情況下,需要找到問題的根本原因,以便採取有效的措施解決問題。
架構和運作方式
ATA系統通過分析時間序列數據並運行根本原因分析演算法,檢測網絡視頻流媒體中的質量問題並尋找其根本原因。以下是ATA系統的運作方式:
- ATA系統每分鐘都會在Spark集群上運行一個作業。
- 在每個作業中,系統會從HDFS加載視頻會話,然後根據事先定義的小組計算關鍵績效指標(KPI)。
- 系統會生成每個小組的時間序列數據並運行異常檢測演算法。
- 異常檢測結果將存儲於Phoenix中,同時將根本原因信息存儲到數據庫中。
- 外部API可以通過調用系統提供的接口來獲取數據。
整個ATA系統的運作過程可以分為三個步驟:數據加載、異常檢測和根本原因分析。
如何檢測異常
ATA系統通過計算時間序列數據的基線和容錯閾值來檢測異常。以下是檢測異常的過程:
- 首先,系統根據過去的歷史數據估計基線。
- 在基線的基礎上,系統計算一個容錯閾值,該閾值是基線的幾個標準差。
- 如果質量指標低於容錯閾值,則認為該指標正常;如果高於容錯閾值,則認為存在異常。
- 對於異常的時間序列數據,系統會計算異常對質量的影響,並生成警報。
- 在生成警報時,系統會同時計算導致異常的根本原因。
這種檢測異常的方法能夠幫助我們迅速發現質量問題,並定位其根本原因。
異常診斷的過程
為了找到異常的根本原因,ATA系統使用了一個稱為「異常診斷圖」的結構。該結構以層次結構的形式表示,其中每個節點表示一個小組。以下是異常診斷的過程:
- 首先,系統建構異常診斷圖,每個小組與其父節點之間透過連接表示。
- 異常檢測過程中,系統會標記每個節點是否存在異常。
- 系統從頂層開始向下搜索,在節點存在異常時,遞歸深入尋找根本原因。
- 當搜索達到最底層節點時,即可確定根本原因。
總的來說,異常診斷的過程通過系統atically地遞歸搜索異常,從而找到異常的根本原因。
機器學習在小組評估中的應用
對於一些小組,由於數據量很少或時間序列數據非常特殊,我們無法確定它們是否異常。為了解決這個問題,ATA系統引入了機器學習模型。
機器學習模型通過訓練其他視頻會話的數據,並根據小組的特徵預測其平均性能。然後,系統使用與之前相同的異常檢測演算法來檢測小組是否存在異常。這樣,即使對於數據量較少的小組,我們也能夠對其進行適當的評估。
上線產品的反饋和未來發展
ATA系統已經上線並獲得了客戶的積極反饋。我們目前可以支持25個視頻發行商的海量雙向通信,並提供多個績效指標。未來,我們將致力於更系統地評估檢測和診斷算法的準確性,並進一步優化系統性能。
總結
ATA系統是我們在Kuvira上開發的一個項目,旨在檢測網絡視頻流媒體中的質量問題並找到其根本原因。通過分析時間序列數據並運行演算法,我們能夠快速檢測質量問題並定位其根本原因。這將有助於提高觀眾參與度,為我們的客戶帶來成功。
常見問題解答
Q: ATA系統如何檢測異常?
A: ATA系統通過計算時間序列數據的基線和容錯閾值來檢測質量異常。如果質量指標超出容錯閾值,則認為存在異常。
Q: ATA系統如何進行異常診斷?
A: ATA系統使用異常診斷圖結構,從頂層向下搜索,以尋找異常的根本原因。
Q: ATA系統如何處理數據量較少的小組?
A: ATA系統使用機器學習模型對數據量較少的小組進行評估,從而確定其是否異常。
Q: ATA系統的性能如何?
A: ATA系統的性能良好,每分鐘的作業平均可在45秒內完成。
Q: 未來ATA系統的發展方向是什麼?
A: 在未來,我們將進一步改進檢測和診斷算法的準確性,並優化系統的性能。
Q: 如何獲取ATA系統的數據?
A: 外部API可以通過調用系統提供的接口來獲取ATA系統的數據。
資源
(文章字數: 1005 字)