Từ dữ liệu đến hành động và nhận thức tại Conviva - Yan Li & Rui Zhang
Bảng mục lục
- Giới thiệu
- Vấn đề đặt ra
- Phân tích hệ thống
- Cách phát hiện biên độ dữ liệu
- Xây dựng đồ thị chẩn đoán
- Thuật toán chẩn đoán và tìm nguyên nhân
- Giải pháp máy học cho các nhóm nhỏ
- Hiệu suất hệ thống
- Phát hiện thất bại CDN
- Đánh giá và công việc tương lai
- Tổng kết
Giới thiệu
Chào mừng đến với buổi thuyết trình của chúng tôi về dự án Auto Tech Gnostics Alert tại Kuvira. Trong buổi thuyết trình này, chúng tôi sẽ giới thiệu về hệ thống Auto Tech Gnostics Alert, một hệ thống giám sát và chẩn đoán các vấn đề trong quá trình truyền dữ liệu video trực tuyến. Hệ thống này cho phép chúng ta phát hiện các lỗi phát video và xác định nguyên nhân gốc rễ để có thể khắc phục kịp thời. Tiếp theo, chúng tôi sẽ trình bày chi tiết về hệ thống này và các thuật toán đã được sử dụng để phát hiện và chẩn đoán sự cố. Đồng thời, chúng tôi cũng sẽ chia sẻ những thách thức và kế hoạch phát triển trong tương lai.
Vấn đề đặt ra
Trong những năm gần đây, việc phát video trực tuyến trên Internet, được gọi là OTT, đang phát triển rất nhanh chóng. Tuy nhiên, việc đảm bảo quá trình truyền dữ liệu video trực tuyến suôn sẻ vẫn còn gặp nhiều khó khăn. Ví dụ, một lỗi ở một phần trong đường truyền dữ liệu có thể làm giảm chất lượng video và gây khó khăn cho người xem. Điều này đặt ra thách thức lớn đối với các nhà sản xuất nội dung video trực tuyến, vì họ cần phát hiện và khắc phục lỗi kịp thời để duy trì sự hài lòng của khán giả.
Phân tích hệ thống
Hệ thống Auto Tech Gnostics Alert giúp giám sát quá trình truyền dữ liệu video trực tuyến và chẩn đoán các vấn đề liên quan. Hệ thống này sử dụng thuật toán để phân tích chuỗi thời gian của các chỉ số chất lượng video và xác định các điểm không bình thường. Các chỉ số này bao gồm tỉ lệ chờ tải, tốc độ truyền dữ liệu và các mã lỗi nhận được từ trình phát video. Bằng cách phân tích các chuỗi thời gian này, hệ thống có thể nhận biết các tình huống có vấn đề và xác định nguyên nhân gốc rễ.
Cách phát hiện biên độ dữ liệu
Một phần quan trọng của hệ thống là khả năng phát hiện biên độ dữ liệu không bình thường. Để làm được điều này, chúng tôi sử dụng hai bước. Trước tiên, chúng tôi ước tính một giá trị cơ sở dựa trên dữ liệu lịch sử và tính toán ngưỡng dung sai dựa trên giá trị trung bình. Chỉ số chất lượng video sẽ được coi là bình thường nếu nằm dưới ngưỡng dung sai. Nếu vượt quá ngưỡng này, chúng tôi tính toán diện tích của từng biên độ để xác định mức ảnh hưởng của sự cố. Nếu diện tích vượt quá một ngưỡng khác, chúng tôi coi đó là một sự cố không bình thường.
Xây dựng đồ thị chẩn đoán
Để xác định nguyên nhân gốc rễ của sự cố, chúng tôi xây dựng một đồ thị chẩn đoán. Đồ thị này biểu diễn các nhóm video sessions theo các quy tắc như video publisher, CDN và thiết bị sử dụng. Mỗi nhóm đại diện cho một phần trong đường truyền dữ liệu. Chúng tôi chạy thuật toán phát hiện sự cố cho tất cả các nhóm trong đồ thị và đánh dấu các nhóm có sự cố. Sau đó, chúng tôi tìm kiếm đồ thị từ cấp độ cao nhất xuống cấp độ thấp nhất để xác định nguyên nhân gốc rễ. Quá trình này tiếp tục cho đến khi chúng tôi tìm thấy một nhóm không có nhóm con hoặc tất cả các nhóm con đều bị sự cố.
Thuật toán chẩn đoán và tìm nguyên nhân
Thuật toán chẩn đoán và tìm nguyên nhân của chúng tôi hoạt động như sau: đầu tiên, chúng tôi chạy thuật toán phát hiện sự cố cho tất cả các nhóm trong đồ thị chẩn đoán. Sau đó, chúng tôi tìm kiếm từ cấp độ cao nhất của đồ thị xuống cấp độ thấp nhất. Khi chúng tôi tìm thấy một nhóm có sự cố, chúng tôi tiếp tục tìm kiếm các nhóm con để xác định nguyên nhân gốc rễ. Quá trình này tiếp tục cho đến khi chúng tôi tìm thấy một nhóm không có nhóm con hoặc tất cả các nhóm con đều bị sự cố. Kết quả cuối cùng là xác định nguyên nhân gốc rễ của sự cố.
Giải pháp máy học cho các nhóm nhỏ
Một giới hạn của thuật toán chẩn đoán là đôi khi chúng tôi không chắc chắn liệu một nhóm nhỏ có sự cố không. Điều này xảy ra khi một nhóm có ít lưu lượng và chuỗi thời gian đặc biệt. Để giải quyết vấn đề này, chúng tôi sử dụng một mô hình học máy để ước tính hiệu suất của nhóm nhỏ. Mô hình học máy được đào tạo dựa trên các thông số của các video sessions khác và dự đoán hiệu suất trung bình cho nhóm nhỏ. Sau đó, chúng tôi chạy thuật toán phát hiện sự cố cho nhóm nhỏ dựa trên chuỗi thời gian đã tính toán. Kết quả cuối cùng là xác định xem có sự cố không trong nhóm nhỏ.
Hiệu suất hệ thống
Hệ thống Auto Tech Gnostics Alert đã được triển khai thành công và nhận được phản hồi tích cực từ khách hàng. Hiện tại, hệ thống có thể hỗ trợ 25 nhà xuất bản video và hàng nghìn video sessions mỗi phút. Chúng tôi đang tiếp tục nghiên cứu và phát triển để cải thiện độ chính xác, độ trễ, và khả năng mở rộng của hệ thống.
Phát hiện thất bại CDN
Hệ thống của chúng tôi đã thành công trong việc phát hiện sự cố thất bại của CDN trong lưu lượng trực tiếp của Level 3. Bằng cách phân tích chuỗi thời gian, chúng tôi phát hiện một spike không bình thường trong chuỗi thời gian của nhóm gốc. Chỉ số khối lượng lưu lượng cũng cho thấy sự ảnh hưởng của sự cố. Chúng tôi cũng cung cấp danh sách mẫu của các video session bị ảnh hưởng để khách hàng có thể xem chi tiết và khắc phục sự cố.
Đánh giá và công việc tương lai
Trong tương lai, chúng tôi đang xem xét các phương pháp đánh giá và cải thiện độ chính xác của thuật toán phát hiện và chẩn đoán sự cố. Điều này rất khó vì quyết định liệu một spike có phải là sự cố hay không phụ thuộc vào định nghĩa tác động của khách hàng. Chúng tôi cũng cần thử nghiệm các thuật toán phát hiện và chẩn đoán khác nhau và tinh chỉnh hệ thống để cải thiện thời gian phản hồi. Hiện tại, chúng tôi đang tuyển dụng để nâng cao hiệu suất của hệ thống.
Tổng kết
Trong buổi thuyết trình này, chúng tôi đã giới thiệu về hệ thống Auto Tech Gnostics Alert và các thuật toán được sử dụng để phát hiện và chẩn đoán sự cố. Chúng tôi cũng đã chia sẻ về kế hoạch phát triển và những thách thức trong tương lai. Hiện tại, hệ thống của chúng tôi đã được triển khai thành công và nhận được đánh giá tích cực từ khách hàng. Chúng tôi đang tiếp tục nghiên cứu và phát triển để cải thiện hiệu suất và độ chính xác của hệ thống.