Key words:big data

Chuyển dữ liệu log nginx vào Google Big Query bằng Fluentd

Chuyển dữ liệu log nginx vào Google Big Query bằng Fluentd

Giới thiệuKhi triển khai các ứng dụng web server, bạn sẽ gặp một yêu cầu duy trì và lưu trữ log. Trong bài viết này sẽ hướng dẫn về Fluentd triển khai trên Google Cloud để bắt log của nginx và chuyển về Google Big Query. Fluentd là một trình thu thập dữ liệu mã nguồn mở để thống nhất cơ sở lưu trữ log của bạn. Nó kết hợp các giải pháp đối với việc tính toán, ứng dụng, và dữ liệu với nhau để việc thu thập và lưu trữ log trở nên đơn giản và dễ mở ... »

Viết Unit Test cho chương trình PySpark

Viết Unit Test cho chương trình PySpark

Một số bài viết trước trên blog VietnamLab đã giới thiệu về Apache Spark, một framework rất mạnh phục vụ cho việc tính toán phân tán, đồng thời cũng hỗ trợ rất nhiều các thuật toán Machine Learning. PySpark là giao diện Python hỗ trợ việc viết chương trình Spark sử dụng ngôn ngữ Python (dễ học và dễ dùng hơn nhiều so với Scala). Tuy nhiên việc viết Unit Test tưởng chừng như rất đơn giản đối với các chương trình Python thì lại khá phức tạp và rắc rối đối với các chương trình PySpark (do bản chất ... »