Trong quá trình làm việc với các dự án bigdata, việc phải sử dụng PySpark để đọc dữ liệu từ Hive Table sau đó ghi vào 1 CSDL quan hệ như SQL Server hoặc PostgreQuery thường xuyên phải sử dụng. Vì thế, hôm nay mình quyết định viết 1 bài hướng dẫn để những bạn mới làm quen với bigdata có một demo nhỏ tham khảo trước khi bắt tay vào tìm hiểu sâu hơn các công nghệ xung quanh Demo này tạo 1 python script sử dụng pySpark để đọc dữ liệu từ Hive Table thành 1 DataFrame và ... »
Hiện nay, devops đã trở nên quen thuộc và phổ biến. Rất nhiều công cụ ra đời giúp việc cài đặt, thiết lập server trở nên dễ dàng và hiệu quả hơn rất nhiều. Tuy nhiên, ở mức thấp hơn là tạo ra các server, thì không hẳn nhiều người biết, và Terraform sẽ giúp giải quyết điều đó. Terraform là gì? Terraform là một công cụ giúp bạn khởi tạo, thay đổi, xóa và quản lý hệ thống (infrastructure) một cách hiệu quả và dễ phán đoán. Nôm na là đưa việc quản lý servers thay vì bằng tay ... »