Trong quá trình làm việc với các dự án bigdata, việc phải sử dụng PySpark để đọc dữ liệu từ Hive Table sau đó ghi vào 1 CSDL quan hệ như SQL Server hoặc PostgreQuery thường xuyên phải sử dụng. Vì thế, hôm nay mình quyết định viết 1 bài hướng dẫn để những bạn mới làm quen với bigdata có một demo nhỏ tham khảo trước khi bắt tay vào tìm hiểu sâu hơn các công nghệ xung quanh Demo này tạo 1 python script sử dụng pySpark để đọc dữ liệu từ Hive Table thành 1 DataFrame và ... »
Galera Cluster là một trong những hệ thống Multimaster Cluster dựa trên cơ chế đồng bộ hóa, cách cài đặt và sử dụng đơn giản, mang tính trong suốt và có độ sẵn sàng cao. Galera Cluster tạo ra ưu thế khi có thể đọc ghi ở mọi node, vì lợi thế lớn đó sẽ mở ra thêm nhiều phương pháp hay để tối ưu hệ thống của chúng ta, đồng thời tiết kiệm chi phí hơn. Bài viết này sẽ đề cập đến những phương pháp đó. 1. Load Balancing Sử dụng Load Balancing (LB) là một trong những ... »
