Trong quá trình làm việc với các dự án bigdata, việc phải sử dụng PySpark để đọc dữ liệu từ Hive Table sau đó ghi vào 1 CSDL quan hệ như SQL Server hoặc PostgreQuery thường xuyên phải sử dụng. Vì thế, hôm nay mình quyết định viết 1 bài hướng dẫn để những bạn mới làm quen với bigdata có một demo nhỏ tham khảo trước khi bắt tay vào tìm hiểu sâu hơn các công nghệ xung quanh Demo này tạo 1 python script sử dụng pySpark để đọc dữ liệu từ Hive Table thành 1 DataFrame và ... »
WSL và DockerDocker là gì thì các bài blog trước trên blog của VietnamLab đã giải thích khá khá (bạn đọc có thể search keyword docker trên blog của Vietnam Lab). Một trong những lợi ích của việc sử dụng Docker là giúp cho việc xây dựng môi trường phát triển trên local environment trở nên dễ dàng và đồng nhất giữa các môi trường và máy tính khác nhau. Tuy nhiên, trước đây người dùng Windows muốn sử dụng Docker thì thường phải cài đặt máy ảo Linux trên Virtual Box hoặc các công cụ ảo hóa khác, sau ... »