Thời gian gần đây, mình phải làm việc với Apache Hive thường xuyên. Việc làm sao để thời gian thực hiện các câu query trên Hive ngắn hơn trở nên rất cần thiết. Dưới đây là tổng hợp một số cách cơ bản để cải thiện performance cho Hive queries. 1. Sử dụng Apache Tez execution engine Thiết lập mặc định là Hive sẽ sử dụng Map-reduce engine để thực thi các câu query. Thay vào đó, ta có thể sử dụng Tez engine - tốc độ xử lý sẽ nhanh hơn rất nhiều khi ta dùng Map-reduce. Nếu Tez ... »