Key words:Apache Hive

Import Data từ MySQL vào Hive sử dụng Sqoop

Import Data từ MySQL vào Hive sử dụng Sqoop

ETL là gì ? Trong thời gian gần đây, tôi có điều kiện làm việc trong team ETL. Vậy ETL là gì ? ETL là viết tắt của Extract Transform Load gọi là quá trình làm thế nào dữ liệu được đưa vào từ các nguồn dữ liệu vào kho dữ liệu. ETL gồm 3 bước là : Extracts : đi thu gom dữ liệu từ nhiều nguồn khác nhauTransforms : chuyển đổi dữ liệu, như mô hình ở trên mục đích của chúng ta là chuyển đổi dữ liệu nghiệp vụ thành dạng dữ liệu có thể phân tích được. Ngoài ra ở bước ... »

Một vài best practices khi làm việc với Apache Hive

Một vài best practices khi làm việc với Apache Hive

Thời gian gần đây, mình phải làm việc với Apache Hive thường xuyên. Việc làm sao để thời gian thực hiện các câu query trên Hive ngắn hơn trở nên rất cần thiết. Dưới đây là tổng hợp một số cách cơ bản để cải thiện performance cho Hive queries. 1. Sử dụng Apache Tez execution engine Thiết lập mặc định là Hive sẽ sử dụng Map-reduce engine để thực thi các câu query. Thay vào đó, ta có thể sử dụng Tez engine - tốc độ xử lý sẽ nhanh hơn rất nhiều khi ta dùng Map-reduce. Nếu Tez ... »

Tìm hiểu Hive Complex Types

Tìm hiểu Hive Complex Types

Mở đầu Apache Hive là một kho lưu trữ dữ liệu (data warehouse) giúp xử lý các tập dữ liệu lớn lưu trữ phân tán trên nền tảng Hadoop. Hive dùng SQL nên dễ tiếp cận với đa số mọi người (đã quá quen thuộc với SQL). Trong quá trình làm việc với Hive, chủ yếu mình thường dùng các kiểu dữ liệu cơ bản như Numeric Types Date/Time Types String Types Boolean Types Nhưng, trong dự án gần đây thì mình có dùng đến Complex Types của Hive. Sau đây là 1 vài tóm tắt về nó. I. ... »