apache - GMO-Z.com Vietnam Lab Center Technology Blog

Tìm hiểu Hive Complex Types

08 November 2016

Mở đầu Apache Hive là một kho lưu trữ dữ liệu (data warehouse) giúp xử lý các tập dữ liệu lớn lưu trữ phân tán trên nền tảng Hadoop. Hive dùng SQL nên dễ tiếp cận với đa số mọi người (đã quá quen thuộc với SQL). Trong quá trình làm việc với Hive, chủ yếu mình thường dùng các kiểu dữ liệu cơ bản như Numeric Types Date/Time Types String Types Boolean Types Nhưng, trong dự án gần đây thì mình có dùng đến Complex Types của Hive. Sau đây là 1 vài tóm tắt về nó. I. ... »

Giới thiệu Gradle Build Tool

25 July 2016

apache, ant, maven, Build Automation, Gradle

Gradle là gì? Trong quá trình phát triển phần mềm, việc tự động hóa quá trình build và quản lý các thư viện rất quan trọng, nhằm tối ưu hóa công đoạn biên dịch, đóng gói; thuận tiện hơn cho việc phát triển phần mềm. Và Gradle (release version 1.0 năm 2012) là 1 trong những công cụ được nhiều người lựa chọn. Năm 2000, Apache Ant ra đời như là một trong những tool đóng gói hiện đại và nhanh chóng được sử dụng trong các dự án sử dụng ngôn ngữ Java. Ant cho phép nhà phát ... »

Giới thiệu Apache Knox

03 June 2016

apache, Apache Knox, Apache Knox Gateway, Hive Server2, JDBC

1. Apache Knox Apache Knox Gateway là REST API Getway để tương tác với Apache Hadoop. Nó cung cấp 1 điểm truy cập duy nhất cho tất cả các REST tương tác với các Apache Hadoop cluster. Knox tích hợp với các hệ thống: Identity Management, SSO. 1.1 Luồng bảo mật Knox có thể sử dụng cho cả với Hadoop clusters không thiết lập bảo mật và có thiết lập bảo mật. Hình trên là luồng bảo mật khi ứng dụng Knox vào các cluster thiết lập bảo mật với Kerberos: Knox tích hợp tốt với các giải pháp ... »

Một vài best practice khi tunning Spark

24 December 2015

apache, Spark, Tunning

1. Lựa chọn RDD Operation thích hợp RDD hỗ trợ 2 loại operation: transformation và action. Khi kết hợp các transformation và action khác nhau, có thể cho cùng một kết quả. Tuy nhiên hiệu năng của chúng lại khác nhau, nên việc lựa chọn operation một cách thích hợp có thể cải thiện hiệu năng của chương trình. Sử dụng reduceByKey hoặc aggregateByKey sẽ cho hiệu năng tốt hơn groupByKey Ví dụ với bài toán đếm từ, sau đây là 2 cách dùng groupByKey và reduceByKey val words = Array("one", "two", "two", " ... »