Từ khoá: Tunning

Một vài best practice khi tunning Spark

Một vài best practice khi tunning Spark

1. Lựa chọn RDD Operation thích hợp RDD hỗ trợ 2 loại operation: transformation và action. Khi kết hợp các transformation và action khác nhau, có thể cho cùng một kết quả. Tuy nhiên hiệu năng của chúng lại khác nhau, nên việc lựa chọn operation một cách thích hợp có thể cải thiện hiệu năng của chương trình. Sử dụng reduceByKey hoặc aggregateByKey sẽ cho hiệu năng tốt hơn groupByKey Ví dụ với bài toán đếm từ, sau đây là 2 cách dùng groupByKey và reduceByKey val words = Array("one", "two", "two", " ... »