Phân vùng và phân nhóm dữ liệu: Phân vùng và phân nhóm phù hợp có thể làm giảm lượng dữ liệu đầu vào
Các định dạng dữ liệu phù hợp: Parquet, ORC có thể giảm I/O, tốc độ truyền mạng, v.v.
Cắt bớt cột: Nói chung không sử dụng CHỌN *, chỉ lấy các cột bạn thực sự cần
Hợp nhất tệp: Sử dụng INSERT...