[PySpark] PySpark vs. Pandas 속도 비교
·
Databases/Data Engineering
서론 PySpark를 통해 대량의 데이터를 빠르게 처리할 수 있다. 또한 디스크 기반이 아닌 메모리 기반 처리를 통해 반복적인 계산이 많은 경우에 장점을 가진다. PySpark를 사용하는 경우, 사용하지 않는 경우(Pandas) 처리 속도가 어느 정도 차이가 나는지 간단히 확인해보고자 한다.코드# 예제 데이터 생성names = [f'Name{i}' for i in range(1, 101)]mbti_types = ['INTJ', 'ENTP', 'INFJ', 'ENFP', 'ISTJ', 'ESFP', 'ISFJ', 'ESTP', 'INTP', 'ENTJ', 'ISTP', 'ENFJ']data = { 'Name': names, 'MBTI': [random.choice(mbt..