Pandas에서 Parquet 사용하기 with Snappy/Gzip

Pandas나 PySpark등을 사용하다보면 *.csv 포맷으로는 만족하지 못하는 경우가 많다.

예를들어..

  • Data Type이 저장되지 않는다.

  • 너무 많은 데이터는 저장해도 CSV의 이점(엑셀로 열어볼 수 있다)을 살리지 못한다.

  • 특정 Column만 선택하는 것이 불가능하다. (= 전체 파일을 항상 모두 열어야 한다)

  • 용량이 상대적으로 작지만 크다 (압축을 하지 않은 경우)

  • (종종) Escaping이 잘 되지 않은 경우에는 파일 Parsing이 깨진다.

  • 한글이 들어간 csv의 경우 “MS Excel”에서는 BOM이 없으면 UTF-8을 제대로 인식하지 못한다. (한편, euc-kr 인코딩은 잘 읽는다.)

등등.. 여러가지 이슈가 있다.

그렇다면, 어떤 형식을 써야 할까?

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×