Pandas나 PySpark등을 사용하다보면 *.csv
포맷으로는 만족하지 못하는 경우가 많다.
예를들어..
Data Type이 저장되지 않는다.
너무 많은 데이터는 저장해도 CSV의 이점(엑셀로 열어볼 수 있다)을 살리지 못한다.
특정 Column만 선택하는 것이 불가능하다. (= 전체 파일을 항상 모두 열어야 한다)
용량이 상대적으로 작지만 크다 (압축을 하지 않은 경우)
(종종) Escaping이 잘 되지 않은 경우에는 파일 Parsing이 깨진다.
한글이 들어간 csv의 경우 “MS Excel”에서는 BOM이 없으면 UTF-8을 제대로 인식하지 못한다. (한편, euc-kr 인코딩은 잘 읽는다.)
등등.. 여러가지 이슈가 있다.
그렇다면, 어떤 형식을 써야 할까?