ORC(Optimized Row Columnar)는 Hadoop 워크로드를 위해 설계된 자체 설명(self-describing) 및 타입 인식(type-aware) 컬럼 기반 파일 형식입니다. 이는 대규모 데이터 처리 및 저장을 위해 최적화되어 있으며, CSV나 텍스트 파일과 같은 기존의 행 기반 형식에 비해 성능과 저장 효율성에서 상당한 개선을 제공합니다. ORC 파일은 데이터를 컬럼 형식으로 저장하여 전체 행을 읽지 않고도 특정 컬럼을 효율적으로 검색할 수 있게 합니다. 이는 데이터의 일부만 필요한 분석 쿼리에 특히 유용합니다. 또한 이 형식은 Zlib, Snappy, LZO와 같은 다양한 압축 기술을 지원하여 저장 공간과 I/O 오버헤드를 줄입니다. 나아가 ORC 파일에는 각 컬럼 내 데이터에 대한 통계와 같은 메타데이터가 포함되어 있어 쿼리 최적화 프로그램이 관련 없는 데이터 블록을 건너뛰어 쿼리 성능을 더욱 향상시킬 수 있습니다. ORC는 Apache Hive, Apache Spark, Presto와 같은 빅 데이터 생태계에서 대규모 데이터 세트를 저장하고 처리하는 데 널리 사용됩니다.