ORC (Optimized Row Columnar) ist ein selbstbeschreibendes, typbewusstes spaltenbasiertes Dateiformat, das speziell für Hadoop-Workloads entwickelt wurde. Es ist für die großflächige Datenverarbeitung und Speicherung optimiert und bietet erhebliche Verbesserungen der Leistung und Speichereffizienz im Vergleich zu herkömmlichen zeilenbasierten Formaten wie CSV oder einfachen Textdateien. ORC-Dateien speichern Daten in einem spaltenorientierten Format, was eine effiziente Abfrage spezifischer Spalten ermöglicht, ohne die gesamte Zeile lesen zu müssen. Dies ist besonders vorteilhaft für analytische Abfragen, die nur eine Untermenge der Daten benötigen. Das Format unterstützt zudem verschiedene Komprimierungstechniken (z. B. Zlib, Snappy, LZO), um den Speicherplatzbedarf und den E/A-Overhead zu reduzieren. Darüber hinaus enthalten ORC-Dateien Metadaten, wie z. B. Statistiken über die Daten innerhalb jeder Spalte. Diese Metadaten ermöglichen es Abfrageoptimierern, irrelevante Datenblöcke zu überspringen und die Abfrageleistung weiter zu verbessern. ORC wird häufig in Big-Data-Ökosystemen wie Apache Hive, Apache Spark und Presto zur Speicherung und Verarbeitung großer Datensätze verwendet.