ORC (Optimized Row Columnar) è un formato di file colonnare auto-descrittivo e consapevole del tipo, progettato per i carichi di lavoro Hadoop. È ottimizzato per l'elaborazione e l'archiviazione di dati su larga scala, offrendo significativi miglioramenti in termini di prestazioni ed efficienza di archiviazione rispetto ai formati tradizionali basati su righe come CSV o file di testo. I file ORC memorizzano i dati in un formato colonnare, il che consente un recupero efficiente di colonne specifiche senza dover leggere l'intera riga. Questo è particolarmente vantaggioso per le query analitiche che richiedono solo un sottoinsieme dei dati. Il formato supporta inoltre varie tecniche di compressione (ad esempio, Zlib, Snappy, LZO) per ridurre lo spazio di archiviazione e l'overhead di I/O. Inoltre, i file ORC includono metadati come statistiche sui dati all'interno di ciascuna colonna, consentendo agli ottimizzatori di query di saltare blocchi di dati irrilevanti e migliorare ulteriormente le prestazioni delle query. ORC è ampiamente utilizzato negli ecosistemi di big data come Apache Hive, Apache Spark e Presto per l'archiviazione e l'elaborazione di grandi set di dati.