ORC (Optimized Row Columnar) — это самодокументируемый, учитывающий типы данных столбчатый формат файлов, разработанный специально для экосистемы Hadoop и высоконагруженных вычислений. Он оптимизирован для крупномасштабной обработки и хранения данных, обеспечивая значительное преимущество в производительности и эффективности сжатия по сравнению с традиционными строковыми форматами, такими как CSV или обычные текстовые файлы. В файлах ORC данные организованы по столбцам, что позволяет выполнять эффективную выборку только необходимых атрибутов без необходимости считывания всей строки целиком. Это критически важно для аналитических запросов, работающих с подмножествами данных. Формат поддерживает продвинутые алгоритмы сжатия, включая Zlib, Snappy и LZO, что минимизирует затраты на хранение и снижает нагрузку на подсистему ввода-вывода (I/O). Кроме того, ORC содержит встроенные метаданные и статистику по каждому столбцу, позволяя оптимизаторам запросов игнорировать нерелевантные блоки данных, тем самым существенно ускоряя выполнение операций. Данный формат является стандартом де-факто в таких инструментах обработки больших данных (Big Data), как Apache Hive, Apache Spark, Presto, Dremio и Trino.