ORC (Optimized Row Columnar - Colunar de Linha Otimizado) é um formato de arquivo colunar autodescritivo e com reconhecimento de tipo (type-aware), projetado especificamente para cargas de trabalho (workloads) Hadoop. Ele é otimizado para processamento e armazenamento de dados em larga escala, oferecendo melhorias significativas em desempenho e eficiência de armazenamento em comparação com formatos tradicionais baseados em linha (row-based), como CSV ou arquivos de texto. Arquivos ORC armazenam dados em um formato colunar, o que permite a recuperação eficiente de colunas específicas sem a necessidade de ler a linha inteira. Isso é particularmente benéfico para consultas analíticas que exigem apenas um subconjunto dos dados. O formato também suporta várias técnicas de compressão (por exemplo, Zlib, Snappy, LZO) para reduzir o espaço de armazenamento e a sobrecarga de I/O (Input/Output). Além disso, os arquivos ORC incluem metadados, como estatísticas sobre os dados dentro de cada coluna, permitindo que os otimizadores de consulta (query optimizers) ignorem blocos de dados irrelevantes e melhorem ainda mais o desempenho da consulta. ORC é amplamente utilizado em ecossistemas de big data, como Apache Hive, Apache Spark e Presto, para armazenar e processar grandes conjuntos de dados (datasets).