Apache Parquet — это колоночный (столбцовый) формат хранения данных, оптимизированный для использования с фреймворками обработки больших данных (big data). В отличие от построчно-ориентированных форматов, Parquet хранит данные по столбцам, что обеспечивает эффективное сжатие и кодирование данных. Такое колоночное хранение позволяет механизмам запросов (query engines) извлекать только необходимые столбцы для заданного запроса, что значительно сокращает операции ввода-вывода (I/O) и повышает производительность запросов. Parquet спроектирован как самоописывающийся формат, что означает, что схема встроена в сам файл данных. Это устраняет необходимость во внешних хранилищах метаданных и упрощает управление данными. Он поддерживает широкий спектр типов данных и сложные вложенные структуры. Parquet широко используется в хранилищах данных (data warehousing), озерах данных (data lakes) и других приложениях для работы с большими данными, где критически важны эффективное хранение и извлечение данных. Его интеграция с популярными фреймворками, такими как Apache Spark, Hadoop и Presto, делает его универсальным выбором для конвейеров обработки данных. Формат разработан как для операций чтения, так и для записи, хотя чаще всего он используется в сценариях, где данные записываются один раз и читаются многократно (write-once, read-many).