Le format de flux IPC Apache Arrow (.arrow) est un format de fichier binaire conçu pour le transfert et le stockage efficaces de données, en particulier au sein de l'écosystème Apache Arrow. Il s'agit d'un format de mémoire colonnaire (columnar memory format), ce qui signifie que les données sont organisées par colonnes plutôt que par lignes, un avantage majeur pour les charges de travail analytiques. Ce format facilite le partage de données sans copie (zero-copy) entre les processus et les systèmes, réduisant considérablement la surcharge (overhead) et améliorant les performances. Les flux Arrow IPC (Inter-Process Communication) sont typiquement utilisés pour transférer de grands ensembles de données entre des applications prenant en charge le format Arrow, telles que les moteurs de traitement de données, les bases de données et les frameworks d'apprentissage automatique. Le format inclut des métadonnées décrivant le schéma des données, permettant un échange de données auto-descriptif. Il est optimisé pour une sérialisation et une désérialisation rapides, ce qui le rend idéal pour le traitement de données en temps réel et le calcul haute performance. Le format est agnostique du langage (language-agnostic), avec des implémentations disponibles dans divers langages de programmation, notamment Python, Java, C++ et R. L'extension de fichier .arrow représente généralement un flux de données Arrow, qui peut être un seul lot (batch) ou une séquence de lots représentant un ensemble de données plus vaste. Le format est conçu pour être extensible et prend en charge divers types de données et encodages.