Das ARFF (Attribute-Relation File Format) ist ein Textdateiformat, das von der Machine Learning Group an der University of Waikato entwickelt wurde, um Datensätze zu beschreiben, die im maschinellen Lernen verwendet werden. Es wird primär mit der Software WEKA (Waikato Environment for Knowledge Analysis) verwendet, wird aber auch von anderen Werkzeugen und Plattformen für maschinelles Lernen unterstützt. Eine ARFF-Datei besteht aus zwei Hauptbereichen: einem Header-Bereich und einem Datenbereich. Der Header-Bereich ist entscheidend für die Strukturierung der Daten, da er den Relationsnamen (den Namen des Datensatzes) sowie die Attribute (auch als Merkmale oder Spalten bekannt) der Daten definiert. Jedes Attribut wird präzise mit seinem Namen und seinem spezifischen Datentyp deklariert, wie zum Beispiel numerisch, nominal, Zeichenkette oder Datum. Der Datenbereich enthält die eigentlichen Dateninstanzen, wobei jede Instanz als eine durch Kommas getrennte Liste von Attributwerten dargestellt wird. Fehlende Werte werden in der Regel durch ein Fragezeichen (?) gekennzeichnet. ARFF-Dateien sind so konzipiert, dass sie sowohl menschenlesbar sind als auch leicht von Algorithmen des maschinellen Lernens geparst werden können, was sie zu einer beliebten Wahl für die Speicherung und den Austausch von Datensätzen in der Machine-Learning-Community macht. Das Format unterstützt eine Vielzahl von Datentypen und ermöglicht die Darstellung sowohl numerischer als auch kategorialer Daten, wodurch es für eine breite Palette von Aufgaben des maschinellen Lernens vielseitig einsetzbar ist.