ARFF(Attribute-Relation File Format)는 뉴질랜드 와이카토 대학교(University of Waikato)의 머신러닝 그룹에서 머신러닝 연구 및 데이터 분석에 사용되는 데이터 세트를 기술하기 위해 개발한 텍스트 기반의 파일 형식입니다. 이 형식은 주로 와이카토 지식 분석 환경인 WEKA(Waikato Environment for Knowledge Analysis) 소프트웨어에서 표준으로 사용되지만, 현재는 RapidMiner, KNIME 등 다른 다양한 머신러닝 도구와 라이브러리에서도 널리 지원됩니다. ARFF 파일은 크게 헤더(Header) 섹션과 데이터(Data) 섹션의 두 부분으로 구성됩니다. 헤더 섹션에서는 관계의 이름(데이터 세트의 명칭)과 데이터의 각 속성(특징 또는 열)을 정의하며, 각 속성은 고유한 이름과 데이터 유형(예: numeric, nominal, string, date)을 가집니다. 데이터 섹션에는 실제 데이터 인스턴스들이 포함되며, 각 인스턴스는 쉼표로 구분된 속성 값의 목록으로 표현됩니다. 데이터 세트 내의 결측값(Missing values)은 일반적으로 물음표(?) 기호로 표시됩니다. ARFF 파일은 텍스트 형식으로 되어 있어 사람이 직접 읽고 편집하기 쉬울 뿐만 아니라 머신러닝 알고리즘이 효율적으로 파싱할 수 있도록 설계되었습니다. 이러한 특성 덕분에 머신러닝 커뮤니티에서 데이터 세트를 저장하고 공유하는 데 널리 활용되며, 수치형 데이터와 범주형 데이터를 모두 유연하게 처리할 수 있어 광범위한 데이터 마이닝 작업에 적합합니다.