數據集,又稱為資料集,數據集合或資料集合,是壹種由數據所組成的集合,Dataset是壹個數據的集合,通常以表格形式出現,每壹列代表壹個特定變量,每壹行都對應於某壹成員的數據集的問題。
數據集是進行數據預處理,預處理後的數據相比於原始數據增加了分詞結果,並且在每篇文檔中增加了與問題最相關的段落,文檔最優段落的選擇是使用壹篇文檔中的所有段落分別與答案集求recall值,得到最高的查全率的段落為最優段落,如果出現recall值相等的情況,取段落短的為最優段落。