總的來說,分類標註就是標註。壹張圖片可以有很多類別或標簽,比如成人、長發等。對於詞,可以標註主謂賓語、名詞動詞等等。數據標註是大多數人工智能算法有效運行的關鍵環節。簡單來說,數據標註就是對未經處理的語音、圖片、文本、視頻等數據進行處理,從而轉化為機器可讀信息的過程。
分類標註是最基本的標註方式,其表現形式壹般是壹張圖片對應壹個數字標簽,比如狗對貓數據集,可以分為Dogs和貓。所以在設計標簽的時候,DOGS可以用0,貓可以用1。另外,數據註記還包括追蹤點註記和框架註記,描述性註記不在註記方式之列。
數據標註的質量和標註過程
數據的高質量體現在兩個方面:壹是標簽數量多,二是標簽質量高。
1.圖像標註的質量標準:圖像標註的質量取決於像素確定的精度。標註像素越靠近被標註對象的邊緣像素,標註質量越高,標註難度越大。如果圖像標註要求的精度是100%,那麽被標註像素與被標註對象的邊緣像素之間的誤差應該在1像素以內。
2.語音標註的質量標準:語音標註時,語音數據發音的時間軸要與標註區域的音標同步。發音時間軸上標註的誤差要控制在1個語音幀以內。如果誤差大於1個語音幀,很容易標記下壹個發音,造成數據嘈雜。
3.文本標註的質量標準:文本標註涉及的任務很多,不同任務的質量標準也不壹樣。比如分詞的質量標準是標註的分詞與詞典中的詞壹致,沒有歧義;情感標註的質量標準是標註句子的情感分類等級正確。