名詞(n)、時間詞(t)、方位詞(s)、方位詞(f)、數詞(m)、量詞(q)、區別詞(b)、代詞(r)、動詞(v)、形容詞(a)、狀態詞(z)、副詞(d)等。
這些基本詞類可以組合成更大的詞類。名詞、時間詞、處所詞、方位詞、數詞、量詞統稱為體詞,動詞、形容詞、狀態詞統稱為謂語。有些代詞屬於體詞,有些屬於謂語。體詞、謂語、區別詞和副詞統稱為實詞。介詞、連詞、助詞、語氣詞統稱為虛詞。
傳統的自然語言處理技術要求在自然語言處理系統中配備電子詞典。對於計算機系統,可以認為作為電子詞典詞條的語言單位是“單詞”。其中大部分必須是語言學家認可的詞,這就暗示了其中壹部分不能被視為“詞”。從計算機處理實際文本的需要和提高計算機處理效率的角度出發,詞典還包含以下七個語言成分:
預處理成分(H): A、老、非、超、丹。
其次是組件(k):子、子、性別、成員和器官。
語素(G):人,衣服,損失,距離,好。
非語素詞(x):鴛鴦、枇杷、蜈蚣
成語(壹):步步為營,八友交友。
成語(L):總之,可以看出
縮寫(J):三好,總。
前四類是比“詞”更小的單位,不能構成詞。這些組件的數量有限。只要電子詞典的大小允許,這些組件都應該盡可能的包含進去。後三個類別是比“單詞”更大的單位,只有其中的壹部分可以在詞典中頻繁使用。