名詞(n)、時間詞(t)、方位詞(s)、方位詞(f)、數詞(m)、量詞(q)、區別詞(b)、代詞(r)、動詞(v)、形容詞(a)、狀態詞(z)、副詞(d)等。
這些基本詞類可以組合成更大的詞類。名詞、時間詞、處所詞、方位詞、數詞、量詞統稱為體詞,動詞、形容詞、狀態詞統稱為謂語。壹些代詞屬於身體詞,而另壹些屬於謂語。體詞、謂語、區別詞和副詞統稱為實詞。介詞、連詞、助詞、語氣詞統稱為虛詞。
傳統的自然語言處理技術要求在自然語言處理系統中配備電子詞典。對於計算機系統,可以認為作為電子詞典詞條的語言單位是“單詞”。其中大多數必須是語言學家認可的單詞,這意味著其中壹些不能被視為“單詞”。從計算機處理實際文本和提高計算機處理效率的角度來看,該詞典還包含以下七種語言成分:
預處理組分(H):甲、老、費、朝、丹。
其次是組件(k):兒童、兒童、性別、成員和器官。
語素(G):人、衣服、損失、距離、好。
非語素詞(x):鴛鴦、枇杷和蜈蚣
成語(壹):步步為營,八友交友。
成語(1):總之,可以看出
縮寫(J):三好,總。
前四類是比“詞”更小的單位,不能構成詞。這些組件的數量有限。只要電子詞典的大小允許,所有這些組件都應盡可能包括在內。後三個類別是比“單詞”更大的單位,其中只有壹部分可以在詞典中頻繁使用。