?隨著計算機在新聞及圖書出版業領域的廣泛應用,各種電子出版物如雨後春筍班不斷湧現,尤其是隨著互聯網技術的發展,網絡電子雜誌、商務網頁、社交網絡平臺更是多如牛毛。而不管是出版社的報紙或是圖書,還是互聯網上的各種電子信息,壹般都是通過鍵盤錄入、OCR識別或語音識別等方式進入計算機的。這些錄入方式在目前的技術水平下都不能保證所輸入的信息準確無誤。文本校對已經成為報刊、書籍出版前的審核把關的重要環節,它直接影響著出版物的質量。隨著近年來出版行業業務量和電子化的飛速發展,校對環節的工作量大大增加,使得傳統人工校對方法越來越成為印刷出版自動化的瓶頸,解決錄入信息的準確性問題已經成為耽誤之急。
?因此使用計算機來代替人進行文本校對工作意義重大,計算機校對比人工校對具有明顯的優點,主要體現在以下幾個方面:
?(1)計算機校對的速度快、效率高、不疲勞。校對工作本身是壹種比較機械的工作,校對人員長時間地面對密密麻麻的漢字、字母、標點符號和各種算式,眼晴和精神都十分疲勞,往往在精神上產生壹種煩情緒,註意力的廣度和穩定性均直線下降,如果沒有良好的敬業精神,甚至就會匆匆地測覽而過,差錯也就不知不覺地隱伏下來,給圖書的編校質量造成影響。計算機校對則不存在疲勞和煩躁的問題,且它的速度和效率更是人工校對所望塵莫及的。
?(2)計算機不存在工作態度、心理情緒等問題,人工校對因不同人員的工作環境、工資待遇等的不同而會影響校對人員的工作態度或心理情緒,造成對文本校對質量的影響,而這種由於工作態度或心理情緒問題,在計算機上是不存在的。
?(3)計算機校對軟件裏的詞庫和專業術語詞庫容量非常之大,非壹般的人工校對員的知識面所能比,且校對不同專業的書稿時,可掛接不同的專業術語詞庫,因此,對中文字、詞、語法錯誤,不符合漢語語法和語義的詞搭配錯誤、領導人人名和職務搭配錯誤、科學計量單位使用不規範、成對標點的錯誤使用、某些數字錯誤、不符合所掛專業詞庫的術語及英文單詞拼寫錯誤等均可迅速查出並標紅。另外,對那些人工校對容易忽略的錯誤,如“沖刺”和“沖刺“(誤),“竟爭”和意爭”(誤),“震撼”和“震憾 (誤),“氣概”和“氣慨(誤),“治理”和“冶理”(誤),“已經”和“己經”(誤)等 等,電腦均能快速、準確地查找出來。
智能化中文文本校對校對系統的組成:
?智能化中文文本校對系統主要包括知識獲取模塊、預處理與分詞模塊、自動查錯模塊和自動糾錯模塊四個主要模塊,同時還包括預處理知識庫、查錯知識庫、糾錯知識庫等知識庫系統。各個模塊之間的關系如圖1所示:
? (1)知識獲取模塊: 從大規模語料庫(包括生語料和熟語料)中獲取語言統計知識,用以建立文本自動查和自動糾錯的語言模型與算法。知識庫由兩部分構成:查錯知識庫和糾錯知識庫,查錯知識庫主要用於文本查錯模型與算法,包括從生語料中獲取的字頻向量表、二元、三元字字同現率表,從分詞和標註後語料中獲得的詞頻向量表、詞二元同現表、詞性二元和詞性三元同現表、二元義類大類和義類中類同現表、同時還包括句法知識庫和政治性規則庫。錯知識庫主要用於對標紅的錯誤給出錯建議,包括易混淆詞典、相似碼字詞詞典、字驅動雙向詞典、英文單詞骨架鍵詞典以及似然匹配規則。進行糾錯建議排序時,還要用到查錯知識庫中的字詞接續(由同現數據得到) 和詞性接統計知識。
?這部分是獨立於系統之外單獨用來從語料中獲取統計知識的,與其他三部分在程序上沒有緊密的連接。
? (2)預處理與分詞模塊: 預處理和分詞模塊主要是對校對的文本進行分詞,目前我們的系統能夠識別純文本格式(DXT)和富文本格式(RF),對於其他格式的文本文件,如Word、PDF、WPS和華光格式,需要進行格式轉換,去掉控制符,生成純文本的格式。分詞是大多數自燃語言處理系統的基礎,本系統也不例外,我們實現了最大配的分詞模塊,該模塊同時具有人名、地名的識別功能,由於使用插件式結構,本系統完全可用於分詞模型與算法的試驗,也可以將現有的效果較好的分詞程序方便地接入我們的系統,用於查模型和糾錯模型。
? (3)自動查錯模塊: 該模塊主要實現了各種查錯模型與算法,該模塊的主要功能是進行中文文本錯誤的偵測查錯,具體來說包括中文文本的字詞級、句法級、語義級和政治性錯誤的偵測,對於字詞級錯誤,我們主要在中文文本中的“非多字詞錯誤”與“真多字詞錯誤”的分類思想的基上,采用規則與統計相結合的方法進行錯誤偵測;對於句法級錯誤,在句法規則和語法詞典的基礎上,采用語法詞典與統計相合的方法進行錯誤偵測;對於語義級錯誤,在義元理論的基上,采用語義搭配知識庫與證據理論相結合的方法進行錯誤偵測;對於政治性錯誤,在政治規則庫的基礎上,采用知識推理的方法進行錯誤偵測。該部分的輸出是対錯誤字串進行了標記的文本,其結果由標紅子過程標示後顯示在屏幕上 。
? (4)自動糾錯模塊: 本模塊主要實現了糾錯建議的生成算法與排序算法,本項目的糾錯建議生成算法是基於錯誤成因的。對於排音類錯誤,在特定大小的滑動窗口內,采用雙向拼音匹配的方法進行錯誤的定位和糾錯建議生成;對於五筆類錯誤,在特定的似然匹配規則的基礎上,采用相似碼計算的方法解決錯誤的定位和糾錯建議生成問題。對於糾錯建議排序,本項目構建了基於語義並置理論和上下文語境提出糾錯建議的排序模型,通過融合上下文信息、大規模語料庫和編碼信息進行各個糾錯建議化先權值確定,當優先權值確定之後,使用快速分類或冒泡法的排序算法對糾錯建議進行排序。
?智能化立體倉庫歷經立體倉庫、自動化立體倉庫兩個發展階段演變而來的,其發展歷程如下圖所示:
?智能化立體倉庫系統集計算機信息管理、計算機控制技術與機械工程於壹體,用於解決物流領域倉儲利用低、占用土地多、物流效率低的問題。在機械零部件制造、醫藥、煙草、快消品、電子商務等領域具有廣闊的應用前景。本項目通過校企合作,在相關科研項目的支持下,針對智能化立體倉庫系統中WMS、WCS以及物流設備中的關鍵技術問題開展了長期深入的研究。
?通過不斷的深入研究,我們確定了智能化立體倉庫軟件部分的三層架構,如下圖所示:
?WMS管理系統是倉庫自動化管理系統的核心,它包括倉庫信息管理,庫存管理,出入庫管理及報表等壹系列管理功能,WMS管理系統功能模塊結構如下圖所示:
?調度系統負責堆垛機、輸送機、叉車等各種硬件設備的調度指令的下發,調度系統結構圖如下: