JPype並沒有像IKVM那樣實現自己的JVM,而是以pipe方式調用原生JVM。所以我們需要壹個JVM,比如:
Oracle JDK
OpenJDK
安裝JDK非常簡單,分清楚32位和64位即可,必須與OS和Python的位數壹致,具體安裝過程不再贅述。
唯壹需要註意的是,必須設置環境變量JAVA_HOME到JDK的根目錄,JDK的安裝程序不壹定會幫妳做這壹步。
安裝編譯工具鏈
Python的package壹般是以源碼形式發布的,其中壹些C代碼必須在用戶機器上編譯,所以需要安裝編譯工具鏈。當然妳也可以跳過這步,直接下載binary。
Windows
安裝免費的Visual C++ Express 2010。
Debian/Ubuntu
sudo apt-get install g++
Red Hat/Fedora
su -c 'yum install gcc-c++'
安裝JPype
本文讀者應該都是Python程序員,所以略過了安裝Python這壹步。不過必須註意的是,JPype版本與Python的對應兼容關系:
Python2.x:JPype
Python3.x:JPype1-py3
使用setup.py安裝
下載源碼後解壓,在目錄下運行:
*nix
sudo python3 setup.py install
Windows
python setup.py install
直接下載binary
當然妳也可以選擇下載binary,比如JPype1-py3主頁上的binary列表。
在Pycharm中安裝
如果妳正在使用Pycharm這款IDE的話,那麽事情就簡單多了。
首先在Project Interpreter裏面點擊加號:
搜索JPype,選擇妳需要的版本安裝:
稍等片刻就安裝成功了:
測試安裝結果
終於又到了寫代碼的開心時間了,可以通過如下代碼測試是否安裝成功:
from jpype import *startJVM(getDefaultJVMPath())java.lang.System.out.println("hello world")shutdownJVM()
輸出如下結果表示安裝成功:
hello worldJVM activity report : classes loaded : 31JVM has been shutdown
調用HanLP
關於HanLP
HanLP是
壹個致力於向生產環境普及NLP技術的開源Java工具包,支持中文分詞(N-最短路分詞、CRF分詞、索引分詞、用戶自定義詞典、詞性標註),命名實體
識別(中國人名、音譯人名、日本人名、地名、實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析
(MaxEnt依存句法分析、神經網絡依存句法分析)。
下載HanLP
妳可以直接下載Portable版的jar,零配置。
也可以使用自定義的HanLP——HanLP由3部分組成:類庫hanlp.jar包、模型data包、配置文件hanlp.properties,請前往項目主頁下載最新版:/hankcs/HanLP/releases。對於非portable版,下載後,妳需要編輯配置文件第壹行的root指向data的父目錄,詳見文檔。
這裏,假設新建了壹個目錄(假定為C:\hanlp),把hanlp.jar和hanlp.properties(portable版的話,僅需壹個hanlp-portable.jar)放進去:
Python調用
下面是壹份Python3的調用示例:
# -*- coding:utf-8 -*-
# Filename: main.py
# Author:hankcs
# Date: 2015/11/26 14:16
from jpype import *
startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.2.8.jar;C:\hanlp", "-Xms1g", "-Xmx1g")
HanLP = JClass('com.hankcs.hanlp.HanLP')
# 中文分詞
print(HanLP.segment('妳好,歡迎在Python中調用HanLP的API'))
testCases = [
"商品和服務",
"結婚的和尚未結婚的確實在幹擾分詞啊",
"買水果然後來世博園最後去世博會",
"中國的首都是北京",
"歡迎新老師生前來就餐",
"工信處女幹事每月經過下屬科室都要親口交代24口交換機等技術性器件的安裝工作",
"隨著頁遊興起到現在的頁遊繁盛,依賴於存檔進行邏輯判斷的設計減少了,但這塊也不能完全忽略掉。"]
for sentence in testCases: print(HanLP.segment(sentence))
# 命名實體識別與詞性標註
NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
print(NLPTokenizer.segment('中國科學院計算技術研究所的宗成慶教授正在教授自然語言處理課程'))
# 關鍵詞提取
document = "水利部水資源司司長陳明忠9月29日在國務院新聞辦舉行的新聞發布會上透露," \
"根據剛剛完成了水資源管理制度的考核,有部分省接近了紅線的指標," \
"有部分省超過紅線的指標。對壹些超過紅線的地方,陳明忠表示,對壹些取用水項目進行區域的限批," \
"嚴格地進行水資源論證和取水許可的批準。"
print(HanLP.extractKeyword(document, 2))
# 自動摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
print(HanLP.parseDependency("徐先生還具體幫助他確定了把畫雄鷹、松鼠和麻雀作為主攻目標。"))
shutdownJVM()