#  CBDBRegexMachine 

 



 ##  

  expand\_more  

 
  

 

### 下載CBDBRegexMachine

CBDBRegexMachine 是一個 CBDB 發展的工具（軟體）, 能讓人運用圖像式的使用介面 (Graphical User Interface, GUI) 來組織、設計正規表示式 (regular expressions) ，以從全文資料中擷取具有特殊書寫形式的資訊（譬如中文史料中常見的「日期」，多以年號開始，後接年、月、日）。此工具並能將擷取結果匯出為 XML 檔，便於後續的應用。

此工具的介面包含三個部分：

(1) 欲擷取資訊的全文檔案，顯示於畫面下方的 Data View

(2) 已經設計好的正規表示式，顯示於畫面上半部、左半邊的 Active Regex。每一個正規表示式 (regex) 都對應到一個顏色，在 Data View 的全文檔中，也同時相同的顏色來顯示符合此 regex 的文字。

譬如下圖中，紫色、藍色、藍綠、與綠色代表的 regex ，分別能從全文檔中擷取出四種不同「日期」的書寫方式，金色與橘色則能節取出全文傳記中人物的「字」與「號」，紅色則擷取人物的「籍貫」。

(3) 畫面上半部、右邊的 Term List 與 Auxiliary Regex ，則收集了用來組成正規表示式的小部件。使用者可以提供詞彙清單 (term list) 匯入到此工具，來快速找出哪些詞彙出現於全文檔中。

Credit:

- Elif Yamagil (主要開發者)
- Hou Ieong Ho / 何浩洋 (開發者)
- Sophia Huang / 黃智愛 (早期參與者)

[CBDBRegexMachine\_July2012.zip](/file_url/2391)

下載 CBDBRegexMachine（請點選上方連結）。解壓縮後，請先閱讀 docs 子目錄下的 "Using CBDBRegexMachine.pptx" 了解如何安裝。

[a\_regex\_machine\_yamangil\_chen\_bol.pdf](/file_url/239)

[Regular Expressions.ppt](http://projects.iq.harvard.edu/files/cbdb/files/regular_expressions.ppt?m=1438182243)

使用正則表達式提取文本：

[text extraction regex\_materials.zip](/file_url/2401)

[text extraction regex\_shihpei.ppt](/file_url/2406)