少數民族文字識別系統研製成功

大陸通訊 02/16/2007

最近大陸清華大學完成了「多體蒙古文(包括混排漢英)印刷文檔識別暨統一平臺少數民族文字識別系統」的技術鑒定。從此,大陸主要的少數民族文字的紙本出版物要轉換成電子出版物,不再靠人工錄入,只要經「統一平臺少數民族文字識別系統」處理,印刷文檔的掃描圖像就會自動生成可編輯檢索的電子文檔。

據介紹,該系統能識別多種印刷字體的蒙古文字元和文檔,並能識別蒙漢英混排的文檔,是集版面分析、文本行字切分、識別、縱向文檔圖文對照編改等技術於一體的蒙古文文檔識別實用系統,解決了多字體蒙古文漢英混排文本切分和識別問題。在實際的多字體蒙漢英文檔測試集上,文本識別率可達百分之九十六點八九。一些專家認為,該系統是全球首款在統一平臺上支援大陸主要少數民族文字文檔的識別系統。

系統在漢字和英文文檔識別的基礎上將四種類型六種文字的少數民族文字,即蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯爾克孜文(混排漢英)。文檔識別綜合集成在一個統一的平臺系統中,使大陸最主要的少數民族文字文檔能夠自動識別輸入電腦。該系統軟體產品採用國際標準編碼,系統結構具有良好的擴展性,還支援阿拉伯文的識別。專家們認為,這一系統其主要技術指標達到了國際領先水準,對促進大陸少數民族語言文字的資訊化建設具有重要意義。

【知識通訊評論半月刊五十四期】2007.02.16

« 受損的科學:布希政府的壓制與扭曲∣回首頁∣可曲捲彈性顯示器的市場挑戰 »