top of page

實習介紹

image.png

此次實習於中央研究院-數位文化中心,工作組別為AI組,主要參與研發中央研究院數位文化中心的古籍OCR系統。系統上線於中央研究院文字辨識與校對平台[網站連結],平台提供合作的學術機構快速、精準且便利的文本辨識,辨識範圍覆蓋17380字,包含簡繁體及各種異體字,為數位典藏、古籍數位化及數位化人文研究提供幫助,也有日文、草書、越南漢字等跨國合作項目。 因為目標之古籍包含大量古語及符號、文字等,中文任務上類別高達17380類,越南漢字更是高達35000類,遠遠高於目前市面上OCR的覆蓋度,龐大的類別數量,再加上常用字與古字數量分布懸殊,導致資料集的建構相當困難。長尾訓練以及模型驗證使這項任務充滿挑戰。 整個OCR系統可以劃分成多個部分 : 從GAN生成資料開始,Text Detection,區塊排序,Classification,一直到LLM修字。每個區塊由不同組別負責,本次主要負責的任務是OCR的核心任務 : 分類任務,工作內容主要負責文字分類模型的開發。目前處理的語言種類眾多,包含中文、中文草書、日文、喃字、標點符號,同時也有提供客製化模型的需求。

image.png

公司代號:A     

               ​​

實習單位:中央研究院

數位文化中心​

姓    名:吳孟儒           ​                           

學    號:1111709

 

輔導老師:陳志成教授​

工作環境

  1. 個人電腦 : 每位工讀生都有自己的工位以及一台文書電腦。

  2. Sever端VM : 所有Code 的編譯以及執行都以遠端的方式連到Sever端以Linux系統運行,每個人都有分配到的VM,可以透過SSH以及VS Code內建的SSH功能進行操作,並且可以開多個Container來控制環境。​

  3. 硬體設備介紹 : 我個人分配到4張顯卡,每張顯卡的CPU及RAM效能從Sever上劃分,並配有local端的SSD以及NAS共用的HDD。

配置1 : 

GPU : GeForce RTX 4090 24GB

RAM : 128G  

用途 : 中文17380類訓練

配置2 : 

GPU : GeForce RTX 3090 24GB *2 

RAM : 128G 

用途 : 日常實驗

配置3 : 

GPU : GeForce RTX 1080 Ti 11GB

RAM : 128G 

用途 : 小模型訓練以及檔案處理

​​

image.png
image.png

115臺北市南港區研究院路二段128號

0227822120

© 2035 by 1111709期末報告. Powered and secured by Wix

bottom of page