實習介紹

此次實習於中央研究院-數位文化中心,工作組別為AI組,主要參與研發中央研究院數位文化中心的古籍OCR系統。系統上線於中央研究院文字辨識與校對平台[網站連結],平台提供合作的學術機構快速、精準且便利的文本辨識,辨識範圍覆蓋17380字,包含簡繁體及各種異體字,為數位典藏、古籍數位化及數位化人文研究提供幫助,也有日文、草書、越南漢字等跨國合作項目。 因為目標之古籍包含大量古語及符號、文字等,中文任務上類別高達17380類,越南漢字更是高達35000類,遠遠高於目前市面上OCR的覆蓋度,龐大的類別數量,再加上常用字與古字數量分布懸殊,導致資料集的建構相當困難。長尾訓練以及模型驗證使這項任務充滿挑戰。 整個OCR系統可以劃分成多個部分 : 從GAN生成資料開始,Text Detection,區塊排序,Classification,一直到LLM修字。每個區塊由不同組別負責,本次主要負責的任務是OCR的核心任務 : 分類任務,工作內容主要負責文字分類模型的開發。目前處理的語言種類眾多,包含中文、中文草書、日文、喃字、標點符號,同時也有提供客製化模型的需求。

公司代號:A
實習單位:中央研究院
數位文化中心
姓 名:吳孟儒
學 號:1111709
輔導老師:陳志成教授
工作環境
-
個人電腦 : 每位工讀生都有自己的工位以及一台文書電腦。
-
Sever端VM : 所有Code 的編譯以及執行都以遠端的方式連到Sever端以Linux系統運行,每個人都有分配到的VM,可以透過SSH以及VS Code內建的SSH功能進行操作,並且可以開多個Container來控制環境。
-
硬體設備介紹 : 我個人分配到4張顯卡,每張顯卡的CPU及RAM效能從Sever上劃分,並配有local端的SSD以及NAS共用的HDD。
配置1 :
GPU : GeForce RTX 4090 24GB
RAM : 128G
用途 : 中文17380類訓練
配置2 :
GPU : GeForce RTX 3090 24GB *2
RAM : 128G
用途 : 日常實驗
配置3 :
GPU : GeForce RTX 1080 Ti 11GB
RAM : 128G
用途 : 小模型訓練以及檔案處理


115臺北市南港區研究院路二段128號
0227822120