實習介紹

此次實習於中央研究院-數位文化中心，工作組別為AI組，主要參與研發中央研究院數位文化中心的古籍OCR系統。系統上線於中央研究院文字辨識與校對平台[網站連結]，平台提供合作的學術機構快速、精準且便利的文本辨識，辨識範圍覆蓋17380字，包含簡繁體及各種異體字，為數位典藏、古籍數位化及數位化人文研究提供幫助，也有日文、草書、越南漢字等跨國合作項目。因為目標之古籍包含大量古語及符號、文字等，中文任務上類別高達17380類，越南漢字更是高達35000類，遠遠高於目前市面上OCR的覆蓋度，龐大的類別數量，再加上常用字與古字數量分布懸殊，導致資料集的建構相當困難。長尾訓練以及模型驗證使這項任務充滿挑戰。整個OCR系統可以劃分成多個部分 : 從GAN生成資料開始，Text Detection，區塊排序，Classification，一直到LLM修字。每個區塊由不同組別負責，本次主要負責的任務是OCR的核心任務 : 分類任務，工作內容主要負責文字分類模型的開發。目前處理的語言種類眾多，包含中文、中文草書、日文、喃字、標點符號，同時也有提供客製化模型的需求。

公司代號:A

實習單位:中央研究院

數位文化中心

姓名：吳孟儒

學號：1111709

輔導老師：陳志成教授

工作環境

個人電腦 : 每位工讀生都有自己的工位以及一台文書電腦。
Sever端VM : 所有Code 的編譯以及執行都以遠端的方式連到Sever端以Linux系統運行，每個人都有分配到的VM，可以透過SSH以及VS Code內建的SSH功能進行操作，並且可以開多個Container來控制環境。
硬體設備介紹 : 我個人分配到4張顯卡，每張顯卡的CPU及RAM效能從Sever上劃分，並配有local端的SSD以及NAS共用的HDD。

配置1 :

GPU : GeForce RTX 4090 24GB

RAM : 128G

用途 : 中文17380類訓練

配置2 :

GPU : GeForce RTX 3090 24GB *2

RAM : 128G

用途 : 日常實驗

配置3 :

GPU : GeForce RTX 1080 Ti 11GB

RAM : 128G

用途 : 小模型訓練以及檔案處理

115臺北市南港區研究院路二段128號

0227822120

中央研究院官網