國研院科政中心

加強合作與技術交流科政中心與KISTI的深化互訪 2023.12.15

在科政中心與韓國科技資訊研究院（KISTI）的年度互訪活動中，KISTI展示了其在自動化元數據生成和大型語言模型（LLM）開發方面的顯著進展，這些成果說明了KISTI在科技創新領域取得的重要成就。

交流活動中，Dr. Wonju Choi 介紹了KISTI在自動化元數據生成技術方面的最新進展。該技術專注於從PDF文件中自動提取Metadata(後設資料)，主要應用於學術論文和研發報告，旨在提高資訊提取的效率並降低成本。KISTI之前採用人工方式進行Metadata的收集和提取，但這種方法耗時且成本高昂。為此，KISTI開發了一套自動化系統，運用視覺檢測技術（OCR）和命名實體識別（NER）模型，能夠從韓文學術論文中精確提取關鍵資料。

李景夏博士在其演講中著重介紹了KISTI如何訓練針對韓國本土需求的大型語言模型。該模型基於“llama2”架構，目的在於提升韓文自然語言處理的能力。該計劃的訓練資料來源豐富，主要包括大量韓國研究與開發（R&D）論文，進一步確保訓練資料的品質和內容的正確性。雖然這些資料受到法律保護，限制了模型的商業用途，但在非商業領域將是一個強大的工具。李博士進一步指出，KISTI計劃未來進行第二階段的模型訓練並對外釋出，新模型能夠處理大量文本資料，提供更精確的預測和深入理解，並應用在廣泛的領域，包括幫助韓國公務機關分析法律文件和制定培訓資料。

科政中心與KISTI的年度互訪活動不僅加深了雙方在科技創新領域的合作與交流，也展示了KISTI在數據處理和自然語言處理技術方面的進展。這些技術的交流將為台韓科研社群帶來新的啟發，並為未來亞洲科技發展的趨勢提供重要參考。

【上圖】KISTI的李景夏博士（右）與本中心的樊晉源研究員（左）正在會議上交流他們的研究經驗。這次會議聚焦於為科學文本建立韓語語言模型，兩位專家共同討論並分享他們在這一領域的最新進展。

相關連結