加強合作與技術交流 科政中心與KISTI的深化互訪 2023.12.15

在科政中心與韓國科技資訊研究院(KISTI)的年度互訪活動中,KISTI展示了其在自動化元數據生成和大型語言模型(LLM)開發方面的顯著進展,這些成果說明了KISTI在科技創新領域取得的重要成就。

交流活動中,Dr. Wonju Choi 介紹了KISTI在自動化元數據生成技術方面的最新進展。該技術專注於從PDF文件中自動提取Metadata(後設資料),主要應用於學術論文和研發報告,旨在提高資訊提取的效率並降低成本。KISTI之前採用人工方式進行Metadata的收集和提取,但這種方法耗時且成本高昂。為此,KISTI開發了一套自動化系統,運用視覺檢測技術(OCR)和命名實體識別(NER)模型,能夠從韓文學術論文中精確提取關鍵資料​​。

李景夏博士在其演講中著重介紹了KISTI如何訓練針對韓國本土需求的大型語言模型。該模型基於“llama2”架構,目的在於提升韓文自然語言處理的能力。該計劃的訓練資料來源豐富,主要包括大量韓國研究與開發(R&D)論文,進一步確保訓練資料的品質和內容的正確性。雖然這些資料受到法律保護,限制了模型的商業用途,但在非商業領域將是一個強大的工具。李博士進一步指出,KISTI計劃未來進行第二階段的模型訓練並對外釋出,新模型能夠處理大量文本資料,提供更精確的預測和深入理解,並應用在廣泛的領域,包括幫助韓國公務機關分析法律文件和制定培訓資料​​。

科政中心與KISTI的年度互訪活動不僅加深了雙方在科技創新領域的合作與交流,也展示了KISTI在數據處理和自然語言處理技術方面的進展。這些技術的交流將為台韓科研社群帶來新的啟發,並為未來亞洲科技發展的趨勢提供重要參考。

【上圖】KISTI的李景夏博士(右)與本中心的樊晉源研究員(左)正在會議上交流他們的研究經驗。這次會議聚焦於為科學文本建立韓語語言模型,兩位專家共同討論並分享他們在這一領域的最新進展。

相關連結