大型語言模型 (LLMs) 雖然強大,但常面臨「幻覺現象 (Hallucination)」與知識更新困難的挑戰。檢索增強生成 (Retrieval-Augmented Generation, RAG) 技術透過引入外部知識庫來解決此問題,而其中的核心關鍵在於「檢索模組」的精準度。
傳統的關鍵字檢索 (如 BM25) 難以捕捉深層語意;而現有的稠密檢索 (Dense Retrieval) 雖然能進行語意向量匹配,但往往缺乏對細微詞彙語意範疇的理解。本研究旨在透過引入語言學知識結構,強化 Dense Retriever 的語意辨識能力。
本研究提出了一種整合「詞彙語意範疇預測」的多任務學習框架。主要技術特點包括:
傳統使用 CLS token 代表整句語意可能不夠全面。本研究提出了一種基於範疇權重的 Weighted-sum Pooling 機制。模型會自動學習哪些語意範疇(如「實體名詞」可能比「虛詞」重要)在檢索時更具代表性,據此加權生成句子向量。
為了讓模型學會區分「非常相似但含義不同」的句子,我們在訓練中引入了 Hard Negative Samples(困難負樣本)。透過計算餘弦距離,篩選出那些語意相近但並非正確答案的段落讓模型進行鑑別訓練。
實驗採用了包含 53 萬筆繁體中文學術問答資料集進行驗證。結果顯示: