本文版權為《郵電設計技術》所有,如需轉載請聯系《郵電設計技術》編輯部
摘 要:為優化AI問答效果,提出基于大語言模型命名實體識別的優化方法。首先,通過在多種分割方式中選取最優方案,結合詞語劃分概率判斷結果,對語料庫文本進行分詞。其次,在預訓練的BERT模型頂部添加線性層,并通過標注數據對預測實體類別進行微調,將預測的同類標簽詞組合得到命名實體。最后,通過上下文構建整合用戶輸入與識別結果,將整合結果輸入模型生成回答,并結合用戶反饋優化輸出。結果表明,所提方法生成結果與參考文本之間的語義相似度較高,具備較為理想的問答效果。
關鍵詞:大語言模型;BERT;命名實體識別;智能問答;分詞
doi:10.12045/j.issn.1007-3043.2025.03.015
引言
命名實體識別技術通過從文本中抽取出具有實際含義的語義實體,從而有效理解文本的實際含義。這一技術不僅能夠有效處理復雜多變的語言文本問題,還可以有效捕獲文本之間的依賴關系。然而,隨著文本分析技術應用場景的不斷衍生,傳統的命名實體識別方法已難以滿足其高精度、高效率的需求,基于大語言模型的命名實體識別技術應運而生,成為當前研究的熱點。在命名實體識別任務中,基于大語言模型的方法能夠有效捕捉文本數據之間的特征表示,可通過微調的方式在特定數據集上實現高精度識別,有效解決了傳統方法依賴人工特征和規則匹配帶來的局限性。
目前,智能問答與優化技術已取得了一系列重要成果。例如,文獻[2]探討了使用檢索增強生成技術、大模型微調與閉環知識圖譜體系來提升政企營銷知識智能問答的精度,可提高至92.36%,并通過vLLM加速、數據安全、模塊化架構等技術優化系統性能與安全性,促進大模型在企業中的實際應用。但是該系統高度依賴高質量的訓練數據和知識圖譜的構建,需要定期更新這些數據以保持系統的準確性和時效性。文獻[3]設計了一種基于深度學習語義匹配(利用Bert模型和Faiss向量搜索)的FAQ問答系統,旨在快速搭建特定領域的問答系統,減少人工依賴,實現高效語義匹配和秒級查詢響應。系統需要能夠處理大規模并發查詢,這對系統的擴展性和性能提出了更高的要求。文獻[4]構建了中醫藥循證指南知識圖譜,并探索了以其為知識庫搭建智能問答系統,旨在增強臨床決策支持,同時提供中醫藥領域智能化信息服務的新思路和方法。但是,構建高質量的中醫藥循證指南知識圖譜需要專家知識和大量數據,且過程復雜。此外,隨著新研究成果的出現,知識圖譜需要不斷更新。文獻[5]提出COBERT系統,利用檢索器與閱讀器雙算法,通過搜索冠狀病毒開放研究數據集挑戰賽(CORD-19)的文獻,回答復雜查詢,以提供COVID-19最新研究成果的精確信息,輔助決策制定。用戶可能提出復雜或模糊的查詢,這要求系統能夠準確理解用戶意圖并返回相關信息。然而,這在實際應用中可能是一個挑戰。
本文選擇BERT作為命名實體識別的基礎模型,通過對其進行微調處理,并基于識別出的命名實體,生成準確、相關的回答。