作者:潘蓉
NLP是英文Natural Language Processing(中文為“自然語言處理”)的簡稱,它是當今科技領域最熱門的詞語之一。NLP既是人工智慧(AI)的核心技術,又是電腦科學和語言科學的分支學科;它推動著語言智慧的持續發展和突破,並越來越多地應用於各個行業。正如中國著名學者周海中先生曾經所言:“自然語言處理是極有吸引力的研究領域,它具有重大的理論意義和實用價值。”
NLP的主要內容包括但不限於如下分支領域:文本分類、文本生成、文本分析、資訊抽取、自動摘要、智慧問答、話題推薦、搜尋引擎、機器翻譯、主題詞識別、知識庫構建、深度文本表示、深度學習演算法、命名實體識別、語音辨識與合成等。NLP主要研究能實現人與電腦之間用自然語言進行有效通信的各種理論和方法。而用自然語言與電腦進行通信,有著十分重要的實際應用意義,也有著革命性的理論意義。
實現人機間自然語言通信意味著要使電腦既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等;前者稱為自然語言理解,後者稱為自然語言生成。因此,NLP大體包括了自然語言理解和自然語言生成兩個部分。因為處理自然語言的關鍵是要讓電腦“理解”自然語言,所以通常把自然語言理解視為NLP, 也稱為計算語言學。它的終極目標是用自然語言與電腦進行通信,使人們可以用自己最習慣的語言來使用電腦,而無需再花大量的時間和精力去學習不很自然和習慣的各種電腦語言。
NLP是人工智慧中最為困難的問題之一。美國微軟公司創始人比爾·蓋茨先生曾經表示,“語言理解是人工智慧領域皇冠上的明珠”。前微軟公司全球執行副總裁沈向洋先生也在公開演講時說:“懂語言者得天下……下一個十年,人工智慧的突破在自然語言的理解……人工智慧對人類影響最為深刻的就是自然語言方面”。由於理解自然語言需要關於外在世界的廣泛知識以及運用操作這些知識的能力,所以NLP也被視為解決人工智慧完備(AI-complete)的核心問題之一。
NLP的基本任務包括規則運算式、分詞、詞法分析、語音辨識、文本分類、資訊檢索、搜尋引擎、問答系統、機器翻譯等;常用的模型則有馬科夫模型、樸素貝葉斯、迴圈神經網路等。NLP要使用語言知識,如UNIX的wc程式可以用來計算文字檔中的位元組數、詞數或行數;當用它來計算位元組數和行數時,wc只用於進行一般的資料處理,但當用它來計算一個檔中詞的數目時,就需要關於“什麼是一個詞”的語言知識,這樣,這個wc也就成為了一個NLP系統。
無論實現自然語言理解,還是自然語言生成,都遠不如人們原來想像的那麼簡單,而是十分困難的。從現有的理論和技術現狀看,通用的、高品質的NLP系統,仍然是較長期的努力目標,但是針對一定應用,具有相當NLP能力的實用系統已經出現,有些已商品化,甚至開始產業化。典型的例子有:多語種資料庫和專家系統的自然語言介面、各種機器翻譯系統、全文資訊檢索系統、自動文摘系統等。NLP系統的演算法是基於機器學習,特別是統計機器學習;許多不同類的機器學習演算法已應用於NLP任務。
深度學習在NLP中的應用非常廣泛,可以說橫掃NLP的各個方面,從底層的分詞、語言模型、句法分析等方面到高層的語義理解、對話管理、知識問答等方面幾乎都有深度學習的模型,並且取得了不錯的效果。有關研究已從傳統的機器學習演算法轉變成更有表現力的深度學習模型,如卷積神經網路和回歸神經網路。不過,目前的深度學習技術還不具備理解和使用自然語言所必需的概念抽象和邏輯推理能力,還有待今後進一步的研究。
NLP在元宇宙的擴展現實(XR)中有著至關重要的作用,因為它允許使用者即使在他們不需要用時也能執行命令;這對使用XR輔助技術的現場服務人員有重大影響。NLP可以簡化元宇宙的虛擬實境(VR)的網頁流覽和搜索體驗,提供虛擬鍵盤的替代方案,讓駕駛和其他免提導航體驗在VR中更加無縫。NLP還可以支援更逼真的虛擬助手,進行即時處理用戶輸入技術,使用該技術在元界中提供支援服務。
總之,隨著互聯網的普及和海量資訊的湧現,作為人工智慧的核心技術,NLP正在人們的工作、學習、生活中扮演著越來越重要的角色,並將在社會發展和科技進步的過程中發揮越來越重要的作用。毫無疑問,由於當今科技的快速進步,NLP最終能夠讓人用自然語言與電腦進行交互通訊。
文/潘蓉(目前在福州大學至誠學院工作,香港城市大學博士後,人工智慧專家,原籍廣東)