<noframes id="z7bdd"><pre id="z7bdd"><strike id="z7bdd"></strike></pre>
    <output id="z7bdd"><ruby id="z7bdd"><dfn id="z7bdd"></dfn></ruby></output>
    <address id="z7bdd"><strike id="z7bdd"></strike></address>
    <sub id="z7bdd"></sub><noframes id="z7bdd">

        <track id="z7bdd"></track>

        自動問答研究進展、現狀及趨勢

        日期: 2019-01-02 13:37:18 / 人氣: 8776

        1. 任務定義、目標和研究意義

        自動問答(Question Answering, QA)是指利用計算機自動回答用戶所提出的問題以滿足用戶知識需求的任務。不同于現有搜索引擎,問答系統是信息服務的一種高級形式,系統返回用戶的不再是基于關鍵詞匹配排序的文檔列表,而是精準的自然語言答案。近年來,隨著人工智能的飛速發展,自動問答已經成為倍受關注且發展前景廣泛的研究方向。

        自動問答的研究歷史可以溯源到人工智能的原點。1950年,人工智能之父阿蘭圖靈(Alan M. Turing)在《Mind》上發表文章《Computing Machinery andIntelligence》,文章開篇提出通過讓機器參與一個模仿游戲(Imitation Game)來驗證“機器”能否“思考”,進而提出了經典的圖靈測試(Turing Test),用以檢驗機器是否具備智能。同樣,在自然語言處理研究領域,問答系統被認為是驗證機器是否具備自然語言理解能力的四個任務之一(其它三個是機器翻譯、復述和文本摘要)。自動問答研究既有利于推動人工智能相關學科的發展,也具有非常重要的學術意義。

        從應用上講,現有基于關鍵詞匹配和淺層語義分析的信息服務技術已經難以滿足用戶日益增長的精準化和智能化信息需求,已有的信息服務范式急需一場變革。2011 年,華盛頓大學圖靈中心主任 Etzioni 在 Nature 上發表的《Search Needs a Shake-Up》中明確指出:在萬維網誕生 20 周年之際,互聯網搜索正處于從簡單關鍵詞搜索走向深度問答的深刻變革的風口浪尖上。以直接而準確的方式回答用戶自然語言提問的自動問答系統將構成下一代搜索引擎的基本形態。同一年,以深度問答技術為核心的 IBM Watson 自動問答機器人在美國智力競賽節目 Jeopardy 中戰勝人類選手,引起了業內的巨大轟動。Watson 自動問答系統讓人們看到已有信息服務模式被顛覆的可能性,成為了問答系統發展的一個里程碑。此外,隨著移動互聯網崛起與發展,以蘋果公司 Siri、Google Now、微軟 Cortana 等為代表的移動生活助手爆發式涌現,上述系統都把以自然語言為基本輸入方式的問答系統看做是下一代信息服務的新形態和突破口,并均加大人員、資金的投入,試圖在這一次人工智能浪潮中取得領先。

        當然,現有自動問答技術還不完美,仍面臨許多具體問題和困難。本文對自動問答的主要研究內容、面臨的科學問題和主要困難,以及當前采用的主要技術、現狀和未來發展的趨勢,進行概要介紹。

        2. 研究內容和關鍵科學問題

        自動問答系統在回答用戶問題時,需要正確理解用戶所提的自然語言問題,抽取其中的關鍵語義信息,然后在已有語料庫、知識庫或問答庫中通過檢索、匹配、推理的手段獲取答案并返回給用戶。上述過程涉及詞法分析、句法分析、語義分析、信息檢索、邏輯推理、知識工程、語言生成等多項關鍵技術。傳統自動問答多集中在限定領域,針對限定類型的問題進行回答。伴隨著互聯網和大數據的飛速發展,現有研究趨向于開放域、面向開放類型問題的自動問答。概括地講,自動問答的主要研究任務和相應關鍵科學問題如下。

        2.1  問句理解

        給定用戶問題,自動問答首先需要理解用戶所提問題。用戶問句的語義理解包含詞法分析、句法分析、語義分析等多項關鍵技術,需要從文本的多個維度理解其中包含的語義內容。在詞語層面,需要在開放域環境下,研究命名實體識別(Named Entity Recognition)、術語識別(Term Extraction)、詞匯化答案類型詞識別(Lexical Answer TypeRecognition)、實體消歧(Entity Disambiguation)、關鍵詞權重計算(Keyword Weight Estimation)、答案集中詞識別(Focused Word Detection)等關鍵問題。在句法層面,需要解析句子中詞與詞之間、短語與短語之間的句法關系,分析句子句法結構。在語義層面,需要根據詞語層面、句法層面的分析結果,將自然語言問句解析成可計算、結構化的邏輯表達形式(如一階謂詞邏輯表達式)。

        2.2  文本信息抽取

        給定問句語義分析結果,自動問答系統需要在已有語料庫、知識庫或問答庫中匹配相關的信息,并抽取出相應的答案。傳統答案抽取構建在淺層語義分析基礎之上,采用關鍵詞匹配策略,往往只能處理限定類型的答案,系統的準確率和效率都難以滿足實際應用需求。為保證信息匹配以及答案抽取的準確度,需要分析語義單元之間的語義關系,抽取文本中的結構化知識。早期基于規則模板的知識抽取方法難以突破領域和問題類型的限制,遠遠不能滿足開放領域自動問答的知識需求。為了適應互聯網實際應用的需求,越來越多的研究者和開發者開始關注開放域知識抽取技術,其特點在于:1)文本領域開放:處理的文本是不限定

        領域的網絡文本;2)內容單元類型開放:不限定所抽取的內容單元類型,而是自動地從網絡中挖掘內容單元的類型,例如實體類型、事件類型和關系類型等。

        2.3  知識推理

        自動問答中,由于語料庫、知識庫和問答庫本身的覆蓋度有限,并不是所有問題都能直接找到答案。這就需要在已有的知識體系中,通過知識推理的手段獲取這些隱含的答案。例如,知識庫中可能包括了一個人的“出生地”信息,但是沒包括這個人的“國籍”信息,因此無法直接回答諸如“某某人是哪國人?”這樣的問題。但是一般情況下,一個人的“出生地”所屬的國家就是他(她)的“國籍”。在自動問答中,就需要通過推理的方式學習到這樣的模式。傳統推理方法采用基于符號的知識表示形式,通過人工構建的推理規則得到答案。

        但是面對大規模、開放域的問答場景,如何自動進行規則學習,如何解決規則沖突仍然是亟待解決的難點問題。目前,基于分布式表示的知識表示學習方法能夠將實體、概念以及它們之間的語義關系表示為低維空間中的對象(向量、矩陣等),并通過低維空間中的數值計算完成知識推理任務。雖然這類推理的效果離實用還有距離,但是我們認為這是值得探尋的方法,特別是如何將已有的基于符號表示的邏輯推理與基于分布式表示的數值推理相結合,研究融合符號邏輯和表示學習的知識推理技術,是知識推理任務中的關鍵科學問題。

        3. 技術方法和研究現狀

        根據目標數據源的不同,已有自動問答技術大致可以分為三類:1)檢索式問答;2)社區問答以及 3)知識庫問答。以下分別就這幾個方面對研究現狀進行簡要闡述。

        3.1  檢索式問答

        檢索式問答研究伴隨搜索引擎的發展不斷推進。1999 年,隨著 TREC QA 任務的發起,檢索式問答系統迎來了真正的研究進展。TREC QA 的任務是給定特定 WEB 數據集,從中找到能夠回答問題的答案。這類方法是以檢索和答案抽取為基本過程的問答系統,具體過程包括問題分析、篇章檢索和答案抽取。根據抽取方法的不同,已有檢索式問答可以分為基于模式匹配的問答方法和基于統計文本信息抽取的問答方法。

        基于模式匹配的方法往往先離線地獲得各類提問答案的模式。在運行階段,系統首先判斷當前提問屬于哪一類,然后使用這類提問的模式來對抽取的候選答案進行驗證。同時為了提高問答系統的性能,人們也引入自然語言處理技術。由于自然語言處理的技術還未成熟,現有大多數系統都基于淺層句子分析。

        基于統計文本信息抽取的問答系統的典型代表是美國 Language ComputerCorporation公司的 LCC 系統。該系統使用詞匯鏈和邏輯形式轉換技術,把提問句和答案句轉化成統一的邏輯形式(Logic Form),通過詞匯鏈,實現答案的推理驗證。LCC 系統在 TREC QA Track 2001~2004 連續三年的評測中以較大領先優勢獲得第一名的成績。

        2011年,IBM 研發的問答機器 Watson5在美國智力競賽節目《危險邊緣 Jeopardy!》中戰勝人類選手,成為問答系統發展的一個里程碑。Watson 的技術優勢大致可以分為以下三個方面:(1)強大的硬件平臺:包括90臺 IBM 服務器,分布式計算環境;(2)強大的知識資源:存儲了大約2億頁的圖書、新聞、電影劇本、辭海、文選和《世界圖書百科全書》等資料;(3)深層問答技術(DeepQA):涉及統計機器學習、句法分析、主題分析、信息抽取、知識庫集成和知識推理等深層技術。然而,Watson 并沒有突破傳統問答式檢索系統的局限性,使用的技術主要還是檢索和匹配,回答的問題類型大多是簡單的實體或詞語類問題,而推理能力不強。

        3.2  社區問答

        隨著 Web2.0 的興起,基于用戶生成內容(User-Generated Content,UGC)的互聯網服務越來越流行,社區問答系統應運而生,例如 Yahoo! Answers6、百度知道等。問答社區的出現為問答技術的發展帶來了新的機遇。據統計 2010 年 Yahoo! Answers 上已解決的問題量達到10億,2011 年“百度知道”已解決的問題量達到3億,這些社區問答數據覆蓋了方方面面的用戶知識和信息需求。此外,社區問答與傳統自動問答的另一個顯著區別是:社區問答系統有大量的用戶參與,存在豐富的用戶行為信息,例如用戶投票信息、用戶評價信息、回答者的問題采納率、用戶推薦次數、頁面點擊次數以及用戶、問題、答案之間的相互關聯信息等等,這些用戶行為信息對于社區中問題和答案的文本內容分析具有重要的價值。

        一般來講,社區問答的核心問題是從大規模歷史問答對數據中找出與用戶提問問題語義相似的歷史問題并將其答案返回提問用戶。假設用戶查詢問題為q0 ,用于檢索的問答對數據為SQ,A = {(q1,a1 ),(q2 ,a2 )},…,(qn ,an)}},相似問答對檢索的目標是從S Q,A 中檢索出能夠解答問題q 0的問答對(q i ,a )。

        針對這一問題,傳統的信息檢索模型,如向量空間模型、語言模型等,都可以得到應用。但是,相對于傳統的文檔檢索,社區問答的特點在于:用戶問題和已有問句相對來說都非常短,用戶問題和已有問句之間存在“詞匯鴻溝”問題,基于關鍵詞匹配的檢索模型很難達到較好的問答準確度。目前,很多研究工作在已有檢索框架中針對這一問題引入單語言翻譯概率模型,通過 IBM 翻譯模型,從海量單語問答語料中獲得同種語言中兩個不同詞語之間的語義轉換概率,從而在一定程度上解決詞匯語義鴻溝問題。例如和“減肥”對應的概率高的相關詞有“瘦身”、“跑步”、“飲食”、“健康”、“遠動”等等。 除此之外,也有許多關于問句檢索中詞重要性的研究和基于句法結構的問題匹配研究。

        3.3  知識庫問答

        檢索式問答和社區問答盡管在某些特定領域或者商業領域有所應用,但是其核心還是關鍵詞匹配和淺層語義分析技術,難以實現知識的深層邏輯推理,無法達到人工智能的高級目標。因此,近些年來,無論是學術界或工業界,研究者們逐步把注意力投向知識圖譜或知識庫(Knowledge Graph)。其目標是把互聯網文本內容組織成為以實體為基本語義單元(節點)的圖結構,其中圖上的邊表示實體之間語義關系。目前互聯網中已有的大規模知識庫包括DBpedia、Freebase、YAGO 等。這些知識庫多是以“實體-關系-實體”三元組為基本單元所組成的圖結構?;谶@樣的結構化知識,問答系統的任務就是要根據用戶問題的語義直接在知識庫上查找、推理出相匹配的答案,這一任務稱為面向知識庫的問答系統或知識庫問答。

        要完成在結構化數據上的查詢、匹配、推理等操作,最有效的方式是利用結構化的查詢語句,例如:SQL、SPARQL 等。然而,這些語句通常是由專家編寫,普通用戶很難掌握并正確運用。對普通用戶來說,自然語言仍然是最自然的交互方式。因此,如何把用戶的自然語言問句轉化為結構化的查詢語句是知識庫問答的核心所在,其關鍵是對于自然語言問句進行語義理解(如圖 1 所示)。目前,主流方法是通過語義分析,將用戶的自然語言問句轉化成結構化的語義表示,如 λ范式和 DCS-Tree。相對應的語義解析語法或方法包括組合范疇語法(Category CompositionalGrammar, CCG) 以 及依存組合語法(Dependency-based Compositional Semantics, DCS)等。


        盡管很多語義解析方法在限定領域內能達到很好的效果,在這些工作中,很多重要組成部分(比如 CCG 中的詞匯表和規則集)都是人工編寫的。上述方法當面對大規模知識庫時會遇到困難,如詞匯表問題(在面對一個陌生的知識庫時,不可能事先或者用人工方法得到這個詞匯表)。目前已有許多工作試圖解決上述問題,如利用數據回標方法擴展 CCG 中的詞典,挖掘事實庫和知識庫在實例級上的對應關系確定詞匯語義形式。

        但是,上述方法的處理范式仍然是基于符號邏輯的,缺乏靈活性,在分析問句語義過程中,易受到符號間語義鴻溝影響。同時從自然語言問句到結構化語義表達需要多步操作,多步間的誤差傳遞對于問答的準確度也有很大的影響。近年來,深度學習技術以及相關研究飛速發展,在很多領域都取得了突破,例如圖像、視頻和語音等,在自然語言處理領域也逐步開始應用。其優勢在于通過學習能夠捕獲文本(詞、短語、句子、段落以及篇章)的語義信息,把目標文本投射到低維的語義空間中,這使得傳統自然語言處理過程中很多語義鴻溝的現象通過低維空間中向量間數值計算得到一定程度的改善或解決。因此越來越多的研究者開始研究深度學習技術在自然語言處理問題中的應用,例如情感分析、機器翻譯、句法分析等等,知識庫問答系統也不例外。與傳統基于符號的知識庫問答方法相比,基于表示學習的知識庫問答方法更具魯棒性,其在效果上已經逐步超過傳統方法,如圖 2 所示。這些方法的基本假設是把知識庫問答看做是一個語義匹配的過程。通過表示學習,我們能夠把用戶的自然語言問題轉換為一個低維空間中的數值向量(分布式語義表示),同時知識庫中的實體、概念、類別以及關系也能夠表示成同一語義空間的數值向量。那么傳統知識庫問答任務就可以看成問句語義向量與知識庫中實體、邊的語義向量之間的相似度計算過程。

        3.4  技術現狀

        根據上面的闡述可以看到,根據不同的技術路線,檢索式問答、社區問答以及知識庫問答所采用的評測數據集也不盡相同。

        在檢索式問答方面,最權威的評測是美國國家標準技術研究所(NIST)推動的TREC(TextRetrieval EvaluationConference)于1999年開始組織的問答評測任務(QA Track)8和NTCIR(NII Testbeds and Communityfor Information access Research)組織的跨語言問答評測任務(CLQA)9。TREC QA評測考察三類不同的問題:事實性(factoid)、列表類(list)和定義類(definition)。然后綜合這三類問題的平均得分,對于參評系統進行評價。TREC QA 評測一直持續到 2007 年,該評測一直都是檢索式問答領域最受關注、參加機構最多的 TREC 評測項目之一。根據 2007 年的評測結果來看,最好的評測系統 MRR(MeanReciprocal Rank)可以達到 0.48 以上(接近0.5意味著評測系統對于所有的問題將在前兩位返回結果中獲得正確答案)?;?TREC 評測系統,IBM公司于2011年研發的 Watson 系統參加了美國 Jeopardy 知識比賽,并戰勝了人類選手,可以看做是檢索式問答系統的一個里程碑。但是不可忽略的是,Jeopardy比賽還是一個限定問題類型、限定答案類型的知識比賽,面對開放式的場景和環境,已有檢索式問答系統還有很長的路要走。

        在社區問答方面,目前并沒有權威的評測數據集,公認的數據集通常是由 Yahoo!Answers 社區問答系統上利用為研究人員提供的 API10接口下載的。目前,最好的檢索系統在 Top 10 的準確率可以達到 40%。盡管社區問答系統相對于檢索式問答和知識庫問答技術簡單,但是目前已經商業化,例如 Yahoo Answer11和百度知道12。

        在知識庫問答方面,已有的評測主要針對于一些限定領域的知識庫進行問答。已有方法也取得了不錯的結果。例如:在Geoquery13(美國地理知識查詢)數據集上(600個訓練樣本,280個測試樣本)上,使用 CCG 和本體匹配的方法F值能達到89.0%,使用DCS的方法F 值能達到 91.1%;在求職(JOBS)數據集上(500 個訓練樣本,140 個測試樣本),使用 CCG的方法F值能達到 79.3%,使用 DCS 的方法F值能達到 95%。在這一方面,QALD(QuestionAnswering overLinked Data)評測的舉辦更是推動了這方面的研究。QALD 每年舉辦一屆,目前已經舉辦到了第六屆。每一次評測,組織者都會給出一些問題,要求參加評測系統在給定知識庫的基礎上,將所給問題轉化為結構化的SPARQL 查詢語句,并在給定知識庫上查詢答案。但是,目前的研究趨勢是從限定領域的知識庫向大規模開放域甚至是多領域知識庫進行擴展,例如 Freebase。與限定領域知識庫相比,大規模開放知識庫包含的資源和關系數量要大得多,比如Geoquery中只包含8個關系謂詞,而 Freebase 包含上萬個關系。因此開放知識庫上的語義解析效果有明顯下降。例如利用Freebase知識庫,開放查詢測試的最好效果只有39.9%;而在 QALD 評測中,在DBpedia上、開放查詢中,表現最好的問答系統的正確率只有 40%。下圖給出在面對開放域知識庫 Freebase 時,在公開問題庫 WebQuestion上,已有系統能夠達到的精度。

        4. 總結和展望

        縱觀自動問答研究的發展態勢和技術現狀,以下研究方向或問題將可能成為未來整個領域和行業重點關注的方向:

        4.1  基于深度學習的端到端自動問答

        目前,基于深度學習的問答系統試圖通過高質量的問題-答案語料建立聯合學習模型,同時學習語料庫、知識庫和問句的語義表示及它們相互之間的語義映射關系,試圖通過向量間的數值運算對于復雜的問答過程進行建模。這類方法的優勢在于把傳統的問句語義解析、文本檢索、答案抽取與生成的復雜步驟轉變為一個可學習的過程,雖然取得了一定的效果,但是也存在很多問題。例如: 1)資源問題。深度學習的方法依賴大量的訓練語料,而目前獲取高質量的問題-答案對仍然是個瓶頸。Bordes提出了一些模板利用已有三元組來生成問句,用較小的代價生成了大量的問題-答案對,但是相應的問句質量并不能保證,而且問句同質化嚴重。在訓練資源上的提高空間仍然很大。2)已有的基于深度學習的問答方法多是針對簡單問題(例如單關系問題)設計的,對于復雜問題的回答能力尚且不足。如何利用深度學習的方法解決復雜問題值得繼續關注。

        4.2 多領域、多語言的自動問答

        開放域環境下,用戶的問題復雜多樣,很多場景下,單單只用一個數據源或單一語言的語料庫或知識庫的信息不能完全回答用戶的問題,需要對于多個資源進行綜合利用。然而,網絡中不同來源的語料庫和知識庫在框架和內容層面均存在差異, 同時也存在大量冗余。已有自動問答方法只能處理單一數據源的問答操作,尚缺乏對于多源異構知識庫異構性和冗余性的有效處理機制。

        4.3 面向問答的深度推理

        盡管已有網絡知識資源規模巨大,能夠覆蓋多個領域,但仍舊面臨信息缺失問題,給知識庫問答帶來巨大挑戰。這就需要研究面向問答的深度推理技術。傳統基于符號邏輯的邏輯推理方法基于嚴格的符號匹配,過分依賴于推理規則的生成,因此具有領域適應性差、無法進行大規模推理的缺點。而深度學習基于分布式語義表示,利用語義空間中的數值模糊計算替代傳統問答過程中的符號嚴格匹配,為解決上述問題供了一種有效途徑,但也存在推理結果準確度低、可解釋性差的問題。因此,如何利用深度學習大規模、可學習的特點,在深度神經網絡框架下,融入傳統的邏輯推理規則,構建精準的大規模知識推理引擎是自動問答迫切需要解決的難點問題。

        4.4 篇章閱讀理解

        機器閱讀理解是近幾年興起的問答任務,類似于傳統的問答任務,核心在于考察機器的文本理解和推理能力。從這個角度上說,我們可以把機器閱讀理解任務看作是問答系統的延伸。但是,機器閱讀和傳統問答仍然存在區別,主要在于:傳統問答任務往往要求系統根據用戶所提的問題,在海量文本庫或大規模結構化知識庫中檢索、抽取或推理出相應的答案,大多數情況下會利用海量數據的冗余特性對于答案進行檢索和抽取。因此,傳統問答任務多考察系統的文本匹配、信息抽取水平。而在閱讀理解任務當中,系統被要求回答一些非事實性的、高度抽象的問題。同時,信息源被限定于給定的一篇文章,雖然可以利用一些已有背

        景知識,但是問題的答案往往來源于當前給定篇章中的文本。特別考察系統對于文本的細致化的自然語言理解能力以及已有知識的運用能力和推理能力。從這個角度上來說,相對于傳統問答任務,機器閱讀理解更具挑戰。

        4.5 對話

        傳統的自動問答都是采用一問一答的形式。然而在很多場景下,需要提問者和系統進行多輪對話交互,完成問答過程。針對這一問題,已有研究已經提出若干方法,但是由于場景的開放性以及用戶問題的復雜度,這一問題一直難以很好解決。特別是在對話上下文建模與知識表示、對話策略學習以及對話準確性評價等方面亟待解決。

        總之,自動問答作為人工智能技術的有效評價手段,已經研究了 60 余年。整體上,自動問答技術的發展趨勢是從限定領域向開放領域、從單輪問答向多輪對話、從單個數據源向多個數據源、從淺層語義分析向深度邏輯推理不斷推進。我們有理由相信,隨著自然語言處理、深度學習、知識工程和知識推理等相關技術的飛速發展,自動問答在未來有可能得到相當程度的突破。伴隨著 IBM Watson、Apple Siri 等實際應用的落地與演進,我們更有信心看到這一技術將在不遠的未來得到更大、更廣的應用。


        (摘自《中文信息處理發展報告(2016)》)


        欲求不满的人妻日本电影
        <noframes id="z7bdd"><pre id="z7bdd"><strike id="z7bdd"></strike></pre>
          <output id="z7bdd"><ruby id="z7bdd"><dfn id="z7bdd"></dfn></ruby></output>
          <address id="z7bdd"><strike id="z7bdd"></strike></address>
          <sub id="z7bdd"></sub><noframes id="z7bdd">

              <track id="z7bdd"></track>