• <menu id="mge00"><strong id="mge00"></strong></menu>
  • 軟件工程碩士論文欄目提供最新軟件工程碩士論文格式、軟件工程碩士碩士論文范文。詳情咨詢QQ:357500023(論文輔導)

    基于生成式對抗網絡與異質集成學習的文本情感分類研究

    日期:2021年05月26日 編輯:ad201107111759308692 作者:無憂論文網 點擊次數:67
    論文價格:150元/篇 論文編號:lw202105121513433308 論文字數:38244 所屬欄目:軟件工程碩士論文
    論文地區:中國 論文語種:中文 論文用途:碩士畢業論文 Master Thesis

    本文是一篇軟件工程碩士論文,本文通過相關研究現狀發現傳統的文本情感分類方法過分依賴情感詞典的構建和繁重的特征清洗工程,消耗了大量的人力并且可維護性很低,而基于統計機器學習的方法對其特征學習能力較差,無法準確地識別出一些文本中隱含的情感特征信息。如何準確、有效地挖掘出文本的內部情感以及提升目前現狀階段情感分類的性能是可以讓計算機更加理解人類的情感和推動 NLP 領域向前進一步發展的重要一環。


    第一章 緒論


    1.1研究背景與意義

    隨著 2001 年互聯網泡沫的破滅,一個全新的、面向未來的新時代來臨了?;ヂ摼W開放、共享等特性使得我們不再只是互聯網上的一名沖浪者,同時也成為了波浪的制造者。當移動互聯網、智能設備普及率呈現爆發式增長的同時,人們的生活方式隨之發生了天翻地覆的變化。電商平臺創造了一種全新的購物模式,線上教育平臺彌補了鄉村教育的巨大短板,網絡直播平臺為人們提供展現自我的舞臺,政務服務平臺帶來了高效便捷的辦事體驗。

    根據中國互聯網絡信息中心(China InternetNetworkInformationCenter,CNNIC)2019 年第 44 次《中國互聯網絡發展狀況統計報告》顯示,截至 2019 年 6 月,我國整體網民人數達8.54 億,普及率達到 61.2%,而我國手機網民的規模高達 8.47 億,通過手機上網占比 99.1%。無線網絡以及移動互聯網的迅速發展,移動端設備已經成為人們進行網上沖浪的主流方式,共同推動著各行各業走向了多元化的道路。

    電商平臺、社交平臺、新媒體新聞平臺等專業化生產和運營的應用服務擁有著絕對數量的用戶群體。我國的網絡購物用戶數量將近 6.4 億,而下沉市場、跨境電商、模式創新又為網絡市場新添了增長的動能。當用戶面對大量良莠不齊的內容和產品時,網絡環境中的評論、看法、觀點則起到了相當重要的引導作用。

    這些海量的價值數據常見于以下模塊:

    1、熱門新聞事件下的輿論

    大多數熱門新聞事件具有強烈的話題性,能吸引群眾甚至是政府機關單位的高度關注。這類數據通過情感分類可以迅速地分析其情感的傾向性以及社會熱門事件的輿情事態,相關單位可及時引導或糾正輿論導向,提供社會輿論監督工作的有力保障。

    2、商品評論

    商品評論主要分為實體商品評論與虛擬消費級商品評論。實體商品評論主要集中于國內擁有著海量客戶群體的電商產品,天貓、京東、蘇寧的眾多熱銷商品擁有數以萬計的網購用戶評論,大部分用戶無法將數萬條評論數據閱讀完整后再做出判斷,利用機器將這些真實評論數據進行分析、挖掘,從而提供給用戶具有建設性的參考意見來引導推薦便顯得很有價值。

    ....................


    1.2國內外研究現狀

    文本情感分析又稱意見挖掘、傾向性分析,其任務是幫助用戶快速獲取、整理和分析相關評價信息,對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理。該領域的發展和快速起步得益于網絡上的社交媒體。自 21 世紀初以來,情感分析已經成為 NLP 領域中最熱門的研究領域之一,同時也在數據挖掘、WEB 挖掘、文本挖掘和信息檢索方面有著廣泛的研究。事實上,它已經從計算機科學蔓延到管理科學和社會科學,如市場營銷,金融,政治學,通訊,醫療科學,甚至是歷史,因其重要的商業價值引發整個社會的共同關注。

    情感分析中包含了較多的任務,比如情感分類、觀點抽取等等。隨著互聯網技術的迅速發展和普及,對網絡內容管理、監控和垃圾信息過濾的需求越來越大,網絡信息的主觀傾向性分類受到越來越多的關注。這種分類與傳統的文本分類不同,傳統的文本分類所關注的是文本的客觀內容,而傾向性分類所研究的對象是文本的“主觀因素”,即作者所表達出來的主觀傾向性,分類的結果是對于一個特定的文本要得到它是否支持某種觀點的信息。這種獨特的文本分類任務又稱為情感分類??v觀目前主觀性文本情感傾向性分析的研究工作,主要的研究思路分為以下三類:

    1、基于語義情感極性詞典的文本情感分類方法2、基于傳統統計機器學習的文本情感分類方法3、基于更深層次深度學習的文本情感分類方法

    本文將針對以上三種均具有廣泛性應用的文本情感分類方法的研究現狀逐一進行簡單綜述。

    ...........................


    第二章 相關背景知識介紹


    2.1文本表示模型

    文本是由字符、標點符號進行合理組合而生成的可被人類理解的一種非結構化數據。而計算機僅能處理二進制模式的數據,對于這類特殊的抽象字符無法直接進行處理,所以首要的工作便是如何將這類抽象字符轉換成可被計算機處理的數值模式結構化數據。文本的向量化則是后續研究工作得以解決該問題的關鍵思想。目前文本主流的向量化表示方法分為基于空間向量表示[79]的詞袋模型以及基于分布式表示的詞嵌入模型。

    2.1.1 詞袋模型

    最初的 One-Hot 編碼是如今詞袋模型的前身,將每一個詞表示為一維向量,其中向量的維度是文本所有詞構成詞集的數量,每個詞都獨立地將某一個向量位置置為 1 其余位置置為0,該方法直接通俗易懂且簡單易于實現。

    詞袋模型是對 One-Hot 編碼的進一步優化,是一種先將文本中出現的詞進行頻率統計,再使文本詞集數量表示維度的文本向量對應詞位置通過詞頻數值來表示的方法。當然這種僅僅通過統計詞頻的方式確實一定程度上解決了 One-Hot 編碼嚴重稀疏的問題,但仍然沒有包含文本中任何的語法、語義信息,也直接丟失了詞之間的順序信息。而隨著神經網絡逐漸登上舞臺,基于分布式表示的詞向量模型瞬間成功占據了文本表示方法的主導地位。

    圖 2.1Word2Vec 兩種結構

    ..........................


    2.2文本機器學習模型

    文本情感分類就是將文本蘊含的情感傾向歸類到所預設的類別中,目前主要分為監督學習文本情感分類、半監督學習文本情感分類以及無監督學習文本情感分類。本文所涉及的文本情感分類主要是監督式學習的方式,其中針對樸素貝葉斯、支持向量機和決策樹模型展開簡要介紹和分析。

    2.2.1決策樹模型

    決策樹是一種基于實例的歸納學習并且將輸入空間分成不同的區域,每個區域有獨立參數的算法模型。該模型利用樹形結構進行分類決策,樹中每個非葉子結點記錄了使用某個特征來進行類別的判斷即 if-else 規則,而每個葉子結點則代表了最后判斷的類別,其中針對特征選擇劃分結點的原則便是使得當前結點的分支節點類別純度盡可能最大化。DT 模型與其他分類算法模型相較而言比較簡單易懂,訓練數據集只需要滿足能夠使用特征向量和類別進行表示的條件即可直接構造 DT 模型,算法復雜度僅與樹型結構的層數有關,因此預測處理效率很高。

    由于可以根據不同的準則來進行特征劃分結點,于是衍生出了幾類常見的DT分類模型,具體區別對比如表 2.1 所示。

    表 2.1 常見決策樹分類模型

    ..................................


    第三章 基于DBGRU-MFCNN 的文本情感分類研究.............................25

    3.1 深度雙向門控循環單元..............................25

    3.2 多特征卷積神經網絡...............................27

    第四章 基于VAE-ECGAN的文本情感分類研究.................................... 46

    4.1 基于VAE-ECGAN 的文本情感分類...................... 46

    4.1.1 編碼器.................................. 47

    4.1.2 解碼生成器................................. 47

    第五章 總結與展望................... 61

    5.1 工作總結..............................61

    5.2 未來展望.................................62


    第四章 基于 VAE-ECGAN 的文本情感分類研究


    4.1基于 VAE-ECGAN 的文本情感分類

    本章將介紹基于 VAE-GAN,并結合了 BiLSTM、DBGRU、注意力機制、集成學習以及策略梯度優化來進行情感文本的生成,具體網絡如圖 4.1 所示。

    模型在整體結構上采用了 VAE 和 ACGAN 相結合的方式,但在輔助分類器部分本文使用了集成學習的模式對其進行了改進。由于真實的文本情感特征信息不會特別明顯,當特征信息與標簽存在較弱的對應關系時,模型對其建模和特征挖掘會存在一定的難度,導致情感分類效果出現瓶頸現象。而 VAE-ACGAN 因其是由模型自身在充分學習帶有情感信息的文本特征后,通過指定情感類別的方式進行文本生成,模型會為了滿足其需要攜帶的情感特征,在文本生成過程中有主觀選擇性地將情感信息特征較為明顯的詞優先加入至文本中。因此將輸入至 D 中的生成文本和真實文本同時輸入至集成學習的基分類器進行訓練學習,當訓練數據集中同時包含了人工標注情感數據集和機器標注情感數據集時,再結合 Stacking 算法對混合訓練數據集進行建模學習,可以使情感分類效果進一步提升的同時,又能夠讓 G 生成情感類別更加準確的文本。首先將原始數據同第三章進行預處理工作,將處理好的訓練數據使用BERT 和 Word2Vec 兩種預訓練模型進行文本特征向量表示,然后將文本輸入至 VAE 模塊進行訓練,其中 VAE 編碼器和解碼器均采用 BiLSTM 進行潛在向量提取和序列輸出,并結合了注意力機制。隨后將兩種生成的文本特征向量輸入到基于Stacking 算法并且包含了 NB模型、DT 模型、SVM 模型以及 DBGRU-MFCNN 的集成模型中進行判別,其中 DBGRU-MFCNN 還需要對文本的真偽性進行判定,通過策略

    該論文為收費論文,請加QQ1135811234聯系客服人員購買全文
    在线成年视频人网站观看,成年美女黄网站色大全中闯,99久热re在线精品视频,又爽又黄又无遮挡的视频