MBA論文代寫|MPA論文代寫|工程碩士論文|經濟管理論文|國際貿易論文代寫|醫學護理論文|文學論文|項目管理論文|建筑工程論文|教育教學論文|農業推廣論文|法學論文代寫|體育論文|工商管理論文|公共管理論文|藝術論文|會計論文|環境論文|計算機論文代寫|財務管理論文|物流管理論文|新聞傳播論文|應用文類市場營銷論文|人力資源論文代寫|心理學論文|化工論文|機械論文代寫|石油工程論文代寫|水利工程|哲學論文|英語論文|電氣工程論文|對外漢語論文|金融學論文思政論文|通信工程論文代寫

天天論文代寫網可提供代寫畢業論文,代寫職稱論文,代寫碩士論文,代寫代發表等服務

在線客服

于老師 點擊這里給我發送消息 177872916
電 話:13838208225
王老師 點擊這里給我發送消息 177872915
電 話:13503820014
當前位置:首頁 > 論文代寫技巧
論文代寫技巧
代寫畢業論文關鍵詞自動提取方法【基于Scopus檢索和TFIDF】
作者:天天論文網 日期:2018/6/20 15:10:46 點擊:

隨著學術研究的國際化及跨學科發展,科研文獻的數量迅速增長,研究人員需要花費大量時間從海量文獻中搜索有價值的信息.作者或文獻數據庫給出的關鍵詞有助于縮小文獻索引的范圍,但人工選取關鍵詞耗時并且帶有較多的主觀性,因此,將代寫畢業論文關鍵詞自動提取技術應用于科研文獻中具有重要意義[1].

目前,關鍵詞提取主要分為監督方法和非監督方法.Turney[2]提出的監督方法使用人工標注的語料庫對分類器進行訓練,來判斷候選詞是否為關鍵詞.之后,Franketal[3]使用樸素貝葉斯學習算法,Jiangetal[4]提出支持向量機排序的監督方法,均提高了關鍵詞提取性能.監督方法中另一個較為廣泛使用的是特征加權法,主要使用 TFIDF、詞長、位置、詞性等文檔內部特征[2-3,5]與語料庫、WordNet等外部鏈接特征[6-7]對候選詞進行加權.非監督方法有基于圖的排序法[8]、基于主題的分類法[9]、基于維基百科的聚類法[10]等.基于圖的排序法使用文檔內詞語同現的分布情況與網頁排名計算候選詞的重要性[8];在此基礎上,基于主題的分類方法對不同主題的候選詞進行排序[9];基于維基百科的方法將語義相似的候選詞進行聚類,再從集群中選擇中心詞作為關鍵詞[10].監督方法依賴于已標注的語料庫,由于人工標注成本較高,訓練集的樣本信息較為有限.非監督方法可以充分利用未標注的預料庫,但訓練時間較長.

Nguyen and Kan[5] 利 用  TFIDF (TermFrequency-Inverse Document Frequency)、文檔結構、詞性等特征,將關鍵詞提取應用于科研文獻中.本文提出結合 TFIDF、位置特征加權與Scopus數據庫檢索的方法,從英文科研文獻中自動提取關鍵詞.Scopus提供了廣泛的科技紹本文方法中關鍵詞在摘要中的位置特征權值的計算,并引入兩類停用詞庫過濾干擾詞,最后介紹 Scopus 的自動檢索.本 文采用  NguyenandKan[5]方法中使用的結構、詞性、詞形等特征,使用 Scopus 數據庫代替人工標注的語料庫.通過準確率、召回率與F1 值對方法進行評估,實驗結果證明該方法較 NguyenandKan[5]的方法具有較好的性能.

代寫畢業論文

1 相關理論

1.1   關鍵詞的定義與詞性標注     關鍵詞通常用于表示文本主題,概 括文本的主要內容.

Turney[2]首次提出有別于單詞級關鍵字(Key-word)的定義,將短語級關鍵詞(Keyphrase)定義為由若干個關鍵字組成的短序列.在之后的相關研究中,英文關鍵詞的提取主要分為單詞級[7]與短語級[11-12].此外,Turney[2]考慮詞性與單詞后綴特征,規定單詞級關鍵字不能是動詞與形容詞,短語級關鍵詞可包含形容詞,但不能以形容詞為結尾.在此定義上,NguyenandKan[5]和 KimandKan[13]使用了詞性標簽來標注候選關鍵詞的詞性.

詞性 標 注 屬 于 自 然 語 言 處 理 (NaturalLanguageProcessing,NLP)中的詞法分析,是將語句中的每個詞語分類并標記為名詞、動詞、形容詞等,Santorini[14]給出了這些詞類標簽的縮寫及相關定義.斯坦福大學自然語言處理研究組提供的開源包是目前較為常用的 NLP 工具之一,其中的詞性標注工具(Part-of-SpeechTagger)[15]能夠給單詞分配詞性標簽.

1.2   TFIDF   TFIDF[16]是關鍵詞提取監督方法中最為常用的特征之一.對于給定的待提取關鍵詞的文本 d,候 選詞t 與語料庫 D ,其

TFIDF 特征值 Wt,D 的計算公式為:

文獻文摘及索引,不同于普通的網絡文檔語料庫,Scopus的文獻數據與分類索引更專業、統一.此外,Scopus提供應用程序接口(API),方便研究人員收集數據.本文首先介紹關鍵詞的定義、傳統 TFIDF 計算方法及優缺點、位置特征在關鍵詞提取中的應用等相關理論,接著介TF 為t 的詞頻,ft,d 表示t 在d 中出現的次數,|d|為文本總詞數.IDF 為d 的反轉頻率,

ft,D 為D 中出現t 的文本數,|D|為語料庫的文本數.在單文檔中頻率高、在語料庫中頻率低的候選詞擁有較高的權重.

傳統 TFIDF 的計算原理簡單,應用較廣,但該方法依賴于專業領域語料庫的建立.語料庫文檔數量級不夠或各類別所占比不均衡會導致 TFIDF 權值的偏差[17],在 大型語料庫下

IDF 的計算效率也會降低.

1.3   文獻摘要中關鍵詞的分布加權     候選詞的位置權重也是重要的特征.在科技文獻中,關鍵詞通常出現在摘要、引 言等開頭處[13].

NguyenandKan[5]使用14 個常用詞來標記候選詞在文獻中的位置并給予相應的權重,摘要、引言、方法等部分權重較大,實驗結果部分權重較小.摘要通常包含引言 (I)、背景 (B)、目的(P)、方法(M)、結果(R)或討論(D)內容,目前有IMRAD[18]和 BPMRD[19]等摘要結構,其中最常見的元素是背景、方法和結果[20-21].本文方法將結合關鍵詞在摘要中的分布,用常用詞作為特征[23]確定摘要各元素并標記候選詞在摘要中出現的位置,根據位置分配權重.

2   基于TFIDF加權統計與Scopus檢索的短語級關鍵詞自動提取方法

本文從摘要提取候選詞,結合其在摘要中的分布與基于全文統計的 TF,通 過 ScopusAPI[24]在數據庫自動檢索候選詞,檢索結果作為式(1)中的ft,D .候選詞從摘要而非全文中提取的原因有兩個:第一,摘要表述文檔主要內容,其 用 詞 更 為 精 簡、準 確[22];第 二,由 于ScopusAPI 提 供 的 檢 索 限 制 在 每 周 10000次[25],而基于全文提取候選詞的冗余詞量大,不利于處理工作的高效進行.本方法的優點在于不需要人工建立和標記語料庫,且Scopus龐大的文檔數量級與豐富的類別可以有效避免權值偏差.

本文提出的關鍵詞提取方法流程如圖 1所示.

2.1    提取候選詞     首先使用 Stanford POS

Tagger標注詞性,并提取候選詞.本文采取關鍵詞的短語級定義,短語長度由 POS Tagger

  

圖1   基于TFIDF加權統計與Scopus檢索的關鍵詞提取方法流程圖

Fig.1       Flow  chart  of the  proposed  keyphrases extraction method based on TFIDF weightedstatistics andScopusdatabaseretrieval 

的標注結果而定,并且不包含特殊符號和標記.其形式包括:

(1)僅由若干個名詞組成的短語,如radar,

azimuthdirection,radiofrequencysignal.

(2)僅 由形容詞與名詞組成的短語,如

high resolution,two-dimensional frequency spectrum.

(3)由形容詞、名詞和連詞 and 組成的短

語.由于“and”在檢索中可能會帶來干擾,這類短語需要被拆分成兩個短語,拆分規則有以下兩種:

①形如“形容詞+ 名詞 A+and+ 名詞 B”的短語應被拆成“形容詞 + 名詞 A”和 “形 容詞+名詞B”;

②形如“形容詞 A+and+ 形容詞 B+ 名詞”的短語應被拆成“形容詞 A+名詞”和“形容詞B+名詞”.

2.2   去除干擾詞    在提取的候選詞中,用于寫 作的修飾性形容詞(如 proposed,well-known)及單獨出現時不包含關鍵信息的常用詞 (如 effectiveness,algorithm ) 應  被  去  除. Liu

etal[26]建立了停用詞庫來過濾這些干擾,為了提高方法的準確率,在此基礎上擴展了停用詞庫.附錄附表1中的修飾性形容詞作為提取短

語中的第一個單詞時應被去除,附表2 中的單詞或詞語作為候選詞單獨出現時也將被去除.

2.3   分配位置權重     在科研文獻全文的關鍵詞權值分配中,結果部分的權值最低,相應地,摘要分為結果與非結果部 分.Kanoksilapa-

tham[23]指 出摘要結果部分通常使用 show,

find等詞的現在或過去式,我們建立標記結果部分的語言特征詞(見表1),來判斷候選詞第一次出現的位置是否在摘要的結果部分,并將通過實驗統計關鍵詞的分布情況,確定位置權重的大小.

表1 用于標記摘要結果部分的特征詞

Table1   Characterizationsinthesentenceastheresultpartsofabstracts asresult;comparativeexperiments;comparisonexperiments;conclusion:;conclusions:;evaluationexperiments; evaluationshow;experimentaldatashows;experimentalresults;experimentalstudy;experimentsdemonstrate; experimentson;experimentsreveal;experimentsshow;finalconclusion;findings- ;findings:;findingsindicate; forevaluation;forevaluation;inexperiment;inexperiments;insum;isevaluated;ourexperiment;ourresult; performexperiments;promisingresult;result:;resultachieved;resultindicatesthat;resultproves;results:; resultsarecomparedto;resultsdemonstrate;resultsprovide;resultsshow;resultsshowthat;resultsshowed that;results suggest;shows comparable performance;the experiment;toillustrate;testshowed that;was

  performed;wastested;wedemonstrate;weevaluate;weperform;wereperformed;whencomparedto           

2.4   檢索并計算結果    本文將Scopus數據庫視為語料庫,通過ScopusAPI返回摘要包含候選詞的文獻數目.Scopus中有完全匹配與近似匹配[27]兩種檢索規則.完全匹配按短語原樣檢索,包含短語中的空格、標點等;近似匹配檢索忽略標點,結果包含短語的單復數形式.采取近似匹配檢索來減少單詞的不同形式帶來的干擾.特別地,縮略詞(如 NLP)在單獨檢索時易產生歧義,應采用其全稱進行檢索.

使用式(2)計算候選詞t 的最終權值,它考慮了候選詞的位置權重 Wpos :

Wt,D =TF×IDF×Wpos =

N1 表示本文方法提取的正確的關鍵詞數,N2表示方法提取的關鍵詞總數,N3  表示提供的作者關鍵詞或索引關鍵詞總數.F1  值綜合考慮準確率與召回率的影響,其值越大,分類性能越好[18].

3 實驗結果與分析

實驗對象為 2015 年出版的關鍵詞包含

“signal processing”和  “radar”的 文 獻.在

Scopus中檢索到1063 篇,排除未提供作者關鍵詞或索引關鍵詞、無全文下載權限的文獻,最終采用596篇文獻全文.這些文獻的作者關鍵


本文方法通過調查統計決定候選詞在摘要

ft,D 表 示 語 料 庫 D  中 出 現t 的 文 本 數,即

Scopus檢索的結果.截至檢索進行時,Scopus

約有4300萬文獻,故|D|為43000000.

2.5   評     估     采用準確率(P)、召回率(R)和

F1 值對本文提出的方法進行評估,其 定義如下:

P   N1                             (3)

N2

R=                  (4)中的位置權重 Wpos .在Scopus中檢索2016 年出版、關鍵詞包含“signalprocessing”和“radar”的文獻,根據表1 的特征詞統計關鍵詞在摘要的位置.包含特征詞的有314 篇,共1355 個作者關鍵詞在摘要中出現,其中312 個在特征詞

位置之后(即結果部分),占23.0%;共3381 個索引關鍵詞在摘要中出現,其中812 個在結果

部分,占24.0%.統計結果相似,因此本文實驗中將出現在結果部分的候選詞權重         定為

N3

2×P×R

Wpos

0.23,非結果部分 Wpos 定為0.77.

F1=

(5)

P+R

對實驗對象中的文獻,方法自動提取候選

詞共8622 個,每篇 m 個 Wt,d 最大的候選詞作為代寫畢業論文關鍵詞(若候選詞少于 m 個則全部輸出),分別與作者關鍵詞和索引關鍵詞進行對比,準確率、召回率和F1 值如表2 和表3 所示.由于作者關鍵詞平均不足每篇5 個,增加候選詞的輸出個數對準確率的影響較大,故當 m =15 時僅與索引關鍵詞對比.

Nguyenand Kan[5] 使用  Google 下載的

120篇科學會議論文作為實驗數據并人工分配關鍵詞,輸出10 個候選詞時準確率為32.5%.經對比,本文方法在提取索引關鍵詞的準確率高于 NguyenandKan 的方法.實驗結果顯示,提取索引關鍵詞與作者關鍵詞的準確率均隨著

m 的增加而降低,召回率隨著 m 的增加而增加.總的效果是在實驗所取的 m 值范圍內,F1值隨著 m 的增加而增加.由于作者關鍵詞較少,本文方法對作者關鍵詞的提取性能在 m =

10時較好;考慮到每篇提取的候選詞不宜過

多,如果以索引關鍵詞為參考標準,當 m =15

時方法的性能較好.

表2   不同輸出個數下與作者關鍵詞對比的結果 Table2    Evaluationresultsunderdifferentnumberof outputs(comparedwiththeauthors’keyphrases)每篇輸出前 m 個候選詞       P          R          F1 m =5          32.25% 29.12% 30.60%

m =8          27.97% 38.54% 32.42%

m =10         26.08% 43.08% 32.49%

 

表3   不同輸出個數下與索引關鍵詞對比的結果 Table3    Evaluationresultsunderdifferentnumberof outputs(comparedwiththeindexkeyphrases)每篇輸出前 m 個候選詞       P          R          F1 m =5          51.55% 12.55% 20.19%

m =8          49.41% 18.58% 27.01%

m =10         48.21% 21.99% 30.20%

m =15         46.60% 29.70% 36.27%

 

4 結 語

本文結合全文的 TFIDF 與數據庫檢索的方法從英文科研文獻的摘要中自動提取關鍵詞.該 方 法 不 需 要 人 工 建 立 語 料 庫,依 靠Scopus數據庫豐富的數據量可以有效避免傳統 TFIDF 方法的數據集偏斜和類內、類間分布偏差[17].通過對關鍵詞在摘要中出現位置的統計,該方法使用了位置特征對候選詞進行加權.此外,本文還擴展了修飾性形容詞與寫作常用詞停用詞庫,并應用于過濾干擾詞.實驗結果表明該方法在提取索引關鍵詞時準確率與 F1值較高,有較好的分類性能.但該方法仍有不足之處.首先,雖然使用短文本能夠減少處理時間,但由于摘要信息量有限,該方法的性能受摘要質量的影響較大.一些文本錯誤、拼寫錯誤會導致詞性標注錯誤,進而影響提取結果.其次,一些作者用特殊方式或同義詞表達常用詞也是實驗的主要誤差來源,這樣的詞語通常不能作為關鍵詞,但因為用詞特殊,在數據庫中檢索出的次數較低,導致IDF 偏高,方法錯誤地將其作為關鍵詞.在未來的研究工作中,將引入引文信息特征與同義詞特征來減少以上兩個問題帶來的干擾,此外還將嘗試使用深度神經網絡,引入基于文獻全文的上下文語義信息,結 合分布特征與基于Scopus數據庫檢索的 TFIDF,面向全文對給定的關鍵詞進行訓練.


熱門論文:


快速準確搞定參考文獻格式(畢業論文、職稱論文)


論文代寫修改四種技巧分享


論文代寫網站如何保證代寫論文質量



論文資源 | 期刊資源 | 論文模板資源 | 論文代寫技巧 | 站內資訊 | 代寫論文交易流程 | 代寫論文業務范圍 | 聯系我們 |
收縮
  • 電話咨詢

  • 13838208225
  • 13503820014
七乐彩走势图300