前言:尋找寫作靈感?中文期刊網用心挑選的期刊論文被引量預測研究,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
1引言
論文的被引量在科研評價過程中具有十分重要的地位,如在科學基金申請、學術獎項評定、機構人才引進等過程中,往往需要科研工作者提供論文的引證報告作為其學術影響力的佐證。但是,單純地依靠被引量及其相關指標來評價一篇文章學術水平的高低或效用的大小存在著一定的局限性,如論文往往需要在發表后一年或更長時間才可能被引用,存在一定的滯后性,特別是人文社科領域的論文,往往需要3-5年才能達到被引高峰。因此,利用初期的特征因子對論文中長期被引量做出預測,較早地發現未來可能被高被引的論文或高被引學者,將有助于科研人員的管理與決策活動。在預測活動中,預測指標和預測方法的選擇是最為重要的兩部分內容。預測指標的選擇主要基于相關性分析,一般認為兩個變量之間是否存在相關性是能否利用一個變量對另一個變量進行預測的基礎。關于被引量與其他因素之間相關性的研究已有較多成果【1-6】,如趙思?等人采用相關分析對期刊論文的外部特征、作者特征、引用特征和期刊特征共12個細分指標進行了檢驗,發現對論文被引量有顯著貢獻的指標包括第一作者的H指數、第一作者的總被引量、第一作者的平均被引量、樣本后兩年內的被引量、期刊即年指標等【5】;Haslam等對308篇心理學期刊論文十年被引量進行分析,發現第一作者的權威性、是否具有一個或多個資深作者、期刊聲望、論文長度、參考文獻的新鮮度及數量等均與論文被引量相關【4】;Tahamtan等在其一篇綜述中,將28個與論文被引量相關的因素歸納為三大類,即與論文相關的影響因素(如論文質量、主題新穎性、研究主題和領域特征、研究方法等)、與期刊相關的影響因素(如期刊影響因子、期刊的語種、期刊范圍、出版形式等)、與作者相關的影響因素(如作者數量、作者聲望、自引情況、作者的國內國際合作情況、國籍、性別、年齡、種族等)【1】;類似地,鮑玉芳等人將影響論文被引量的34個相關因素按作者因素、文章因素、期刊因素、網絡計量學、其他因素這五個維度進行梳理,提出了更為全面的指標體系【6】。此外,Jahandi⁃deh等人運用獨立樣本T檢驗方法對兩組論文進行差別檢驗【3】,Zavos等人選用TheWilcoxonrank-sumtest方法進行假設檢驗【2】,來判斷被引量和其他因素間的關系。在上述研究中,許多與被引量相關的因素(如作者因素、期刊因素等)都是在時即已確定。然而,就算在同一刊物上發表的同期論文,其后期被引量也存在著較大的差異,顯然其長期被引量主要受到了后一些動態變化因素的影響,如早期的被引量【5,7-8】在被引量預測方法的選擇上,目前仍以傳統的回歸分析法為主。通過上述梳理和分析,筆者發現,目前在論文被引量預測的相關研究中,已有多位學者研究了作者相關因素、論文相關因素、期刊相關因素等與被引量的關系,但鮮有學者對論文的被引量與早期動態變化因素進行相關性分析,在基于數據類型及其關系視角下的模型構建和模型預測的方法選擇和運用上,還處于初步階段。因此,本研究中筆者對論文早期動態指標(如早期被引量、早期下載量)、論文總下載量、總被引量、論文題名、論文作者數量、關鍵詞數量以及期刊綜合影響因子等指標進行逐一分析和選取,以論文的早期被引量和下載量作為重要研究標的,并結合分位數回歸方法進行模型建構和預測,以期尋找到影響論文中長期被引量的有效指標,并構建較為優良的預測模型。
2研究方法與數據
2.1相關性分析
基于樣本中變量的不同屬性,在本研究中采用Spearman相關分析方法進行變量間相關性分析與處理。
2.2分位數回歸
回歸分析能夠定量地闡釋變量間的依存關系,是預測和控制領域常用方法之一。傳統的回歸分析一般要求數據滿足正態性假設或方差齊性假設,但現實生活中,許多數據無法滿足上述假設,如論文的被引量分布【16】和下載量分布【10】都屬于偏態分布,經典回歸模型在此領域的準確性會失效。而分位數回歸則利用自變量和因變量的條件分位數進行建模,不特定要求數據的分布形態,能夠更好闡釋因變量條件分布的全貌而不僅僅分析其條件期望;而且,運用分位數回歸,自變量可充分反映其對因變量的分布的位置影響、形狀影響等。因此在社科研究中,對于實際所得數據的分析解釋,分位數回歸分析更勝一籌【17-20】。
2.3研究工具
采用spss20.0對數據的分布形態以及數據的相關關系程度進行了處理和分析;運用R語言對數據進行分位數回歸分析、方差分析以及被引量的預測分析和預測效果檢驗。
2.4數據來源與處理
以中國知網提供的11種圖書情報領域期刊2006-2008年發表的且獲得過下載的10334篇論文作為研究對象(CNKI從2005年開始有完整的下載數據),選擇這些期刊主要是由于這些期刊創刊時間較長,在CNKI中收錄完整。剔除數據集中的目錄、卷首語、征稿啟事、簡訊等噪聲數據后,得到最終數據集DataSet1,共涉及論文9919篇。在9919篇論文中,通過SPSS模糊抽樣,隨機抽取總樣本中約50%的樣本(4988個)作相關分析和分位數回歸分析,剩余約50%的樣本(4931個)用作后續模型驗證以及被引量預測使用。DataSet1中,每篇論文所涉及的數據包含論文的基本題錄信息以及該論文在2006-2015年每一自然年的下載量和被引量,分別加總每一自然年的下載量和被引量,得到每篇論文自出版時到2015年12月31日的總下載量和總被引量;由于不同論文出版月份不同,有的在年初出版,有的在年末出版,因此出版月份較晚的論文在出版當年的下載量和被引量無法體現其真實數量,為了更加準確地呈現論文在出版后1年內的下載量和被引量,本文假設每篇論文下載量和被引量在一年的不同月份不存在差異,首先采用如下公式計算絕對下載量:其中M表示論文出版月份,并以此類推獲得每篇論文出版后3-7年內的絕對下載量;然后采用同樣的處理方法獲得了每篇論文出版后1-7年內的絕對被引量,匯總獲得新數據集DataSet2(由于2008年發表的論文截止至2015年12月31日只有7年的下載及被引數據,所以將所有論文統一統計年限為7年)。
3研究結果
3.1論文被引量與論文各指標的相關分析
從論文題名長度、作者數量、關鍵詞數量、綜合影響因子、分年被引量、分年段被引量6個常見指標,以及總下載量、分年下載量、分年段下載量3個新入指標,共9個指標,對4988個樣本運用等級相關分析,發現:表2所示的5個指標中,僅有論文總下載量與論文總被引量之間存在正的強相關關系,而其他幾個指標相關強度一般,如影響因子這一指標呈現出極低的相關性,這也印證了Prathap等人的發現——不論是獨立的科學家的論文還是研究團隊的論文,文章的被引率與其期刊影響因子不存在顯著的相關性【21】。Lozano研究發現,來源期刊影響因子高的高被引論文比例正下降【22】。Seglen認為期刊影響因子并不是文章的特殊屬性,因此用它來評估論文實質上沒有意義【23】。此外,有些學者認為,通過期刊影響因子來判斷文章,使得“自己的成果變成由發表在哪兒而不是發表了什么來評判”。表3的結果顯示,論文分年下載量、論文分年被引量與論文總被引量的相關趨勢相同,即前7年中,論文的分年下載量和分年被引量均與論文總被引量存在正的強相關關系,而后兩年則不存在強相關。依據上述結果,進一步分析了分年段下載量與論文總被引量的相關情況,同樣發現論文分年段下載量和分年段被引量與論文總被引量的相關趨勢也相同,即前2年和中間2年的下載量和被引量均與論文總被引量存在正的強相關關系,末2年下載量和被引量與總被引量的相關關系強度一般(如表4所示)。通過上述分析結果,早期的分年被引量、前2年被引量(選取第1年和第2年)、中間2年被引量(選取第5年和第6年)均與論文總被引量有著強相關關系,由于論文的引用時間有差異,單一年份論文被引有的極少,有的甚至為0,不具有代表性。因此為了提高預測的準確性,我們選擇分年段被引,由于前2年被引量和中間2年被引量與論文總被引量的相關結果相差不大,那么選擇前兩年被引量會有時間優勢,正如Ponomarevp所說,越早發現突破性研究,則能有更多時間通過工作坊、資金資助或合作研究等方式促進相關科研領域的發展【12】;且趙思?等人研究發現“樣本后兩年內的被引量”也是有效指標之一【5】;Levitt研究相關領域的論文發現論文早期引用量與論文總引用量排名具有高強度的相關性【7】;Stegehuis也采用了論文早期引用量作為預測指標之一。基于上述分析,將前2年被引量作為預測指標之一較為適宜【24】。對于下載量這一新納入的預測指標,從上述分析結果可發現,論文前2年下載量與論文總被引量的相關程度也較為密切,因此前2年下載量也作為一個預測指標用于論文被引情況的預測。
3.2文章被引情況的分位數回歸分析
3.2.1回歸模型
由于數據的極偏態分布,使得普通回歸模型無法較好解釋變量的真實關系,如第二節所介紹的分位數回歸方法可以有效解決社科研究中數據偏態分布的回歸分析。在分位數回歸分析中,采用了核估計法對回歸模型的各項系數進行檢驗,得到0.25、0.5、0.75、0.95分位點處的回歸模型,且各分位的回歸模型擬合良好,各回歸參數指標結果如表5所示,其中Intercept代表常量,FTC代表前2年被引量,lnFTD代表前2年下載量的對數。從表中可看出在不同的分位點上回歸模型均顯著有效。
3.2.2回歸系數分析
通過分析各分位點處的前2年被引量、前2年下載量以及常量回歸系數分布,由圖1發現,常數項隨著分位點的升高而逐漸呈現下降趨勢;而前2年被引量和前2年下載量與之相反,呈現出逐步上升趨勢。進一步分析發現,常量(Intercept)在0.5分位點后下降較其他分位點處幅度增大,其余分位點處的斜率較為保持一致,且斜率平緩;FTC的回歸系數,在75%分位點往后斜率開始陡然變大,而lnFTD斜率變大的幅度較為緩和。從圖1中不難發現,75%分位點之前,FTC和lnFTD對于總被引量的貢獻比例均較為穩定;在75%分位點之后,FTC對總被引量的貢獻比例相較之前有明顯提高,lnFTD的貢獻率也有小幅度的提升。由此發現,前2年被引量對論文未來的總引量具有強有力的貢獻,尤其是高被引的論文,且與之對應的前2年下載量對其總引量也具有顯著貢獻,高下載量在一定程度上。
3.2.3不同分位點處回歸模型差異檢驗
通過分析不同分位點處的回歸系數,隨著分位數的變化回歸系數也隨之呈現出略微差異。雖然回歸系數的變化看似微弱,但這些變化是否會引起回歸結果隨分位數的有序遞增而呈現某種無差別性等級遞增呢?這一疑問,值得進一步探討。由此,我們通過方差分析推斷這一疑問,即分析在不同分位點處的回歸模型是否存在一定的差異,并且差異程度是否顯著。通過分析發現,總體上來說,不同分位點處的回歸模型確實存在著顯著的差異(P=2.2e-16***),如表6所示。這也意味著FTC和lnFTD這兩個預測指標在不同的分位點處對總被引的影響情況是不同的。那么如果采用線性回歸等方法進行籠統地模型擬合分析,這一差異情況就會被平均以至消除,預測的準確性有可能會偏離。這也進一步驗證了采用分位數回歸分析方法的合理之處。
3.2.4模型總體及不同分位點處擬合結果
常用的評價模型擬合優度的方法有判定系數R方(R2=SSR/SST)、模型F檢驗、對單個參數的t檢驗、判定系數增量等,MayankSingh等人和趙思?等人在回歸擬合判定方法上均選擇了復相關系數R和判定系數R方【5,14】,在此我們選擇通過上述對不同分位點的模型結果進行比較,我們進一步對模型的預測結果進行了分析,模型總體擬合度優良(R=0.860,R2=0.740,F=14220.348,P=0.000*,<0.01),分位點擬合結果如圖2所示,圖中分別是四個分位點處的預測值與實際值的分布情況,并在圖中給出斜率為1的參照線,從圖中可看出,預測值與觀測值的分布較為貼合參照線。此外,0.25分位點的擬合情況總體上預測值比實際值略微偏大,主要原因可能是由于部分論文的早期下載量偏高而被引量滯后所致。
3.3回歸模型適用性驗證
通過分析0.25、0.5、0.75以及0.95分位點處的分位數回歸模型及其擬合效果,在本次預測中,運用SPSS隨機抽樣出的4931個樣本,采用上述各分位點回歸模型進行如下模型驗證。圖3可看出參照線從預測值和實際值的散點中穿出,總體上散點較為貼合參照線。進一步,對預測值和實際值進行擬合優度檢驗,模型F檢驗結果由表7所示(F=16568.688,P=0.000*,<0.01),線性擬合效果優良;通過計算可知R2=0.771(R=0.878),標準化殘差。
4討論
4.1前兩年下載量較其他影響因素的預測優勢
在的最早期(比如剛發表前幾個月),期刊影響因子以及論文題名或主題的相關性是讀者下載和引用論文的驅動力,此時期刊影響因子等因素連同下載量一同對論文被引量的增長做貢獻;但隨著時間的推移,論文累積年下載量(比如前兩年下載量、中間兩年下載量)逐漸取代期刊影響因子等因素,與論文被引高度相關,成為預測論文的重要指標之一。因此,論文的前兩年下載量這一累積下載頻次,其主要源于論文本身因素(內部因素),對被引量的預測優勢不言而喻,首先,論文前兩年下載量屬于動態影響指標,其不同于期刊影響因子這一基于期刊的較為固態化的指標,前兩年下載量有著與論文被引量更高更顯著的相關性,對論文被引的動態發展能夠更好地追蹤和預測,一些學者也證實早期下載量可作為被引量預測的一個指標依據【2-3,11,25-26】;其次,論文前兩年下載量作為論文被使用的一個指標,可以及時反映論文被使用的情況,且一定程度上能夠先于被引而發現文章的引用價值,一定程度地促進論文被引用,處于一種下載-使用-引用的良性循環中;最后,論文下載量這一動態指標,一定程度上能夠反映論文的質量,而論文最終是否被引用,終究取決于論文內容的價值性,而非期刊影響因子等因素。
4.2分位數回歸在被引量預測上的優勢
傳統的基于最小二乘回歸分析方法通常描述的是自變量對因變量的條件期望即均值影響,這在經濟活動以及科學研究中,通常所獲取的數據并不滿足最小二乘的理論基礎如圖4和圖5所示的科研論文的前兩年下載量(FTD)和前兩年被引量(FTC)的極偏分布形態,數據存在顯著的異方差,使用基于最小二乘的回歸模型其穩健性會較差;而分位數回歸理論優勢之一即對數據的分布形態不做嚴格限定,這對被引量回歸模型的建立、模型預測較為便利。分位數回歸的優勢之二:不同于基于均值的線性回歸,在大數據偏態分布時,可以從不同分位點給予確切的回歸模型,使模型擬合比基于均值的回歸更準確、更貼合數據(如論文下載量和被引量)的實際分布形態和發展趨勢。在本研究結果中,發現總體上不同分位點處的回歸模型存在顯著的差異,如果采用基于均值的回歸理論對總體樣本進行籠統建模和預測,那么這種差異情況會被平均弱化以至忽略,預測結果也會失準。分位數回歸優勢之三:基于已獲取的原始數據進行分析,可不對數據進行各種轉換,從而減少原有數據信息量的損失,最大限度挖掘變量間的真實確切關系,以便后期做較為準確的預測。在本研究中,所獲取的原始論文的被引量以及分年被引量存在0值情況,數據不適于采取對數轉換等;而采取0值樣本刪除措施亦不可取,這會導致數據樣本不完整,樣本不具代表性。
5結論與展望
通過知網獲取11本圖情類期刊中9919篇論文為期9年的論文被引量,筆者運用分位數回歸分析等方法,對論文的被引量及其相關影響因素(如論文題名長度、論文作者數量、論文關鍵詞數量、綜合影響因子以及下載量等)進行分析,發現除下載量外其他幾個因素與被引量的相關性較微弱,因此筆者又對論文的分年被引量和分年下載量逐一分析,發現前2年被引量和前2年下載量是影響論文總被引量的有效指標,以這兩個主要指標進行回歸和預測,得到了較為可靠的分析結果。(1)運用分位數回歸分析,四個分位點的回歸模型均顯著有效。通過對四個回歸模型的回歸系數進行分析,發現前2年被引量對論文未來的總引用量具有強有力的貢獻,尤其是高被引的論文;與之對應的前2年下載量對總引量也具有顯著貢獻,BottingNicola等人在研究社交媒體對學術論文影響中,也發現論文下載量和引用率是評價學術影響力的重要指標【27】。下載量作為一個新晉的論文被引評價指標現如今通常會影響人們對論文引用的判斷【28】,因此,高下載量在一定程度上能夠有效促進論文后續被引用。(2)不同分位點處的回歸模型存在顯著的差異。通過對四個模型運用方差分析后發現,四個模型總體上出現了顯著差異(P=2.2e-16***)。前2年被引量和前2年下載量這兩個預測指標在不同分位點處對總引量的影響情況顯著不同。那么如果采用線性回歸等方法進行籠統地模型擬合分析,這一差異情況就會被平均以至消除,預測的準確性有可能會偏離。(3)運用分位數回歸模型對另一組數據進行預測,預測值與實際值擬合優良。通過隨機抽樣抽取出4988個樣本做回歸模型和模型擬合,得出回歸模型擬合良好;以此運用該模型對剩余4931個樣本進行了模型檢驗,發現總體上回歸模型可以較為準確地預測論文預期總被引,R=0.878,R2=0.771,標準化殘差均值為0.000,運用該模型做預測較為有效。隨著文獻開放獲取的不斷發展,論文的下載和使用變得越來越便利,下載量這一即時性數據也更容易獲取并用于文獻被引分析,論文下載量對被引量的分析和預測在未來的學術影響力評價中具有潛在的影響和優勢。不過由于不同的學科,其下載量對被引量的影響可能存在一定的差異,單一學科的預測模型可能具有一定局限性。在后續研究中,擬采用多學科大數據進行融合分析和預測,以進一步研究在多領域學科文獻中下載量是否依然是被引量模型預測的有效指標及其對學術影響力評價貢獻的可持續性。