欢迎来到学术参考网
当前位置:发表论文>论文发表

知网论文词频分析

发布时间:2023-03-12 09:42

知网论文词频分析

词频:指检索词在相应检索项中出现的频次。词频为空,表示至少出现1次,如果为数字,例如3,则表示至少出现3次,以此类推。比如输入“信息检索”选择全文途径,词频选择9,则表示“信息检索”在文章中必须至少出现9次。

最近词:检索系统记录了你最近输入过10个检索词。

扩展:就是指与你输入的检索词相关的词汇。

知网节:就是知识网络节点的简称。在检索结果页面上点击每一文献题名,即进入该篇文献的知网节。知网节上的内容包括:文献题录、文摘、参考文献、相似文献、相关研究机构、相关期刊等等,

中国知网查询文献的选框里有个“词频”是什么意思?应该怎么用?还有一个相近词选框,选了一些词之后,检

3.检索功能 -中国期刊全文数据库-初级检索说明

3.4 中国期刊全文数据库

3.4.1 初级检索说明

1. 检索项
★ 检索项名称在下拉列表中显示。

2. 词频
★ 指检索词在相应检索项中出现的频次。词频为空,表示至少出现1次,如果为数字,例如3,则表示至少出现3次,以此类推。

3. 最近词
★ 点击图标 ,将弹出一个窗口,记录最近输入的10个检索词。点击您所需要的检索词,则该检索词自动进入检索框中。

4. 扩展
★ 点击图标 ,将弹出一个窗口,显示以输入词为中心的相关词。
★ 在弹出窗口中,点击一个相关词前的 ,再点击“确定”按钮,则该相关词自动以“逻辑与”的关系增加到检索框中;
★ 在弹出窗口中,点击多个相关词前的 ,再点击“确定”按钮,则该多个相关词之间以“逻辑或”的关系增加到检索框中;
★ 在弹出窗口中,点击所需要的相关词,则该相关词自动进入检索框并取代原先所输入词所需要的检索词。

5. 更新
★ 全部数据:数据库现有全部数据;
★ 最近一月:最近一月入库数据;
★ 最近一周:最近一周入库数据;
★ 三个月:最近三个月入库的数据;
★ 半年:最近半年入库的数据。

6. 范围
★ 全部期刊:库中收录的全部期刊;
★ EI来源期刊:库中收录的期刊中被EI收录的部分;
★ SCI来源期刊:库中收录的期刊中被SCI收录的部分;
★ 核心期刊:库中收录的期刊中被《中文核心期刊要目总览》中收录的部分。

7. 匹配
★ 精确:检索结果完全等同或包含与检索字/词完全相同的词语;
★ 模糊:检索结果包含检索字/词或检索词中的词素。

8. 排序
★ 时间:按文献入库时间逆序输出;
★ 无:按文献入库时间顺序输出;
★ 相关度:按词频、位置的相关程度从高到低顺序输出。

9. 每页
★ 在此选择检索结果页面所要显示的记录条数,提供5种值:10、20、30、40、50。

论文关键词有什么要求?

征稿

近年来,中国学者每年发表的科技论文有数百万篇,如何在浩瀚的论文海洋中脱颖而出,吸引读者的注意力,提高论文传播力和显示度,关键词起着十分重要的作用。关键词是能够明确表达学术论文的主体研究内容或中心思想的词或词组,其最初是为了满足计算机系统编制各种文献索引的需要而产生。作为文献检索的重要依据,关键词应具有专指性、全面性、规范性等特点。但实际情况是,科技论文中存在大量的含义宽泛、无实质内容的无效关键词,如“应用”“分析”“问题”“研究”等等,大大降低了科技论文的检索效率和传播效果。此前,已有学者对无效关键词展开研究,但其主要针对高校社科学报论文以及农业科技类论文,针对更广泛领域内的科技论文中常见无效关键词的计量学研究较少。

为此,本文以中国知网为文献来源数据库,结合文献[3-5]及编校实践经验,选取10个科技论文中出现频率较高、指向性不强、含义空泛的关键词,分别检索其在2015—2019年发表的科技论文中的出现频率,分析其年度分布规律及关键词共现网络。随后分别限定“大学学报”和“学院学报”以及“博士论文”和“硕士论文”(即博士和硕士的学位论文)为文献来源,对比分析常见无效关键词在不同类型期刊以及不同学历作者所著科技论文中的词频分布。最后分析常见无效关键词产生的原因及应对措施,以期提高科技论文作者和审读编校人员对关键词标引质量的认识。

1.检索范围和方法

检索范围:文献来源限定为中国知网“基础科学”“工程科技Ⅰ辑”“工程科技Ⅱ辑”“农业科技”“医药卫生科技”“信息科技”6类目录下的期刊、会议、学位论文等(即本文所指科技论文),“大学学报”和“学院学报”,“博士论文”和“硕士论文”;文献语种限定为中文;关键词限定为“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”;发表时间限定为2015-01-01—2019-1-31。

检索方法:以“关键词+发表时间”“关键词+发表时间+文献来源”为组合检索条件,在中国知网6大类科技文献目录下进行检索,获得各关键词在不同检索条件下的词频分布。为确保检索结果的有效性,每检索一次均随机选取若干篇论文,并核对这些论文中是否包含目标关键词。最后,将所得结果输入Excel软件进行统计分析(检索时间为2020-03-07—03-09)。

2.无效关键词的定义和分类

2.1无效关键词的定义

无效关键词是指词义宽泛、不能准确传达论文主题内容、不利于检索的词或词组,或是未经公认的缩写词等。它们与论文主题相关性不大,不能反映单篇科技论文的特点,不具检索价值。

2.2无效关键词的分类

无效关键词的分类目前尚无统一标准。本文根据文献[3.6]将无效关键词分为以下3类:1)表示国别或地域的泛而不专的名词,如“中国”“美国”“德国”等;2)“不能表示所属学科专用概念的不足以反映实质内容的词”,如“方法”“问题”“试验”“研究”“分析”等;3)加了限定词的复杂短语或是未经公认的缩略词等,如“新型甘蓝型油菜品种”“AP”等,它们虽然能反映文章主题,但不利于计算机检索、识别。

3.10个无效关键词计量学分析

3.1不同年份科技论文中10个无效关键词频率分布

结合已有研究及编校实践经验,本文针对第2类无效关键词展开研究。分别选取“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”这10个科技论文中出现频率较高的无效关键词,限定文献来源为科技论文,在中国知网进行检索。10个无效关键词在2015—2019年发表的科技论文中的频率(以检索记录表示)及其累计词频(10个无效关键词检索记录条数之和与当年发表的科技论文总篇数的比值)分布如表1所示。由表1可见,整体看,不同年度无效关键词频率分布相对稳定,按检索记录数排序,从高到低依次为“应用”“对策”“问题”“管理”“设 计”“措施”“影响”“现状”“研究”“发展”,呈现出明显规律性。2017年,科技论文发表总量为2 017 727篇,这10个无效关键词检索记录之和达82 732条(未排除有2个或多个无效关键词同时出现在同一篇科技论文中的情况),每100篇文章里就有约4篇文章的关键词里包含这10个无效关键词之一,可见无效关键词的使用相当普遍。2015—2019年,“应用”这一关键词出现频率最高,且其检索记录在2017和2018年分别达20 267和20 203条,明显高于其他9个无效关键词的出现频率,说明科技论文作者选择“应用”作为关键词的比例较高。纵向来看,2015—2019年这10个无效关键词检索条数随年度的变化并无明显规律性,累计词频范围为3.7%~4.1%,其中2015和2019年的无效关键词累计词频均为3.7%左右(表1),说明科技论文作者并未有意地减少无效关键词的使用,无效关键词将会伴随着科技论文作者的写作习惯而长期稳定地存在。

▼ 表1 2015—2019年科技论文中10个无效关键词频率及累计词频分布

3.2 10个无效关键词共词分析

共词分析法是指通过分析共同出现在同一篇文献中的关键词或主题词,从而鉴别某一学科知识结构和研究热点的方法。目前,基于关键词的共词分析法已被广泛应用于文献计量、信息系统、人工智能等领域。

本文以10个无效关键词为研究对象,分析其在2015—2019年共现关键词(即2个关键词同时出现在同一篇文献中的现象)分布情况,结果如图1所示。图1中,2015—2019年10个无效关键词“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”的检索记录总数分别为94 100、50 287、41 644、37 074、34 989、30 565、26 275、23 905、22 225和18 448条。 数据来源于中国知网,本文仅展示频率排序第1~15的共现关键词。

▼ 图1 2015—2019年10个无效关键词共词分析

从图1可以看出,2015—2019年同一篇科技论文中同时出现2个无效关键词的现象相当普遍。例如,以“问题”为检索关键词,与其共现频率最高的关键词为“对策”,共现频率达15 223(图1(c)),也就是说,在一篇以“问题”为关键词的科技论文中,有大于1/3的概率会同时出现“对策”这一关键词。分析其余9个无效关键词的共词分布情况也可发现,与这些关键词共现频率较高的往往为无效关键词。例如,按照关键词共现频率排序,2015—2019年与关键词“应用”共现的无效关键词依次为“发展”“设计”“研究”,共现频率分别为2 188、1878和1 642(图1(a));与关键词“现状”“研究”“发展”共现频率较高的几乎均为“对策”“问题”“应用”等无效关键词(图1(h)~(j)),可见无效关键词共现网络不仅不能反映学科知识结构和研究热点,而且造成了信息资源的浪费。值得一提的是,在本文选取的10个无效关键词排名前15的共现关键词中,有7个共现关键词中出现了“建筑”或“建筑工程”,这可能与该领域的科技论文发文总量较大有关:以“建筑”为主题词进行检索,2015—2019年累计发文306 196篇,约占科技论文总发文量9 890 018篇的3%。

3.3不同期刊科技论文中10个无效关键词频率分布

以本文筛选出的10个无效关键词为检索条件,同时限定文献来源为“学院学报”和“大学学报”,检索得到2015—2019年不同类型期刊发表的科技论文中的10个无效关键词频率分布及其累计词频分布如表2所示。由表2可见,2015—2019年,发表于“大学学报”的科技论文明显比“学院学报”的科技论文多,但“学院学报”科技论文中无效关键词的出现频率明显比“大学学报”科技论文的高。例如,2015年,“大学学报”共检索到67 598篇文献,其中以“应用”为关键词的文献为100条;“学院学报”共检索到42 620篇文献,其中以“应用”为关键词的文献为305条,二者差异显著。由表2还可看出,2015—2019年,“大学学报”科技论文中的无效关键词累计词频分别为0.73%、0.72%、0.69%、0.58%和0.54%,“学院学报”科技论文中的常见无效关键词累计词频分别为3.36%、3.34%、2.89%、2.65%和2.56%,二者均随着年度的变化而逐渐降低,呈现出明显的规律性。同时,“大学学报”科技论文无效关键词累计词频明显比同期“学院学报”科技论文的低,说明前者关键词标引质量比后者的高。

▼ 表2 2015—2019年不同类型期刊科技论文中的10个无效关键词频率及累计词频分布

3.4不同学历作者所著科技论文中10个无效关键词累计词频分布

以本文筛选出的10个无效关键词为检索条件,同时限定文献来源为“硕士论文”和“博士论文”,检索2015—2019年不同学历作者所著科技论文中无效关键词频率分布及其累计词频(即10个无效关键词检索条数之和与“博士论文”和“硕士论文”总篇数的比值)分布,如表3所示。

▼ 表 3 2015—2019 年不同学历作者所著科技论文中的 10 个无效关键词频率及累计词频分布

由表3可见,2015—2019年“硕士论文”总篇数显著高于“博士论文”总篇数,前者为后者的8.1~10.5倍;同时,“硕士论文”中10个无效关键词出现频率明显比“博士论文”的高,如2019年“硕士论文”中以“设计”为关键词的检索记录为203条,而“博士论文”中的检索记录仅为1条。由表3还可见,2015—2019年“硕士论文”中的无效关键词累计词频明显降低,分别为10.43‰、8.84‰、8.32‰、6.93‰和5.32‰,与2015年相比,2019年“硕士论文”无效关键词累计词频降幅达48.9%。2015—2019年“博士论文”中的无效关键词累计词频整体上也呈下降趋势,分别为2.39‰、1.70‰、1.71‰、1.57‰和1.40‰,5年间“博士论文”无效关键词累计词频降幅达41.4%。同时,“博士论文”中无效关键词累计词频明显比同期“硕士论文”中的低,说明无效关键词的出现频率与论文作者学历有一定关系。

4.10个无效关键词出现原因及应对措施

4.1 10个无效关键词出现的原因分析

综合分析结果可知,虽然在2015—2019年博士和硕士作者群体已逐渐减少无效关键词的使用,但是在2015和2019年发表的科技论文中,这10个无效关键词累计词频并无明显变化(约为3.7%),说明无效关键词存在此消彼长的现象。本研究认为无效关键词出现的主要原因包括以下几个。

一是多数科技论文作者未接受有效的指导,不知道如何撰写合适的关键词。有研究表明,多数高校学生承认自己未接受过系统的科研写作训练。屈李纯等针对328名硕士研究生展开调研,发现仅有17.39%的研究生熟悉关键词的选取。其实早在1987年,我国GB/T 7713—1987《科学技术报告、学位论文和学术论文的编写格式》明确规定:每篇论文应选取3~8个词作为关键词,如有可能,尽量用《汉语主题词表》等词表中提供的规范词语。2019年,国家新闻出版署发布了针对关键词的行业标准CY/T 173—2019《学术出版规范关键词编写规则》,其中阐述了关键词的定义和基本要求。遗憾的是,高等院校中有关科技论文写作的课程和培训仍然较少,很多作者甚至从未听说过《汉语主题词表》,其他企事业单位中的作者接触到最新的标准、规范、写作培训和指导的机会更少,这也就导致了低质量科技论文和无效关键词的稳定存在。例如,在未包括“质量”“分析”“技术”“原因”等无效关键词的情况下,2015—2019年,仅本文选取的10个无效关键词检索记录总数达381 295条;进一步分析这些无效关键词的累计词频可发现,其整体呈先增加后降低的趋势,但变化幅度不大,可见科技论文作者使用无效关键词的现象依然普遍。

二是部分作者未从思想上重视关键词对于论文检索的重要作用。有些中文科技论文作者只在乎论文是否能发表,是否能助其拿到学位或晋升职称,而对论文的关键词标引质量以及论文发表后的学术影响并不关心,这就导致科技论文中存在大量无检索价值的关键词。进一步分析图1还可以发现,作者在选取关键词时,往往只是根据刊物要求,简单地将论文题目拆分为3~8个关键词,而未仔细鉴别这些关键词是否能够准确地反映该篇论文的特点,导致同一篇论文中无效关键词共现的情况也相当普遍。例如,2015—2019年篇名中同时含“应用”和“研究”的科技论文检索记录达199 841条,篇名中同时含“影响”和“研究”的科技论文检索记录达128 358条,这也反映了部分作者从论文标题中选取关键词的随意性。

三是论文审读编校群体(包括论文指导教师和同行评议人员)把关不严。目前,仍然有相当一部分的编校人员秉持着“改错不改好”的理念,在审读科技论文时仅仅关注变量符号和单位使用不规范、图表和公式编排不合理等,而针对论文关键词等能体现文章亮点的内容就抱着无所谓的态度,虽然也是“为他人做嫁衣裳”,但难免有不够走心之嫌。例如,2015—2019年来源于“学院学报”的科技论文总数为180 674篇,其中10个无效关键词的累计词频为14.80%;而来源于“大学学报”的科技论文总数为322 564篇,其中10个无效关键词的累计词频为3.26%(表2),前者累计词频约为后者的4.5倍,可见“学院学报”的编校群体对关键词的标引质量控制严格程度比“大学学报”编校群体的低。同时,高等院校教师忙于申请项目、开公司,疏于指导学生进行学术研究及写作的现象依然存在,论文作者因学术不端而被撤稿或是撤销学位的报道也屡见不鲜,可见高等院校中部分导师和同行评议人员对学生学术论文的主体内容审读尚不够仔细,遑论论文中的关键词了。例如,2015—2019年“博士论文”总数为116 093篇,其中10个无效关键词的累计词频为8.78‰;而“硕士论文”总数为1 016 061篇,其中10个无效关键词的累计词频为39.84‰,后者约为前者的4.5倍(表3),可见“硕士论文”的审读群体对关键词的标引质量控制严格程度比“博士论文”审读群体的低。

4.2无效关键词的应对措施

我们认为降低科技论文中的无效关键词出现频率的措施主要包括以下几个方面。

一是进一步加强对科技论文作者的指导与培训。这就要求高等院校、各科技期刊编辑部以及其他企事业单位形成合力,建立合理的培训机制,定期开设写作课程或开展写作培训,对作者进行系统而全面的科技论文写作训练,使其加深对论文结构、论文要素、论文写作标准及规范的认识,提高综合写作能力,减少论文无效关键词的选取。例如,吉林大学《中国兽医学报》编辑部针对科技论文写作者开展“移动课堂”网络教学,取得了较好的效果。

二是科技论文作者应从思想上重视关键词对于文献检索的重要作用,同时在操作上严格执行关键词的编写规则。作者应充分认识到关键词是科技论文检索的信息点,是表达论文主要学术观点的关键性因素,在论文写作中应避免使用无效关键词。CY/T 173—2019规定:关键词编写一般包括论文审读、主题分析、选词和编排;关键词应准确并充分揭示论文主题内容,重要的可检索内容不应遗漏。科技论文作者根据编写规则选取适宜的关键词后,还应以读者的身份进行反推:要检索这一研究领域的科技论文,是否会选择这样的关键词?合理、科学地标引关键词有助于提升文献利用率。

三是论文审读编校群体需对无效关键词进行严格把关。关键词能够反映期刊研究热点和发展方向,关系着期刊的学术质量。论文审读编校群体应重视关键词的标引工作,选取合适的关键词有利于学术文献的有效传播和充分利用,从而有助于提高论文和期刊的学术影响力。例如,已成功入选“中国科技期刊卓越行动计划梯队期刊”的《中南大学学报(自然科学版)》严把期刊学术质量关,2015—2019年共发表论文2 385篇,其中10个无效关键词的出现频率为0;而《湖南城市学院学报(自然科学版)》同期共发表论文933篇,其中10个无效关键词的检索记录为68条,累计词频达7.3%。可见,论文审读编校群体在关键词的标引质量控制过程中发挥着重要作用。

结束语

在科学技术日新月异的今天,通过关键词检索相关研究领域的最新文献早已成为科研工作者最常用的检索方式之一。一方面,科技论文作者应主动学习科研写作标准和规范,参加科研写作课程学习或培训,根据论文主题选取恰当的、指向性强的关键词;另一方面,作者和审读编校人员都应从思想上重视关键词的标引,进一步加强对关键词标引质量的控制,避免使用无效关键词,以期实现科技论文快速而广泛的传播,提高科技论文的检索利用率和学术影响力。

⚪本文来源中国知网,载于《编辑学报》2020年第4期,原题《科技论文10个无效关键词计量学分析》。

⚪引文格式:伍锦花,陈灿华.科技论文10个无效关键词计量学分析[J].编辑学报,2020,32(04):403-408.

⚪本文为节选,为阅读及排版便利,本文删去了注释与参考文献等内容,敬请有需要的读者参考原文。

⚪作者:伍锦花,陈灿华老师,《中南大学学报(自然科学版)》编辑部。

⚪转载自:社科学术圈。版权归原作者所有。如涉及版权问题,请及时与我们进行联系。

《二语写作》正在征稿,欢迎国内外专家、学者和广大外语教师及研究者扫码入群赐稿!(详情见最后一条推送)

精彩推文回顾

中国知网高级检索检索式%含义

1.布尔逻辑

知网的高级检索“并含、或含、不含”实质涉及布尔逻辑的“与、或、非”

在文献检索中,布尔逻辑的“与、或、非”则是常用的逻辑运算符

总之,可将“并含、或含、不含”和“与、或、非”联合起来理解

2.并含

知网高级检索的“并含”是指布尔逻辑的“与”(AND),A和B为检索关键词,我们要检索A与B的阴影关系(蓝色部分)就需要用到“并含”,检索出来的结果是指关键词A与关键词B共同出现的文献

若检索“共享经济”,并含“应用”,检索出来的文献是与“共享经济”和“应用”相关的文献

词频是指该关键词出现的频率

精确检索是输入的检索词在检索结果字序、字间间隔是完全一样的

模糊检索是输入的检索词在检索结果中出现即可,字序、字间间隔可以产生变化

3.或含

知网高级检索的“或含”是指布尔逻辑的“或”(OR),A和B为检索关键词,我们要检索A与B的任何相关的文献(如蓝色阴影部分)就可以用到“或含”,检索出来的结果是指关键词A与关键词B出现过的文献

若检索“共享经济”,或含“共享单车”,检索出来的文献将与“共享经济”相关的,或者与“共享单车”相关的文献

如果要查找两个关键词的文献,直接通过“或含”即可

4.不含

知网高级检索的“不含”是指布尔逻辑的“不”(NOT),譬A和B为检索关键词,我们要检索A,但不含B的文献(如蓝色阴影部分)就需要用到“不含”,检索出来的结果是指关键词A相关的,但不含关键词B的文献

检索“共享经济”,不含“共享单车”,检索出来的文献将与“共享经济”相关的、但不含“共享单车”的文献

如此一来,读者通过这样的逻辑搭配检索,可以细化自己所检索的文献资源

在高级检索中,输入内容检索条件可以选择主题、篇名、关键词、摘要、全文、参考文献、中图分类号等进行“并含、或含、不含”逻辑关系搭配,精确地进行文献检索,同样适用于其他数据库

4.检索小技巧

01.检索方式

检索:只需输入所要找的检索词,就能查到相关文献的检索方式,是快速获取文献的有效途径

高级检索:提供更灵活方便地构造检索式,自由组配逻辑关系,最多可以增加7行,帮助读者实现精确查找

专业检索:指使用逻辑运算符和关键词构造检索式进行文献检索的方式,帮助专业人员进行科技查新

作者发文检索:通过学者姓名、单位等信息,查找学者发表的全部文献及被引下载等情况

句子检索:通过读者输入的两个关键词,查找同时包含这两个词的句子,实现事实性检索

一框式检索:统一检索,全类型资源,期刊、论文、会议、报纸、年鉴、专利、成果

02.检索结果

按学科类别分组:直接从海量文献中定位本学科文献,使文献阅读紧绕主题

按基金分组:读者可以了解国家对这一领域的科研投入如何;研究人员可以对口申请课题;国家科研管理人员也可以对某个基金支持科研的效果进行定量分析、评价和跟踪

按研究层次分组:读者可以通过分组查到相关的国家政策研究,工程技术应用成果,行业技术指导等,实现对整个学科领域全局的了解

按作者/机构分组:帮助读者找有权威的专家/研究单位,跟踪重要人员/研究机构的成果,也是获取文献的重要手段

按主题排序:结果文献与读者输入的检索词相关的程度,越相关越排前,通过相关度排序读者可找到文献内容与检索词最相关的文献

按发表时间排序:可以帮助读者评价文献的新旧,找到最新文献,找到库中最早出版的文献,实现学术跟踪,进行文献的系统调研

按被引排序:根据文献被引用次数进行排序,帮助读者选出被学术同行认可的好文献以及好出版物

按下载排序:下载频次最多的文献往往是传播最广,最受欢迎,文献价值较高的文献

03.导出文献格式

论文对参考文献的格式有一定要求,如果参考文献过多,一个个按照格式手打出来需要花费很多时间

导出/参考文献技巧可解决这一问题

上一篇:初稿论文查重平台

下一篇:手写论文格式稿纸