苹果香蕉最爱
作者:苏中 阿里研究院资深技术专家
当代 科技 发展对数据和算力提出了极高要求。在传统基础技术研究领域,科研院所、高校的科研团队普遍缺乏这方面的能力支撑。为了应对这一变化,近十年来,“开放科学平台”在欧美逐渐盛行,为科研社区提供包含开放数据及相关分析工具、开放算力平台、开放源代码的各种支持。在科学技术的大国竞争时代,“开放科学平台”逐渐成为推动 科技 发展的关键变量。中国在这个领域需要加大投入,从而实现科学范式转变阶段基础科学平台建设的跟跑、并跑直到领跑。
1
科学进步背后的规律:从“Paradigm Shift”到“第四范式”
科学进步的轨迹是什么样的?
早期,人们普遍认为,科学发展是循序渐进的,科学家不断涌现,将已有科学理论向前推进从而推动科学发现越来越接近真理。
1962年,美国学者托马斯·库恩在《科学革命的结构》一书中提出,以物理学 历史 发展为例,科学发展存在有规律的不连续性。书中说,科学由一系列交替的“正常科学阶段”和“科学革命”阶段组成。在科学革命阶段,伴随着概念层的突破,已有的理论框架被新科学范式全面颠覆并重构,例如从牛顿力学到量子力学的转变。
库恩创造了“范式转变(Paradigm Shift)”这一科学哲学新概念。在库恩定义的范式转变理论中,科学发现遵循的是另一条五个阶段的循环路径:
1. “前范式阶段”: 几个不相容和不完整的理论,并逐渐收敛到一种被科学界普遍接受主导范式
2. “正常科学阶段”: 在主导范式的背景下不断解决科学难题,推进科学进步
3. “危机阶段”: 主导范式能未解决的异常现象,会在较长时期内不断累积,最终导致主导范式的信任危机
4. “范式转变阶段”: 主导范式出现重大失败后,科研基本假设被重新审视,进入新范式建立阶段
5. “新范式阶段”: 科学革命后,新范式主导地位确立
库恩开创了一门名为科学史或科学 社会 学的新学科。 社会 学家和 历史 学家开始把科学看成一种普通的亚文化。范式转变推动科学发展已成广泛共识。
库恩之后,计算机领域的学界泰斗、数据库领域的传奇科学家吉姆·格雷把科学技术发展史总结为四个范式阶段:
1. 第一范式:经验(empirical)证据。 数千年文明史中,人类绝大多数技术发展源于对自然现象观察和实验总结。相比于宗教或神学中不允许被质疑的教条来说,基于观察和实验的经验范式是科学技术发展中人类迈出的一大步。
2. 第二范式:理论(theoretical)科学。 相比于依赖观察和实验的第一范式可以做到“知其然”,第二范式的科学理论需要做到“知其所以然”,对自然界某些规律做出背后原理性的解释。因此,理论必须满足进一步的要求,如可证伪的预测能力、多个独立来源的一致性等。
3. 第三范式:计算(computational)科学。 随着计算机的运算能力越来越强大,它逐渐被用于科学研究领域。同前两个范式不同,计算科学中诞生了一种崭新的技术工具:计算模型与系统模拟。这一工具利用计算机的计算能力、基于大规模并行的计算机体系结构、通过设计算法并编制程序来模拟复杂过程,在大气环流、核反应过程、病毒感染过程。在经济学、心理学、认知科学等缺乏简单、直观分析解决方案的领域获得广泛采用。
4. 第四范式:数据科学(Data exploration)。 从基因测序仪、深空望远镜到覆盖全球的社交媒体,人类 社会 已经被深度数字化。每天在我们生活的数字地球里每天都会产生海量的数据。据估计到 2025 年,全球每天将新产生463 EB 的数据,相当于212,765,957 张 DVD,这些DVD叠在一起有30个珠穆朗玛峰那么高。在这样一个数据爆炸的时代,基于数据的技术革命也正在发生,数据科学成为技术发展的最前沿。以数据为中心的计算平台、数据加工、处理与分享工具、算法与模型库等一系列科学研究方式构成了技术发展的第四范式。
2
“开放科学平台”:更好应对第四范式的挑战
在第四范式主导的 科技 时代,研究团队除了研读技术最前沿研究论文,同时也需要这些论文涉及的实验数据集,以便复现实验结果。巨量数据和庞大计算需求给创新带来了新的挑战。传统科学交流仅限于论文和有限的公开数据集,为了促进新范式时代技术发展的持续性,加速科研团队的合作共享,欧美开始兴起了“开放科学”运动:
arXiv: 美国物理学博士保罗·金斯帕格1991在美国洛斯阿拉莫斯国家实验室创建了分享arXiv存储库,帮助全球科研团队分享研究论文预印本的全文数字版本。2008年,arXiv突破了50万篇文章的里程碑;2014年底达到100万篇;今天, arXiv每月从全球科研社区获得超过15000篇投稿。一些出版商还免费授予arXiv作者存档同行评审后印本的权限。arXiv也鼓励了更多科研机构,如美国国家医学图书馆仿照arXiv建立了医学领域的PubMed中央存储库。
Papers with Code: 相比arXiv,Papers with Code在开放获取领域则更进一步。这个平台不仅分享论文,还鼓励科研团队分享论文工作所对应的代码和数据集。平台同时提供了相关评测环境,可以对提交的算法代码在公共数据集合上做技术排名。Papers with Code不仅创建一个包含论文、代码和数据集的开放集合,同时也提供了技术评估方法的免费开放平台,显著促进了相关领域科研团队技术分享与协作,加速 科技 创新进程。
NASA开源科学计划: 为了降低太空科学 探索 门槛,让更多的科研团队可以参加美国国家航空航天局的科学研究,NASA 提出了开源科学计划 (OSSI)。OSSI的目标是在十年内建立一个开放科学社区,参与的科研团队承诺在研发过程中开放和共享相关软件、数据以及知识(包含算法、论文、文档以及相关辅助信息),并充分利用协作工具和云计算在内的技术工具提高NASA科学进步的速度和质量。
3
大国 科技 博弈:开放科学平台的重要性
在第四范式时代,爆炸式增长的数据在 科技 研发工作中扮演了极其重要的角色,它也给经历这一次范式转变中各个学科,尤其是非计算机领域的科研团队带来全新挑战,涉及数据与模型的获取与分享、计算模型与系统模拟的规模膨胀、大规模人工合成数据构造、多模态数据处理与分析的工具、数据抽取、转换、加载、数据可视化与交互、人工智能工具集与算力平台等领域。
今天,新一轮大国竞争很大程度上 体现为支撑 科技 发展的生态系统以及创新体系之间的竞争,开放科学平台已成为促进 科技 研发重要的基础能力之一。 以第四范式驱动的新一代创新体系在欧美已经有先发优势,从政府主导的科研项目到学术界的实践已有十年经验。我国需要在这个领域认识到不足,加速构建独立自主的开放科学平台,从而实现科学范式转变阶段 科技 发展的跟跑、并跑直到领跑。
参考文献:
(Aristotle)
END
小小暖和
胡夫金字塔可能是人类有史以来建造的最具标志性的建筑。古代文明建造了考古图标,证明了他们的伟大和坚持。但在某些方面,胡夫金字塔是独立的,在古代世界的七大奇迹中,只有胡夫金字塔相对完整。 一组科学家将利用高能物理学(HIP),用宇宙射线μ介子扫描吉萨的胡夫大金字塔。他们希望比以往任何时候都更深入地了解大金字塔,并绘制其内部结构。这项工作被称为 探索 胡夫金字塔(EGP)任务。 吉萨大金字塔自公元前26世纪以来一直屹立不倒。这是法老胡夫的坟墓,也被称为Cheops。建造过程耗时约27年,用约230万块石块(石灰石和花岗岩的组合)建造而成,重约600万吨。3800多年来,它是世界上最高的人造建筑。我们现在只看到胡夫金字塔的底层核心结构。随着时间的推移,光滑的白色石灰石外壳被移除。 胡夫金字塔经过了充分的研究,多年来,考古学家已经绘制了内部结构。金字塔及其下面的地面包含不同的房间和通道。胡夫(Cheops's)的房间大致位于金字塔的中心。 最近,考古队使用一些高 科技 方法更严格地探测金字塔的内部。在20世纪60年代后期,美国物理学家路易斯·阿尔瓦雷斯(Luis Alvarez)和他的团队使用μ介子断层扫描来扫描金字塔的内部。1969年,阿尔瓦雷斯报告说,他们检查了金字塔的19%,没有发现新的房间。 宇宙射线μ介子是在被称为宇宙射线的高能粒子撞击地球大气层时产生的。宇宙射线是原子的碎片、高能质子和原子核,不断从太阳、太阳系外和银河系外流入地球。当这些粒子与地球大气层碰撞时,碰撞会产生二次粒子阵雨。其中一些粒子是μ介子。 μ介子不稳定,只需几微秒或百万分之一秒就会衰变。但是它们以接近光速的速度行进,并且以如此高的速度,它们可以在腐烂之前深入穿透。宇宙射线中有一个无穷无尽的μ介子来源,不断轰击地球。μ介子断层扫描的任务是有效地测量μ介子。 μ介子断层扫描用于不同的应用,例如检查集装箱中的违禁品。μ介子层析成像的最新技术创新增加了其功率并带来了新的应用。例如,意大利的科学家将使用μ介子断层扫描来成像维苏威火山的内部,希望了解它何时可能再次爆发。 探索 胡夫金字塔(EGP)任务使用μ介子断层扫描来采取胡夫金字塔成像的下一步。像之前的ScanPyramids一样,EGP将使用μ介子断层扫描来成像结构的内部。但EGP表示,他们的μ介子望远镜系统将比以前的μ介子成像强大100倍。"我们计划部署一个望远镜系统,该系统的灵敏度是最近在胡夫金字塔上使用的设备灵敏度的100倍以上,它将从几乎所有角度对μ介子进行成像,并将首次产生如此大结构的真实断层扫描图像,"他们在解释任务的论文中写道。 EGP任务有五个关键点: 1. 对整个内部结构进行详细分析,不仅可以区分石头和空气,还可以测量密度的变化。 2. 通过能够看到相对较小的结构不连续性来回答有关施工技术的问题。 3. 望远镜系统的大尺寸不仅可以提高分辨率,还可以快速收集数据,从而最大限度地减少现场所需的观看时间。EGP团队预计观看时间为两年。 4. 望远镜本质上是非常模块化的。这使得重新配置和部署在另一个站点以备将来研究变得非常容易。 5. 从技术角度来看,所提出的系统使用的技术已经过大量设计和测试,并提出了一种低风险的方法。 但大多数其他埃及古物学家都接受了这一发现及其科学性质。物理学家也支持这一发现。粒子物理学家李·汤普森(Lee Thompson)告诉《科学》杂志:"科学家们在三个独立的实验中使用三个不同的μ介子探测器'看到了'空洞,这使得他们的发现非常强大。 当科学家使用现代高能物理学来 探索 人类最古老的考古宝藏之一时,肯定会有一些戏剧性的事情。一些埃及古物学家似乎占有欲强,可能将物理学家视为他们所在领域的闯入者。他们可能不喜欢物理学家使用来自外太空的神秘粒子来揭开我们古老过去的面纱。 参考文献:Alan D. Bross, . Dukes, Ralf Ehrlich, Eric Fernandez, Sophie Dukes, Mohamed Gobashy, Ishbel Jamieson, Patrick J. La Riviere, Mira Liu, Gregory Marouard, Nadine Moeller, Anna Pla-Dalmau, Paul Rubinov, Omar Shohoud, Phillip Vargas and Tabitha Welch. Tomographic Muon Imaging of the Great Pyramid of Giza. 16 Feb 2022. doi:
作者:苏中 阿里研究院资深技术专家 当代 科技 发展对数据和算力提出了极高要求。在传统基础技术研究领域,科研院所、高校的科研团队普遍缺乏这方面的能力支撑。为了
网上的文章属于“互联网[OL]”类型参考文献。 示例:王明亮.关于中国学术期刊标准化数据库系统工程的进展[EB/OL]。 文献类型包括但不限于以下三大类: (1
arXiv.org,这个不能发中文论文,而且2009后发英文论文也很困难。无名研究者只能挂主流杂志发表过的文章,arXiv.org拒绝非主流杂志比如GALILE
首先: 时代先后顺序大概如下—— 太古代 寒武纪 奥陶纪 志留纪 泥盆纪 石炭纪 二叠纪 三叠纪 侏罗纪 白垩纪 其次:参考文献如下—— 银杏(Ginkgo L
有出版的:[序号]作者.篇名[A].见:主编.论文集名称[C].出版地:出版者,出版年份.起始页码.电子的:[序号]作者.篇名[文献类型标志/文献载体标志].出