小乐数学科普：数学研究者的现代工具箱 by 德国MaRDI（数学研究数据倡议）

本文探讨了数学工具的演变——数学研究者的现代工具箱，由MaRDI撰文（德文和英文），现译成中文进行推广介绍。

MaRDI（数学研究数据倡议，Mathematical Research Data Initiative），是由德国15 家研究机构组成的联盟，由魏尔斯特拉斯（Weierstrass）应用分析和随机研究所（WIAS）牵头，正在根据FAIR原则（Findable、Accessible、Interoperable、Reusable，可查找的、可访问的、可互操作的、可重用的）创建处理数学数据的基础设施。这包括数据存储库、门户网站、标准化程序、搜索引擎的创建，以及整个数学界及其他领域的培训和推广。

作者：MaRDI4nfdi.de（德国数学研究数据倡议 MaRDI） 2024-3-21

译者：zzllrr小乐（数学科普公众号）2024-3-24

数学家需要什么？

人们经常说，数学家只需要笔和纸就可以完成他们的工作。有些人则以玩笑的方式补充说：与哲学家不同，数学家还需要一个垃圾桶。其他一些说法涉及到需要咖啡作为燃料，来喂养那些生产定理的设备，即数学家（“一个数学家就是一台把咖啡转化为数学定理的机器。”该数学名言出自数学家Paul Erdős，保罗·埃尔德什，1913 - 1996，译者注）。玩笑归玩笑，事实上，与其他更具实验性的研究领域相比，数学研究通常确实需要较少的基础设施和工具。然而，有两个条件是研究普遍需要的。首先，研究者需要获取先前知识。这通过创建出版物和专门文献，以及在图书馆和存储库中收集资源来提供对这些知识的访问。其次，研究者需要与其他研究者互动。这就是为什么研究者会聚集在大学院系，在会议上相遇。许多数学家喜欢粉笔和黑板。而这是另一种书写方式，服务于交流的目的，它允许两个人或更多人，或一个小型观众，同时思考同一个主题。

这些需求（文献和交流空间）是普遍的，几个世纪以来一直没有改变，未来也将保持不变。基本的工具集（笔和纸、书籍和文章、大学院系、会议、粉笔和黑板……）可能会持续很长时间。然而，科学研究者（特别是数学研究者）的工作和实践会随着社会和技术时代的发展而演变。今天的研究者需要一些其他的专业工具来满足当代研究的特定需求。他们使用数字手段来访问文献，以及与同事快速高效地沟通；他们利用机器的计算能力来探索新的数学领域；他们使用管理工具来处理大量数据，并协调分布式团队共同工作。在本文中，我们将回顾一些历史上改变数学研究实践的实用工具。这些工具中有些是影响整个社会的技术变革，比如互联网和信息时代的到来。有些是数学领域演变方式变化的结果，比如MaRDI旨在帮助支持的数据驱动的数学研究。我们还将回顾一些试图改变当前常见做法的举措（CRediT系统用于归因作者身份），最后，我们将探讨一些工具，这些工具可能有一天会成为数学家日常使用的资源（形式化数学对数学实践的影响）。

从博学者到专家大军

我们可以从雅典学院或亚历山大图书馆作为古代数学家的“工具和基础设施”开始回顾历史。但我们将直接跳到17世纪和18世纪，回顾一些数学历史上的巨人，如笛卡尔、牛顿、莱布尼茨或高斯。他们是跨学科科学家，在数学、物理、应用科学、工程甚至哲学等领域取得了突破。当时的数学是一个跨学科的学术研究，物理或工程问题促使数学进步，数学又推动了应用领域的理解。这些时代博学者（savant）的圈子相对较小，他们大多彼此了解。他们主要使用拉丁语作为专业交流语言，因为它是每个国家学习的文化语言。他们通过信件保持联系，并通常将他们的作品精心编辑成册出版，因为出版和发行是一个昂贵的过程。有趣的是，也是在17世纪，第一批科学期刊出现了，如英国皇家学会的《哲学汇刊》（Philosophical Transactions of the Royal Society）和法国科学院的《学者杂志》（Journal des Sçavans）（两者都在1665年左右开始）。这些期刊自然不仅致力于数学或特定科学，而是更倾向于包容的科学和文化概念。然而，文章格式很快成为科学交流的主要工具。

快进一个世纪，到19世纪，科学家的实践发生了显著变化。数学固定为一个单独的分支，大多数数学家只研究数学。应用仍然激发数学，数学仍然帮助解决应用问题，但在这个世纪，大多数科学家专注于为一个方面或另一个方面做出贡献。这是一个专业化的过程，在这个过程中，能够为许多领域做出贡献的“博学者”（savant），被更深入地了解一个具体、更狭窄领域的专家所取代。在这个世纪，我们开始发现专门致力于数学的期刊，如《纯粹与应用数学杂志》（Journal für die reine und angewandte Mathematik，Crelle’s Journal，1826年）。到世纪末（和20世纪初），这种专业化过程也触达到各个科学领域，数学也分为不同的领域，如几何、分析、代数、应用数学等。像庞加莱和希尔伯特这样的数学家通常被认为是最后的全能数学家，他们能够为许多几乎是所有的数学领域做出重要贡献。

在20世纪，由于高等教育普及和广泛接触，大学的数量和研究人员的数量大幅增加，形成了更加专业化的研究社区。科学期刊的数量相应地激增，出版率和文章的创建速度超过了传统的书籍格式。由于文章数量众多，出现了新的书目工具，如目录（德国的《数学文摘》Zentralblatt MATH——zbMATH和美国数学会的《数学评论》Mathematical Reviews——MR分别始于1931年和1940年）和其他文献计量工具（影响因子从1975年开始计算）。这些审查目录几十年来一直是许多数学家传播和发现研究社区中新事物的首要手段。它们的（现在协调的）数学学科分类还为不断增长的数学分支家族树带来了急需的分类法。会议格式（其中有许多国际参与者的会议），也巩固了作为科学格式、传播结果的方式和衡量机构声望的手段。

计算革命

我们将要考虑的下一个时期始于计算机的介入，后来随着互联网和万维网的加入而加速。计算机在两个层面上影响了数学的实践。一方面，纯粹作为计算机器的计算机本身开启了一个新的研究领域，即计算机科学。许多数学家、物理学家、工程师……在他们的早期将注意力转向了计算机科学。特别是，数学家开始探索算法，以及在没有计算能力之前无法到达的数学分支。例如，数值算法、混沌和动力系统、计算机代数、统计分析等等。这些新的数学领域已经开发出了特定的计算机工具，形式为编程语言（Julia、R等）、库、计算机代数系统（OSCAR、Sage、Singular、Maple、Mathematica等）以及许多其他现在已经成为这些数学家日常实践基本工具的框架。

另一方面，计算机像影响其他所有信息处理工作一样影响了数学：即办公自动化。计算机帮助我们管理文档，创建和编辑文本，共享文档等等。最早影响数学家生活的计算机工具之一是TeX排版系统。著名的是，TeX是由计算机科学家高德纳Donald Knuth花十多年（1978-1989）创建的，用于排版他的《计算机程序设计艺术》。然而，许多人使用的是由莱斯利·兰波特Leslie Lamport在1984年发布的更受欢迎的版本LaTeX（即“带有宏的TeX，随时可用”，参阅小乐数学科普：图灵奖得主LaTeX之父Lamport：如何编写数学完美的软件？——译自Quanta Magazine量子杂志、小乐数学科普：83岁图灵奖得主Leslie Lamport莱斯利·兰波特在GT佐治亚理工学院演讲谈论数学结构化证明）。在TeX/LaTeX之前，将公式插入文本是通过将它们视为图像（必须有人手动绘制到最终文档中，或雕刻到印刷版上），或者通过半自动的过程，使用物理字体模板组合公式。这是一个繁琐的过程，只用于打印成品文档，而不是用于与同事分享的草稿或早期版本。有了TeX，数学家（以及物理学家、工程师……）终于可以按照他们希望显示的方式描述公式，并且可以与文本的其余部分无缝处理。这对出版（打印）过程的速度和准确性产生了影响，但也对刚刚及时出现的新领域产生了影响：在线共享。

互联网的早期历史包括用于计算机通信的第一个协议和第一个军事计算机网络（Arpanet），但对于民用研究和整个社会来说，真正的推动力是蒂姆·伯纳斯-李Tim Berners Lee在1989年在CERN发明的万维网。它最初是作为一个纯粹的科研工具，用于交换科学信息，目标是成为一个“通用链接信息系统”。与WWW的创建几乎同时出现的是今天数学家的另一个关键工具：arXiv论文和预印本存档。最初作为FTP服务（1991年）提供，很快在WWW上提供（1993年），这个由康奈尔大学管理的存档已成为数学和其他许多研究领域发表新作品的参考来源及第一手资料。许多研究人员一准备好分享他们的初步文章，就会先将其发布到arXiv，然后再将它们发送到传统期刊进行同行评审和发表。因此，arXiv具有双重目的：它是一个用于托管和分享结果（并在必要时证明优先权）的存档，也是一个让许多研究人员发现新作品的工具。arXiv有一个邮件列表/RSS订阅源，你可以在上面获取关于你感兴趣的具体领域已发布（或即将发表）的作品的每日新闻。arXiv在很大程度上取代了以前由审查服务（zbMATH、MR）提供的这种发现功能。这些目录不托管作品；相反，它们索引和审查同行评审的文章（zbMATH Open也索引arXiv的一些目录）。作为索引工具，这些服务仍然是权威的（完整、有经过精心审查的评论，并且维护良好），并提供有价值的文献计量数据和链接信息，但它们作为发现工具的角色已不再无可争议。

数据革命

行文至此，我们已经涵盖了数学家直到20世纪末的主要工具，并进入了当代时期。21世纪研究面临的一个挑战是数据管理。大多数科学一直基于实验和数据收集，但数据收集的规模已经增长到前所未有的水平，通常被称为“大数据”。在这里，我们用这个词既指特定的大数据集，也指涌入科学领域的各种项目和数据（大小不一）。

许多数据存储库已成为处理除研究论文之外的数据类型的基本工具。在软件的情况下，Git（2005年）和Git仓库（GitHub，2008年）已成为最受欢迎的源代码管理工具，并缓解或解决了管理源代码版本和软件的协作创作中的许多问题。

数字对象唯一标识符（DOIs，2000年）已成为为互联网上不断变化的文件和数字对象创建可靠、独一、持久标识符的标准。出版商将这些DOI分配给出版物的数字版本，但实际上，DOI本质上是对任何数字资产的通用标签。Zenodo（2013年）等存储库为通用数据和数字对象提供DOI和托管服务。

在数学领域，与其他科学一样，它极大地依赖数据，无论是实验性的（统计学、机器学习……）、广泛的收集和分类（群、簇、组合……）、科学计算的源代码、跨学科领域的流程文档等。科学社区，特别是数学社区，比以往任何时候都更加庞大，挑战不仅在于跟踪所有进展，而且要跟踪所有方法并自行复制所有结果。为此，科学界正在建立研究数据基础设施，以帮助研究人员在日常生活中进行工作。这就是MaRDI（以及NFDI为其他科学分支）作为帮助这一领域的项目致力所在。

结构化研究数据，一方面意味着创建必要的基础设施（数据库、搜索引擎、存储库）和指导原则，这些原则在道德和哲学上指导科学的进步。我们在前面的文章中讨论的FAIR原则（研究数据应该是可发现的Findable、可访问的Accessible、可互操作的Interoperable和可重用的Reusable）提供了这些原则的实际实现，以及诸如结果的可验证性、研究者的中立性或科学方法的流程等共同基础。另一方面，研究数据的结构化只有在研究人员接受新的实践时才会成功，这些实践不是被视为强加的义务，而是可靠、流畅的工具，使他们的结果更好，工作更轻松。

MaRDI旨在成为数学家和其他研究人员日常工作的工具。MaRDI将提供的一些服务包括访问经过丰富描述、基准测试和为互操作性整理的数值算法；浏览对象集合并为代数计算提供标准化的工作环境（可复现的软件堆栈）；为机器学习和统计分析整理和注释工具和数据库；描述跨学科研究团队的正式工作流程等。MaRDI的所有服务都将集成到一个MaRDI门户中，该门户将作为搜索引擎（用于文献、算法、人员、公式、数据库、服务等等）。我们在前面的文章中介绍了一些MaRDI服务，并将会在未来的文章中介绍更多。

合作挑战

许多科学领域面临的一个挑战是，针对具体研究项目的研究团队日益增长。在许多实验或建模领域，发现有一长串列表中8、10人或更多作者署名一篇文章的情况并不罕见，因为这是涉及多人的研究项目的可见输出。不同的人扮演不同的角色：从设计项目的人，到在实验室进行实验的人，到分析数据的人，到编写某些代码或运行某些模拟的人，到编写论文文本的人等。将所有这些人列为“作者”并不能给出他们角色的线索，而按相对重要性排序名字的方法并没有大大改善情况。这一挑战需要科学界接受的新的良好科学实践共识。提出的最发达的解决方案是CRediT系统（贡献者角色分类法 https://credit.niso.org），这是一个标准的14个角色的分类，旨在涵盖研究人员可能以所有可能的方式贡献于研究项目的所有可能性。这个系统是由美国的非营利性出版、书目和图书馆应用标准组织NISO提出的。

作为参考资料，我们在这里列出14个角色及其描述：

概念化（Conceptualization）：想法；提出或发展总体研究目标和目标。

数据整理（Data curation）：为初步使用和后续重用标注（生成元数据）、清洗数据和维护研究数据（包括解释数据本身所需的软件代码）的管理活动。

形式分析（Formal Analysis）：应用统计、数学、计算或其他正式技术来分析或综合研究数据。

资金获取（Funding acquisition）：获取导致本出版物的研究项目的财政支持。

调查（Investigation）：进行研究和调查过程，特别是执行实验，或收集数据/证据。

方法论（Methodology）：开发或设计方法论；创建模型。

项目管理（Project administration）：负责研究活动计划和执行的管理和协调责任。

资源（Resources）：提供研究材料、试剂、材料、病人、实验室样本、动物、仪器、计算资源或其他分析工具。

软件（Software）：编程、软件开发；设计计算机程序；实现计算机代码和支持算法；测试现有代码组件。

监督（Supervision）：对研究活动计划和执行的监督和领导责任，包括对核心团队外的指导。

验证（Validation）：验证结果/实验和其他研究输出的整体可复现性/可重复性，无论是作为活动的一部分还是独立进行。

可视化（Visualization）：准备、创建和/或呈现已发布的工作，特别是可视化/数据展示。

写作 - 原始草稿（Writing – original draft）：原始草稿 - 准备、创建和/或呈现已发布的工作，特别是编写初始草稿（包括实质性翻译）。

写作 - 评审与编辑（Writing – review & editing）：由原始研究小组成员准备、创建和/或呈现已发布的工作，特别是关键评审、评论或修订 - 包括发表前或发表后阶段。

对学术界的建议是，在研究项目中开始将这些角色应用于每个团队成员，同时记住一个人或多人可以承担一个或多个角色，并且只应使用适用的角色。贡献程度是可选的（例如，'主导’、'平等’或'支持’）。

使用作者贡献可以相当直接。例如，想象一个由四个人组成的团队正在从事一个计算机代数项目。Alice Arugula是一位教授，她提出了这个项目的想法，与Bob Bean（一位博士后）讨论了它，并一起发展了主要想法。然后Bob拉进来两位博士生Charlie Cheeseman和Diana Dough，他们编写了代码，三人都研究了这个问题并填写了结果。Bob和Diana写了论文，Charlie将代码打包成一个库，并在一个流行的仓库中发布，Alice审核了所有内容。他们发表了论文，他们所有人都作为作者出现。按照CRediT和出版商的指南，他们在引言的最后加入了一段文字：

作者贡献

概念化：Alice Arugula，Bob Bean；形式分析和调查：Bob Bean（主导），Charlie Cheeseman，Diana Dough；软件：Charlie Cheeseman，Diana Dough；数据整理：Charlie Cheeseman；写作 - 原始草稿：Bob Bean，Diana Dough；监督：Alice Arugula。

对于出版商来说，CRediT建议要求作者详细说明他们的贡献，列出所有作者及其角色，并确保所有贡献团队承担根据角色分配的责任。从技术上讲，出版商也被要求使用现有的XML标签描述符使角色描述成为机器可读的。

形式化数学

我们将以一种更具有推测性的工具结束，这种工具可能是数学家在中期未来使用的。一种已经足够成熟，可以渗透到所有其他数学领域的元数学分支是形式化数学。计算机和形式化语言，曾经只是作为一种形式逻辑的一部分而作的理论研究，或者作为数学的基础，现在可以将数学定义、命题和证明以机器可读和可处理的方式转录，从而使计算机能够验证证明。计算机辅助证明现在在主流中已经普遍接受（至少对于符号计算而言），自从20世纪70年代和80年代早期四色定理和其他早期计算在数学中必要的角色引起的“震惊”以来，已经过去很长时间了。除了使用计算机进行特定的计算，以帮助证明过程中的证明之外，形式化数学还带来了从假设出发验证命题证明的整个论证和逻辑步骤链的可能性。Coq系统和语言被Georges Gonthier用来在2005年形式化上述的四色定理，并在2012年形式化了Feit-Thompson猜想。最近，LEAN系统在2021年支持了Peter Scholze（彼得·舒尔茨）的凝聚态数学项目（condensed mathematics project），以及在2023年支持了Tim Gowers（蒂姆·高尔斯）、Terence Tao（陶哲轩）和其他人提出的多项式Freiman-Ruzsa猜想。（参阅小乐数学科普：2022国际数学家大会一小时报告《数学形式主义的兴起》Kevin Buzzard 演讲全文、小乐数学科普：专访ICM 2022国际数学家大会一小时报告者Kevin Buzzard：计算机可以成为数学家吗？——译自量子杂志）

“形式化数学革命”的拥护者梦想着一个未来，那时所有研究文章都将伴随着一个机器可读的对应物，它编码了与人类可读部分相同的陈述和证明。在某个时候，AI系统可以协助人类到机器的翻译。然后，验证和同行评审结果的有效性将成为系统中的一个简单的代码运行，将人类干预仅限于纯粹的语言清晰度和语言风格问题。有些人甚至猜测，当逻辑演绎技术可以被机器编码时，人工智能系统可以被训练来优化、建议或与人类数学家合作生成新结果。

这些形式化语言是否仍然是数学家的一个利基工具，或者成为广大数学家的广泛实践，数学研究是否有一天会得到人工智能系统的帮助，这些都是未来几十年内需要看到的开放问题。

数学研究数据倡议（MaRDI）使命

数学研究数据庞大、复杂且多面。它不仅出现在数学科学中，也出现在物理学、化学、生命科学和艺术等其他科学领域。需要开发标准化的格式、数据互操作性和应用程序接口，以确保跨学科使用数据时的便利性。

鉴于此，数学研究数据倡议（MaRDI）作为数学科学联盟倡议而建立。其使命是：

发展出一个健壮的数学研究数据基础设施，不仅在数学领域内有用，也能在其他学科以及非科学领域中发挥作用。

为经过认证的数学研究数据制定标准和可验证的工作流程，

并为数学界和更广泛的科学社区提供服务。

所有这些对于创建和建立对于知识传播、质量控制和科学讨论至关重要的协作平台都是必不可少的。

MaRDI的愿景：

通过可持续地实现 MaRDI 发现，建立一个拥抱FAIR原则的数据文化和研究工作流程的社区。

参考资料

https://www.mardi4nfdi.de/community/newsletter?opennl=956,952https://www.mardi4nfdi.dehttps://credit.niso.org小乐数学科普：拥有一个意外工具箱的应用数学家——林力行Lek-Heng Lim——量子杂志

小乐数学科普：拉马努金机器，一个可生成数学猜想的自动化工具

小乐数学科普：“机器科学家”从原始数据中提取物理定律——译自Quanta Magazine量子杂志

小乐数学科普：大数据如何将图论带入新维度——译自量子杂志

· 开放 · 友好 · 多元 · 普适 · 守拙 ·

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。