思想领袖

解决当访问科学数据的挑战

斯图尔特博士粉笔,北佛罗里达大学的教授会谈AZoM有关研究人员面临的挑战和行业访问科学数据时,他正在进行的研究和资源,比如SpringerMaterials如何帮助更容易访问。欧洲杯足球竞彩

研究的主要难点是什么当寻找科学数据?

这种异构和分布广泛的全球网络专有的和开放的数据有许多问题,研究人员寻找科学数据时必须处理。这些属于一般的领域:

  • 数据访问个人数据没有版权的,然而数据的聚合成一个集合。此外,这些集合是免费的,有些是在访问限制或禁运。因此,在很多情况下很难知道如果研究人员可以采取合法和使用数据。访问也限制如果数据发表在不恰当的文件格式(例如PDF文件)。最后,收集的数据是没有发表的,所谓的“暗数据”,因此不能用于研究人员发现。

  • 数据表示,数据是如何报道的可寻性有很大的影响。简单的使用一段时间或逗号表示小数点后,或注释的度量单位(据报道)如何阻碍搜索。数据可以差特征——要么很少或不准确的元数据(上下文信息),并组织数据(表v的数据库的XML)可能是一个问题。

  • 数据交换——即使研究员可以获得他们所需要的数据,“读”的能力或上载到特定的进一步研究应用工作,这可能是一个重要的问题,如果它不是在一个开放的格式。多数据(如光谱输出)存储在专用格式可能不读20年后创造。个别大型数据集或大量小数据文件(如字节大小或更大)可能需要很长时间来加载。

哪个计划照顾这些痛点?

有很多组织在政策、工具、标准,或词汇表/本体科学数据移动到一个时代,它将明显更容易找到。这包括(但不限于):

  • 研究数据联盟(RDA)于2013年作为一个社区驱动的组织由欧盟委员会(European Commission),美国国家科学基金会和国家标准与技术研究院与澳大利亚政府部门的创新目标社会和技术基础设施的建设,使开放的共享数据。欧洲杯线上买球RDA工作组(WGs)集中在(比方说)“持久标识符(PID)信息类型”,“数据基础和术语”、“小麦数据互操作”,“研究数据存储库的互操作性”和他们的建议被采用了全球。

  • Force11源于“未来通信的研究”研讨会的重点是发展一个新的出版模式(包括数据)的电子时代。引用Force11网站“FORCE11是一个社区的学者、图书管理员、档案员,出版商和研究资助者,出现了有机帮助促进变化对改善知识创造和分享。个人和集体,我们的目标是在现代学术交流带来改变的有效使用信息技术”。

  • 数据校方计划出来的2014年研讨会参与者集中在获取科学数据公平。在这种背景下的意思可寻性、可访问性、互操作性和可重用性。特征数据实现公平。这些原则已经被许多组织(例如RDA和FORCE11上图)和已成为一个开放数据运动的基础。

  • 皮斯托亚联盟http://www.pistoiaalliance.org/)试图解决生命科学产业的科学数据的访问。欧洲杯线上买球在竞争激烈的产业环境数据是知识产权(IP),和更大的数据集越大,潜在的IP。然而,企业联盟开始意识到合作的竞争前的活动将有利于所有涉及到的。现在联盟项目包括化学品安全库,层次编辑语言大分子(舵),和一个本体映射项目(提高一致性和识别差距在知识的语义表示)。

  • 国际科学理事会:数据科学技术委员会(CODATA)符欧洲杯线上买球合所有科学学科,除了负责一致性检查和更新的基本物理常数也有许多活动集中在改善对科学数据的访问。它们包括(工作组(WG),任务组(TG),计划(I)):

    • 统一描述系统v2.0(纳米材料)欧洲杯足球竞彩
    • 研究数据管理标准词汇表(铱)(WG)
    • 法律研究数据的互操作性(WG)
    • 协调数据标准在科学联盟(TG)
  • 国际纯粹与应用化学联合会(IUPAC)作为一个科学工会负责数据标准已形成小组委员会化学数据标准(SCDS)在IUPAC委员会出版物和化学数据标准(CPCDS)。小组委员会是专注于识别当前的标准用于化学(例如JCAMP, ThermoML和InChI)和未来的发展标准需要在化学界。此外,IUPAC纲要的化学术语正在评估作为一个化学概念本体的来源。

  • 国家标准与技术研究院(NIST)美国国家计量研究院(敝中断),负责高质量测量、计量、测量科学,标准参考材料。欧洲杯足球竞彩欧洲杯线上买球目前启动一个项目开发数字单位库基于QUDT (http://qudt.org/)科研单位的语义表示。一旦实现,科学数据与国际知名数字单位提供机制自动转换成等效单元。

上面所有的活动有明确的证据表明,学术刊物,我们目前所知,正在重塑——过渡到以数据为中心的模型,它是重要的(如果不是更多)发表的研究工作是基于原始数据,所以其他人可以评估和重用。此外,演化的工具来管理,整合和可视化数据这一变化密切相关,当用户将发现自己不知所措的数据。其中一个最近宣布是SpringerMaterials互动工具,系统允许用户与数据进行交互欧洲杯足球竞彩,我们的研究小组从Landolt-Bornstein系列的卷了。

你的工作是如何解决这些难点?

基本问题的科学数据访问/发现提供一个机制来传输的情况下测量的数据。科学家一直在提供这种通过研究论文的发表在同行评议的文献,但是这种机制很快就被认为是一个贫穷的方法考虑到复杂,范围和规模的数据研究是基于。目前科学家们只发布“重要”的研究数据,通常在一个浓缩(总)形式,如果他们确实提供了一份研究报告的数据是基于通常的格式(如PDF)不适合使用由其他科学家——不公平的格式。

在我的团队,我们致力于提供一个框架,将允许任何科学数据及其元数据但是没有规定结构表示为数据或要求一个特定的平台。SciData框架科学数据是基于的想法就像一篇研究论文,科学数据和元数据(它的上下文数据)可以基于组织分为三个类别:

  • 方法——数据如何获得和使用设备2020欧洲杯下注官网
  • 系统——是什么数据,化学,生物,材料,分子系统(在计算化学)
  • 数据集——收集的数据在逻辑上组织和联系方法和系统中的信息类别

还有一些额外的元数据是谁做了研究,什么项目的一部分,可引用的链接来访问数据和授权声明,这是重要信息的简洁表示一个基准一直到项目基础数据集。

在一个理想世界中,将科学的数据库是什么样子的呢?最重要的特性是什么?

这是一个非常重要的问题,我想很多为了到达一个答案。传统关系数据库,这意味着他们有一个模式(布局)定义一个表中的数据与数据在另一个,通常实现通过添加一个列一个表,其中包含独特的一排在另一个表的外键。这种“刚性”结构是经不起科学数据的检验,因为它迫使或许都是不适宜的数据格式来表示数据。

最近,图形数据库已成为非常受欢迎的,是基于这个想法,任何信息可以与任何其他相关信息使用一个包含主语、谓词和宾语(热点)“三重”(如数据(s)——数值(p) - 0.1234 (o);数据点(s) -单位(p) -克(o))。显然,没有结构,这是任何可以与其他结果组织可以异构数据库的数据,很难寻找数据以一种有意义的方式,因为相关数据特征可能不同。

答案是,在我看来,定义一个框架(模式),组织数据在更抽象的级别允许系统搜索,还允许将数据和元数据特征的方式与数据的吻合程度。SciData中我们采取的方法,框架可以实现在一个关系数据库或图形数据库,因为它是一个混合模型。其成功的关键是持续发展的上下文的语义(本体论)表示数据类型和领域特定知识映射使用开放和解除本体。

你已经或正在数值数据的数字化IUPAC溶解度数据系列和Landolt-Bornstein书系列,都在各自领域的资源。的主要挑战是什么或在你的工作吗?

最难的部分关于这些项目已经为每个资源迁移策略的发展。我的意思是即使数据提出了相对结构化格式(例如表)有很多解释人类并自动理解信息在页面上是相关的。下面的图。有大量的隐含的信息页面的结构,除了页面上的数据,需要解释的计算机。

例如,该页面包含两个完全独立的数据集,由外黑匣子表示。在底部的数据集,化学家可以理解弦75-69-4化学文摘登记号(CASRN)复合创新领导力3F, R-11可能贸易名称,因为化合物氟化和可能是制冷剂(这实际上是Freon-11)。变量温度是表示单位开尔文,表中的这些数字是不被发现,因为温度报告°C。字符串的100 w1”代表了物质的质量百分比1,所以如果你想把它转换成质量分数必须列中的值除以100。虽然不是页面中提到的,这是一个原始研究数据值策划参考表示的“原始测量的盒子而不是数据在104x1(摩尔分数)和100 w111”(质量摩尔浓度的单位摩尔g1而不是摩尔公斤1列的计算是通过编译器。最后,引用正确的底部是一篇论文显示在“方法/设备/过程”部分的研究文章引用的右上方。

我们的方法来处理这个问题在Landolt-Bornstein书系列是使用正则表达式(regex)页面上的文本字符串的匹配及其位置相对于页面上的其他信息。这使我们能够确定字符串作为标识符的属性和单位在列,化学公式和名字,和十进制或科学记数法中的数据格式。例如,下面的正则表达式可以用来明确识别数字和连字符的字符串CASRN格式。“[0 - 9]”代表任何数字,“{2,7}”表示一个序列来自两个连续七位数,“{2}”两个数字的序列。CASRN是否正确转录在页面上不知道但可以检查在线数据库。

7 [0 - 9]{2}- [0 - 9]{2}[0 - 9]

这究竟如何科学数据的数字化帮助研究人员在日常的工作吗?

许多年来,科学家们一直在使用各种不同的实验室信息管理系统(LIMS),电子实验室笔记本(eln)和计算机数据库。在一般意义上,这些系统的最大缺点是让科学家与一组丰富的元数据注释数据。这主要是因为这任务是无聊和科学家热衷于做研究工作,而不是花大量的时间正确地描述他们的数据,尽管它将能很容易地找到和使用这些数据。如果自动化系统可以用来推断出尽可能多的研究数据信息(为科学家验证)研究企业可以更加有效和节省成本。对于这个真正工作实现它需要三个关键部分

  1. 自动迁移(翻译和表征)来自其他系统的数据为研究者的数据系统
  2. 从仪器仪表数据的语义注释(数据系统)除了原始数据包括仪器惟一标识符(id相当于一个序列号)和软件用于收集数据
  3. 数字研究笔记本(DRN)集成到实验室(以及网上认证系统)和收集的数据工具和仪器,实验室环境条件下,图片/视频/音频实验室工作流程的注解,和设备用于样本/解决方案/反应制备2020欧洲杯下注官网

的好处是什么有一个数据库就像SpringerMaterials材料科学等多学科领域内?欧洲杯足球竞彩欧洲杯线上买球

研究人员正在寻找在一个数据库就像SpringerMaterials信息否则他们不会发现。欧洲杯足球竞彩换句话说,他们正在寻找的信息他们目前不知道存在,但这可能是重要的研究他们正在做的事情。要实现这一目标的唯一方法就是如果数据库包含一种化学信息从多个不同的角度或学科。因此,数据库就像SpringerMaterials至关重要的长期进展材料欧洲杯足球竞彩研究项目。此外,如前所述,工具需要允许用户充分利用可用的数据可视化大型数据集或集成来自多个数据源的数据。最近引入的斯普林格材料互动是重要的一步,允许用户从不同的学科利用大型数据欧洲杯足球竞彩集,通过视图数据基于他们的观点。

对斯图尔特粉笔

斯图尔特·粉笔北佛罗里达大学的教授,是一个培训与研究重点分析化学家的流分析、环境监测等领域。在过去的几年里他cheminformatics越来越感兴趣,现在他的主要关注点。ChemExtractor目前的项目包括:发展、开发语义单元库的支持科学大数据,IUPAC金书项目,设计和开发一个基于web的信息(ChemCurator)的教学工具。

免责声明:这里的观点的受访者的观点,不一定代表AZoM.com (T / A) AZoNetwork有限,这个网站的所有者和经营者。这个声明的一部分条款和条件本网站的使用。

斯图亚特·米尔恩

写的

斯图亚特·米尔恩

斯图亚特·威尔士大学毕业,卡迪夫学院一等荣誉学位,工业产品设计。工作后在一个刚刚起步的公司参与LED照明解决方案,与AZoNetwork斯图尔特决定采取一个机会。斯图尔特在AZoNetwork过去五年,参与了开发一个行业领先的产品种类,增强客户体验,提高内部系统设计提供重要的价值为客户辛苦赚来的营销美元。斯图尔特在业余时间喜欢继续他对艺术和设计的爱通过创建艺术工作,继续他对素描的爱。斯图尔特在未来,愿继续他热爱旅行和探索新的和令人兴奋的地方。

引用

请使用以下格式之一本文引用你的文章,论文或报告:

  • 美国心理学协会

    施普林格科学技术出版社欧洲杯线上买球。(2019年6月24日)。解决当访问科学数据的挑战。AZoM。检索2022年10月25日,来自//www.wireless-io.com/article.aspx?ArticleID=14059。

  • MLA

    施普林格科学技术出版社欧洲杯线上买球。“寻址访问科学数据时的挑战”。AZoM。2022年10月25日。< //www.wireless-io.com/article.aspx?ArticleID=14059 >。

  • 芝加哥

    施普林格科学技术出版社欧洲杯线上买球。“寻址访问科学数据时的挑战”。AZoM。//www.wireless-io.com/article.aspx?ArticleID=14059。(2022年10月25日通过)。

  • 哈佛大学

    施普林格科学技术出版社欧洲杯线上买球。2019。解决当访问科学数据的挑战。AZoM,认为2022年10月25日,//www.wireless-io.com/article.aspx?ArticleID=14059。

问一个问题

你有一个问题你想问关于这篇文章?

离开你的反馈
你的评论类型
提交