谷歌宣布在谷歌搜索结果中支持数据集标记模式。这使得搜索者可以更好地将web页面上的数据直接显示在谷歌的搜索结果中。
谷歌解释说:“以表格形式发布数据的新闻机构可以添加额外的结构化数据,以便在相关搜索功能中更容易识别页面的数据集部分。谷歌补充说,“新闻机构将结构化数据添加到其现有的页面HTML中,这意味着新闻机构仍然可以控制如何向读者呈现他们的表。”
下面是它的样子,右边是标记版本:
谷歌的开发人员网站解释说,这是该标记的“试点”版本。谷歌写道:
当您提供支持信息,如数据集的名称、描述、创建者和分布格式作为结构化数据提供时,数据集更容易找到。谷歌数据集发现的方法使用了schema.org和其他元数据标准,这些标准可以添加到描述数据集的页面中。这种标记的目的是改进对来自诸如生命科学、社会科学、机器学习、公民和政府数据等领域的数据集的发现。
大约两年前,谷歌首次宣布将其命名为搜索中的科学数据集。谷歌现在简单地称它们为“数据集”,并将其扩展到任何数据驱动机构。
这里有一些例子,什么可以作为一个数据集:
包含一些数据的表或CSV文件。
表的有组织的集合。
包含数据的专有格式文件。
一起构成有意义数据集的文件集合。
一个结构化对象,其中的数据采用您可能想要的其他格式
装入专用工具进行加工。
图像捕捉数据。
与机器学习相关的文件,如训练参数或神经网络结构定义。
任何看起来像数据集的东西。