你好,游客 登录
背景:
阅读新闻

Google开源机器学习数据集可视化工具Facets

[日期:2017-07-20] 来源:36大数据  作者: [字体: ]

ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集。为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具。

Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像。Facets Overview 可用于可视化数据的每一个特征,Facets Dive 用来探索个别的数据观察集。

除了开放 Facets源码,Google 还创建了演示网站

具体来看,Facets Overview 可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如训练集和测试集。阻碍机器学习的常见数据问题被推到前端,比如出乎意料的特征值、具有高比例遗失值的特征、带有不平衡分布的特征,数据集之间的特征分布偏差等等。

Facets Dive 则提供了一个易于定制的直观界面,用于探索数据集中不同特征数据点之间的关系。它是一种交互式探索多达数万个数据点的工具,允许用户在高级概述和低级细节之间进行无缝切换。通过 Facets Dive,你可以控制位置、颜色和视觉表现。每个示例在可视化中被表示为单个项目,并且可以通过其特征值在多个维度上通过 faceting/bucketing 来定位点。通过结合细分和过滤,Dive 可以轻松地在复杂数据集中识别样式和异常值。

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款