你好,游客 登录 注册 发布搜索
背景:
阅读新闻

Fregata: TalkingData开源的轻量级大规模机器学习库

[日期:2016-11-30] 来源:ITeye  作者: [字体: ]

Fregata是TalkingData开源的一个基于Spark的轻量级、超快速的大规模机器学习库,并在Scala中提供高级API。

显著特征:

  • 更加准确:Fregata的精确度要高于MLLib;
  • 高速度:对于广义线性模型,Fregata通常汇合在一个数据历元。对于10亿*10亿的数据集,Fregata可以在1分钟内使用内存缓存或10分钟完成一个广义线性模型训练,速度要比MLLib快10-100倍;
  • 参数自由:Fregata使用GSA SGD优化,无需学习速率调整,原因是研发团队找到了一种在训练过程中计算学习速率的方法。当面对超高维问题时,Fregata会动态计算剩余内存来确定输出的稀疏性,自动平衡精度和效率;
  • 轻量:Fregata只使用了Spark的标准API即可快速、无缝地集成到Spark上的大多数业务数据处理流程中。

架构

这里主要介绍1.0版本架构。核心部分主要基于GSA独立算法实现,包括分类,回归和聚类:

  • 分类:支持二进制和多重分类
  • 回归:在下面的版本中发布
  • 聚类:在下面的版本中发布

Spark:主要通过封装core.jar实现基于Spark的大规模机器学习算法,并提供相应的算法。

 

如何安装及快速入门,大家可以访问其在 Github上的开源地址 。https://github.com/TalkingData/Fregata

收藏 推荐 打印 | 录入:admin | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款