你好,游客 登录
背景:
阅读新闻

IBM 开源技术人工智能战略 — 一个开发者的解读

[日期:2018-06-21] 来源:推酷  作者: [字体: ]

IBM 拥有清晰的开源技术人工智能 (Open Tech AI) 发展战略。我相信大家依旧记得在 2011 年,IBM Watson 在《危险边缘》节目中击败了两位世界冠军。除了有出色的 2,880 个 IBM POWER7 核心提供 11,520 个超线程和 16TB 主内存支持之外,还得益于在 Linux 上运行并使用 Hadoop 的 IBM Watson。从那时起,我们取得了很多新的发展,IBM 跻身成为世界人工智能技术和服务领域的领导者之一。

但我特别骄傲的是,IBM 制定了清晰的战略来创建、支持和增强开源技术人工智能。

开源技术人工智能:端到端的企业级人工智能

早在 2015 年,IBM 就在 旧金山创立了 Apache Spark 技术中心。Apache Spark 技术中心现更名为CODAIT,代表开源数据和人工智能技术中心(Center of Open-Source Data and AI Technologies)。

通过 Apache Spark 项目,IBM 贡献了超过 50,000 行代码,除此之外,IBM 还是 Apache Spark 机器学习的主要贡献者(特别是基于数据框架的新机器学习 API – ML Pipelines。

Angel Diaz 博士在他的博客中写道:“今天,我很高兴地宣布 Spark 技术中心的业务范围已经扩大,现已涵盖了端到端的企业级人工智能生命周期。”

让我来带领大家了解一下 CODAIT 正在贡献的一些重要项目:

  • Apache Spark是开源并行数据处理的事实上的标准。Apache Spark 在数据处理性能方面仍然是多项世界记录的保持者。您可以在我的 Mastering Apache Spark 2.x一书中了解有关 Apache Spark 的更多内容。

  • Tensorflow是全球使用最广泛的深度学习框架。每个人都很喜欢它。但我是个例外。我真的不明白为什么人们喜欢这样一个低水平的框架,它要求用户在线性代数层面上定义一切。尽管如此,对于人工智能研究人员来说,TensorFlow 有一些可利用的重要功能。最突出的功能是自动微分 (Automatic Differentiation),它负责为您的模型创建优化目标。要了解更多关于 TensorFlow 的内容,可以观看 我在此视频中对 TensorFlow 的介绍这个视频是 Coursera 应用人工智能和深度学习课程的一部分,又是 Coursera 高级数据科学专业课程的一部分。

  • Keras才是真正出色的深度学习框架。(我有多讨厌 TensorFlow,就有多喜欢 Keras。)Keras 很容易学习和使用。您所需要做的就是堆叠神经网络层,它在后台使用 TensorFlow 来执行。此外,您可以导出 Keras 模型,并让这些模型在 SystemML(见下文)和 DeepLearning4J 中运行,它们都支持 Apache Spark 作为运行时。和 Keras 一样,DeepLearning4J 也可以轻松使用高级 API,但它本身就支持 Java 和 Scala。您可以观看我采访 Max Pumperla的视频 (Max Pumperla 是模型导出器概念的创造者),了解更多关于 Keras 模型和导出器的信息。

  • SystemML无疑是目前最被低估的深度学习框架之一。SystemML 之于线性代数,就像 SQL 之于关系数据库一样。特定域语言(在 R 或 python 语法中)使用基于成本的优化器而得到了优化。SystemML 可以使用 Apache Spark 作为运行时。IBM 为 SystemML 贡献了 65,000 行代码。观看 我在 2016 年瑞士数据科学大会上关于 SystemML 的演讲, 或者观看 我采访 Berthold Reinwald 的视频(Apache SystemML 背后的人物),了解更多关于 SystemML 的信息。

  • Apache Arrow是用于高速列式内存布局的高性能内存管理库。也许您在日常工作中已经在使用 Apache Arrow 了,但您自己还不知道。您在 Apache Spark 和 Python Pandas DataFrames 之间进行转换时会用到它。至少我就是这么使用它的,我对它的性能非常满意。

  • Apache Bahir是针对 Apache Spark 和 Apache Flink 的一组连接器,用于持久和动态数据源。我正在负责维护 Apache Bahir ( https://github.com/romeokienzler/bahir) 的一个分支,支持访问 IBM Cloudant,这是 IBM Cloud 中托管的 Apache CouchDB,每秒请求数量有限。

  • Apache Toree是 Jupyter 内核,用于优化对 Apache Spark 的访问 Jupyter 开源项目被广泛使用,已经成为了开发数据科学脚本的事实标准。如果没有 Toree 脚本,Jupyter 上的 Apache Spark 作业就不会如此成功且广泛适应。像 Arrow 一样,您永远不会直接与 Toree 进行互动,但是您将始终从中受益。

  • Apache Zeppelin在使用 Notebook 的数据科学脚本方面排名第二。它的 UI 比 Jupyter 好很多,但我在日常工作中仍然只使用 Jupyter。

  • Apache Livy允许您通过 REST API 与 Apache Spark 集群进行交互,而无需安装 Apache Spark 客户端。这对于在 Apache Spark 支持的数据处理和分析作业(即所谓的“数据产品”)之上开发交互式用户界面至关重要。如若不然,您将需要在代码中封装 Apache Spark 作业的命令行执行操作,包括所有繁琐的生命周期管理。Livy 可以帮助解决这个问题。真的是特别棒的工具。

  • Fabric for Deep Learning (FfDL)完全消除了在虚拟机上管理数据并行群集基础架构的负担,这与 Apache Spark 一样。只需将数据放入 ObjectStore 中的存储区中,在 Jupyter Notebook 中定义模型,或者使用 Watson Studio 的 Neural Network Modeler 来定义模型,然后使用 Watson Machine Learning 对其进行训练和扩展。从 IBM Watson Machine Learning 测试版开始,我就一直在使用它。不得不说,这是面向人工智能和机器学习工程师的最令人激动的 Watson 服务。目前支持以下框架,这也正是我所需要的:TensorFlow、Keras、Caffee 和 Caffee2、PyTorch、Spark MLlib、Scikit Learn、XGBoost 和 SPSS。重点来了!IBM 在这个 FfDL 包中开源了 IBM Watson Machine Learning 的完整运行时。因此,您可以在 IBM Cloud 中使用与在其他云供应商或本地数据中心内所使用的相同 API。此外,您可以贡献自己的力量,让它变得更好!您所需要的只是包含一些 CPU 或 GPU 以及一个 NFS 服务器的 Kubernetes 集群。

IBM Watson Studio 和开源技术人工智能

IBM Watson Studio 也增强了它的人工智能能力,它的 Neural Network Modeler 便是 IBM 的“深度学习即服务”产品的一部分。

快速设计一个深度学习神经网络可能是一项困难的任务。借助 IBM Watson Studio 中的 Neural Network Modeler,您可以使用图形用户界面来绘制神经网络。很酷的是,它完全免费。它还会读取和写入 TensorFLow、Keras、Caffee 和 PyTorch 模型,未来不久,它还将读取 ONNX 模型。使用 Neural Network Modeler,您可以在几乎所有最先进的开源深度学习库之上,以图形化的方式设计神经网络。这是 IBM 的“深度学习即服务”产品的一部分。

IBM Watson Studio 中的“深度学习即服务”不仅支持您创建深度学习神经网络,而无需使用图形编辑器编写代码,还可以使用 Experiment Assistant 来处理超参数调优。因此,它会自动创建不同的模型,并评估模型的性能。通常使用 GridSearch 和 TensorBoard 执行的操作现在只需单击鼠标即可完成。

了解有关开源技术人工智能的更多信息

我很高兴能参与到 IBM 开放技术人工智能当中,我们于今年 3 月在赫尔辛基月在赫尔辛基召开了一次名为“开放技术人工智能峰会”(OTAIS) 的系列会议。 5 月 28 日在瑞士苏黎世举行了第二次会议。希望届时我们能够面对面交流。

最后,如果您对此主题感兴趣,请考虑参加 Coursera 的 应用人工智能和深度学习课程,这是 Coursera “高级数据科学”专业课程的一部分。如果您对开放技术人工智能感兴趣,这套课程将是非常棒的选择。深度学习课程将介绍有关深度学习的所有必备基础知识,还会介绍如何在 Keras、TensorFlow 和 PyTorch 中使用深度学习。这门课程将会展示如何将深度学习应用于真实世界的问题,并解释如何针对训练和推断需求来扩展模型。

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款