真正的大数据问题以及为什么只有机器学习才能解决它

　　为什么很多公司仍在努力构建从采集数据到获得洞察力的平稳运行的管道?他们希望投资和采用机器学习算法来分析数据，并做出商业预测。
　　但是，不可避免的是，他们应该意识到算法并不是魔法：如果采用的是垃圾数据，得出的就不会是一流的见解。因此，他们雇佣了一些数据科学家，但通常他们90%的时间都花在数据清洁上，只剩下10%的时间来完成分析工作。
　　这个过程的缺点还在于企业喜欢采用终端算法的机器学习。Tamr公司的联合创始人兼执行官Andy Palmer表示，他们应该在数据早期清洁阶段尽可能地应用机器学习，而不是依靠工作人员来处理庞大的数据集。该公司帮助组织使用机器学习突破他们的数据孤岛。
　　许多公司在大数据收集系统上花费了大量资金。他们强调的是数据数量而非质量，这是显而易见的。
　　Palmer说：“在大公司工作的人都可以告诉你，他们从大多数内部系统获得的数据很简单，简单明了。”
　　Tamr公司联合创始人兼技术官Andy Palmer和SiliconSLE Media公司移动直播工作室CUBE的主持人Michael Stonebraker与Dave Vellante和Paul Gillin在会上进行了探讨，他们最近参加了在马萨诸塞州剑桥举行的麻省理工学院CDOIQ研讨会。他们探讨了大数据采用机器学习技术，以及为什么Tamr认为初创公司会比传统公司提供更好、更具可扩展性的大数据解决方案的原因。
　　大数据的清理和组织
　　Palmer和Stonebraker多年来一直关注大数据技术。早在2007年，他们就预测ApacheHadoop大数据框架不会带来很多人所期望的结果。
　　Palmer说，“有人说大数据将是一场灾难，这有些太激进了。”
　　他表示，这并不是说大数据集不好，显然大数据是训练分析模型和人工智能的必要工具。有些人认为，只要数据量够大，其余的分析或人工智能方面就会到位，但这让很多公司都感到失望。
　　企业现在意识到数据质量不可忽视。他们还知道，数据科学家不应该花费80%到90%或更多的时间清理数据，须采用一种更好、更快的人工智能方法用于分析数据。
　　Palmer表示，其答案是将机器学习视为一种很实用的工具，用于执行这些庞大而无趣的任务。许多供应商使用机器学习来使预测、推荐引擎等软件的营销更具吸引力。Tamr公司将其用于不具吸引力的事情：在一些人分析、预测、营销或销售一些东西之前清理和组织大数据。
　　机器学习可以大规模处理数据
　　如今，并不缺乏针对数据沼泽问题的建议解决方案。许多科技公司正在推出或更新其原始产品。然而，Stonebraker指出，这些系统中通常使用的主要技术存在关键缺陷。这些传统技术包括ETL(提取、转换、加载)系统和主数据管理系统。但其缺点是不能扩展。
　　ETL基于这样一个前提：明智的企业会为用户想要的数据源提供全局数据模型。然后让每个业务部门查看他们获得了哪些数据，如何在全局数据模型中获取数据，将其加载到数据仓库中等等。Stonebraker表示，人工密集型流程往往无法扩展。他们通常会在数据仓库中集成10或20个数据源。
　　那么这些数据足够吗?以现实世界中的一家公司为例。TAMR公司的客户丰田汽车欧洲(TME)公司在各国都有经销商。如果有人在西班牙买了一辆丰田汽车，然后将其开到法国，那么其在法国的经销商对此一无所知。
　　总的来说，丰田汽车欧洲(TME)公司拥有250个独立的客户数据库，拥有使用50种语言的4000万条记录。该公司正在将它们集成到单个客户数据库中，以解决此客户的服务问题。机器学习提供了一种合理的方法来实现这一目标。Stonebraker说，“我从未见过能够处理这种规模的ETL系统。”
　　Stonebraker解释说，主数据管理(MDM)无法扩展的原因主要是因为它是基于规则的。通用电气公司是Tamr公司的另一家客户，希望对其