你好,游客 登录 注册 发布搜索
背景:
阅读新闻

京东郭文涛:深度学习让实时用户画像实现秒级更新

[日期:2016-11-10] 来源:51CTO   作者: [字体: ]

  WOT2016大数据峰会将于2016年11月25-26日在北京粤财JW万豪酒店召开,届时,数十位大数据领域一线专家、数据技术先行者将齐聚现场,在围绕机器学习、实时计算、系统架构、NoSQL技术实践等前沿技术话题展开深度交流和沟通探讨的同时,分享大数据领域最新实践和最热门的行业应用。

  

 

  郭文涛,2011年毕业于西安交通大学自动化专业。2011年7月加入百度凤巢算法团队,参与广告点击质量、用户行为建模相关工作。2014年加入京东广告部,负责京东展示广告相关算法工作,主要负责广告触发以及模型排序、推荐系统等相关工作。

  郭文涛是京东展示广告负责人,在此次WOT大会上将为大家带来“深度学习在推荐系统中的应用”的主题演讲,还请各位密切关注哟!会前,我们对他进行了采访,让我们来听听专家对深度学习的看法。

  1、作为国内知名的互联网平台,您认为京东广告面临的最大挑战是什么?目前是如何解决的?

  京东广告部面临最大的挑战是数亿用户和数十亿量级的商品,以及数据稀疏问题。在从传统模型转向DNN的过程中,面临超大规模深度网络的问题。经过同事们的不断探索,创新的提出LR+DNN的模型很好的解决了该问题,该模型已于去年年底上线。模型结构与google公布的wise&deep结构有类似之处,但更加灵活。相比他们公布时间,我们提前上线了半年多。另外相比离散的全连接网络,参数规模更小,更容易训练,模型更加稳定。

  2、京东广告目前都应用了哪些大数据软件或算法来进行计算?效果如何?

  京东广告部广告产品非常丰富,各个技术团队因为业务场景的不同使用得算法和框架也不尽相同。实时用户画像相关用到了kafka、storm、redis等方案能够实现秒级的数据更新。排序模型训练用到了参数服务器、theano、tensorflow等工具实现自研的深度网络。

  3、在海量计算方面,您有何经验与大家分享?

  海量数据中一定蕴含着金矿,但是噪声的比例更大。我认为如何使用这些数据从中挖掘出有用的信息更为重要,简单讲就是结合领域专家知识与机器学习算法挖掘海量数据的金矿。结合自己的使用场景、更准确的建模使用场景,利用海量数据,做到数据驱动业务的闭环就能获得质的提升。

  4、大数据挖掘方面是否用到了GPU?

  我们在推荐系统中的多个子模型以及推荐算法中均用到了GPU。

  5、从互联网企业用户角度出发来看,发表一下您对开源技术的看法。

  在我看来,企业或者业务线在不同阶段应该采取的策略不同。一般来讲早期为了快速搭建系统,应尽可能的采用社区完善的开源方案。当业务规模到一定阶段之后(团队相对成熟起来),经常会遇到性能较差等问题,这时候就应该考虑开源基础上改造或者自研的方式。

  6、您认为未来值得关注的技术有哪些?请谈谈对这些技术的看法。

  首先肯定是深度学习的发展以及在各个领域的应用,例如:CNN和RNN图像识别,NLP应用中所发展出越来越有效的方法和技巧。其次就是无监督学习领域,深度学习现在成功应用的领域基本都有海量的标注样本,例如图像领域有imagenet数百万的标注数据,广告、推荐系统更是有海量样本。而很多领域都是无法获得如此海量标注样本,因此能否利用无监督学习从中学习到有有意义的表示就非常重要。

  7、在产品研发及团队建设方面,您有何经验可以与我们分享?

  在互联网的产品研发方面,网上有很多专家的经验非常值得学习。作为研发同学一定要有产品的思维来优化自己的算法和架构。需要经常去使用自己的负责的产品,把自己完成当成一个用户来体验产品,然后需要根据这些体验的反馈来优化算法。

  团队建设方面,我个人觉得就是尽可能最大化个人与团队目标交集,使得个人和团队都能够快速成长。特别对于一个纯粹的算法团队来讲,更是如此。

收藏 推荐 打印 | 录入:admin | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款