打造人工智能与大数据链路桥梁实现大规模的智

  大数据时代的到来对于人类文化而言是一场如期而至的革命,也是未来全球经济发展的新动能,特别是在我国高度重视大数据发展的情况下,加速推进数字产业化和产业数字化,以大数据作为生产要素的基础性、战略性资源作用愈发凸显。TalkingData以数字经济的高速发展为契机,通过科技赋能,不但构建了完整的大数据生态系统,而且还推出大数据平台等细分产品,以组合创新的方式,用实力证明了自己对大数据创新的追求。

  当前,深度学习仍然十分依赖大数据量,随着互联网和终端设备的快速发展,产生的数据不仅量大而且变化飞快。那么,如何快速将最新的数据输入、处理并生成更为精准的算法模型?如何把大数据链路和AI技术打通,实现大规模的智能模型训练和部署?这是摆在许多大数据计算平台面前的一个难题。近期,笔者与TalkingData首席架构师黄洋成、TalkingData研发副总裁阎志涛就相关技术问题进行了深入沟通。

  黄洋成认为,AI可以看作大数据的一种处理方法,但是又有本身的特性。目前,从狭义角度上来说,AI的技术模式和以前传统数据处理的模式存在一些差异,特别体现在计算密集性方面。与一些传统的大数据应用相比,AI应用无论是在做报表还是发现洞察等方面都有所不同。

  在数据方面,AI的计算方式从流程上看,通常会分成训练和生产上线两个阶段。以前企业可能依靠传统的大数据来支持其它流程,而使得开发过程相对轻量,但在生产过程中将消耗更多的资源。而从狭义的AI来看,其开发过程难度会比较大,涉及到需要探索各种各样不同的工程,同时也需要尝试各类建模方法和模型参数调整;应用上线后,总体来说其运行更类似于传统大数据应用模式。

  其次是对底层计算资源的需求也不一样。不只在图像和语音识别场景,目前在一些传统的如推荐广告、营销优化等场景下,也逐步利用深度学习这类技术来增强传统机器学习的方法。深度学习目前更依赖于GPU这样新的计算资源,特别是在训练阶段。在生产阶段,往往也是应用GPU或者FPGA这样新型的计算硬件资源进行支撑。而传统大数据的计算资源一般以CPU为主,这也就导致对于整个计算资源的管理、分配上会产生差异。

  对于上述情况,大多数企业更仍处于尝试阶段。一方面引入容器、Docker、Kubernetes等技术,通过容器来分配资源,实现资源的调度和优化。如Kubernetes可以根据底层的每一个容器或者每一个计算任务,将底层的计算资源需求动态分配到合适的计算资源或者机器节点上。

  TalkingData认为,无论是大数据还是AI,两个链路其实都是相对完整的,从业务的角度来看都是为了解决类似的问题。但从技术的角度来说,和传统的大数据分析相比,AI增加了训练模型、模型版本控制的任务,也增加了数据科学家的介入。从流程上来看有不同之处,甚至有一些冲突,但从最终的产出角度来看,无论是数据分析,还是自动化运营和可视化报告,仍然是要通过大规模的部署来解决业务问题,最后要评估商业价值的结果。

  阎志涛提到, 另一方面是人才,无论是在TalkingData还是传统企业,AI都是数据科学家团队大显身手的舞台。在这当中虽然会用到像Python这样的知识,但更多是数据科学家的技术能力和思维方式。对于大数据项目来说,往往是以工程落地为主,在大数据链路和AI链路通常是相互合作的关系。

  随着技术和平台的不断演进,TalkingData也逐渐在AI方面的技术平台建设上发力,包括为数据科学家提供底层技术支持,比如让他们在部署时无需操心是用10个节点、20个节点还是100个节点。最终达到让数据科学和大数据之间在技能方面的距离越来越小。