睿帆科技:我们为什么需要大数据科学平台

今年10月,睿帆科技在“安博会”上对外发布了其大数据科学平台Europa。日前,小编针对大家所关心的Europa设计、研发和架构,以及大数据技术演进及应用实践的问题,采访了我司相关人员。


1.webp.jpg


睿帆科技眼中的大数据


在整个信息化的方向上,有三大趋势:云计算、大数据和物联网。在这些趋势中,大数据处于大脑的地位,主要负责把数据进行收集加工转化成信息,甚至转化成知识,最后再通过物联网的技术反馈到现实世界中,不断地产生更多的价值。


大数据最核心的技术跟人工智能紧密相关,包括知识表达、自然语言理解、机器学习,还有相关的图象语音识别、机器人等,都属于这个范围,但是为了实现人工智能,特别是机器学习,要处理相当多的数据需要有一些足够坚实的底层架构来支持。像Hadoop技术的诞生,原因就是在搜索相关的智能应用里,原有的技术不能支撑了,所以说,大数据的发展一定是跟着业务或者跟着智能化的技术发展的


整个大数据的产业主要分成三个方面,第一是底层的基础技术和基础架构。第二是在基础架构上构建各种分析的算法及模型等。第三层是在分析之上更多结合到行业和业务的应用。Europa主要偏向于基础软件的层次,但是包含了很多分析应用方面的工具及一些算法模型。


如今企业对于数据的需求已经不单单需要一个大数据底层和大数据存储的方案,而是想要从数据获取到大数据全链条端到端整体的解决方案。


因此,大数据将一定变的更加实用。具体体现在四个方面:第一,是描述,比如在做一些基础的监控等方面。第二个方面是诊断,发现里面的一些问题,把这些问题找出来。第三是做一些预测,预测未来整个的趋势,是向好还是向坏,如果向坏的话可能问题发生在什么地方。最高级是建议性的分析,不止是发现问题、发现趋势,还要告诉企业和用户应该怎么适应这种变化。


2.webp.jpg


低成本化一直是大数据的一个方向。


一个企业或者一个组织如果想真的应用大数据,必须具备如下条件:


时代:相关的时代必须要到来,即不仅有信息化系统的基础、有很多客户,还要进入到互联网的时代,有较高数据化的程度。如今虽然已经步入互联网时代很长时间,但仍有许多企业未重视数据的建设和作用。


理论:从实际业务到建模,中间有非常大的鸿沟,这个鸿沟包括数据如何采集、如何建模以及如何把业务问题转化成真正的数据问题,这需要具备一定的经验和相关的人来完成这件事。只有业务变换成了数学问题,底层的技术才能实现。比如地震预测,数据界并没有把它完全用理论解释清楚,显然没有任何技术手段可以实现这件事。


技术:理论问题解决完以后,要通过一些基础的技术手段来落地。比如说有一些基础架构,或者软件包的形式来实现。


Europa就是解决理论及技术这两方面问题的产品,其把用户数据化并驱动企业数据化的经营。Europa是处于底层技术层,主要解决数据的采集获取、数据如何分析建模以及数据如何运用到具体的业务上,并为此提供基本的接口。


3.webp.jpg


为什么需要大数据科学平台


睿帆科技的大数据理想是希望未来每一个普通人都具备使用和操作大数据的能力,能够随时利用大数据的能力解决自己的问题。大数据科学平台Europa是睿帆科技经验精华的集成品。用户只要按照这些经验做数据采集、分析和数据接口,就能够直接把应用跟技术对接起来


人类对数据的管理挖掘和需求越来越旺盛,在解决问题的时候,牵扯到的数据量和维度也是不断爆炸、不断增长的,如何更好、更轻松地挖掘和管理数据是如今面临的最大问题。研发大数据科学平台Europa想要解决的,一是数据从容量上横向扩展的问题,二是在面临不同的数据问题时需要使用不同数据技术的问题,包括使用底层的Hadoop、Spark等分布式技术。如今看来Europa已经很好的解决了这些问题,并做到即插即用地管理各种各样的计算框架。


Europa把大数据底层技术标准化,并基于标准化提取出了一系列解决方案和接口,同时基于解决方案和接口建立起了一个完整的、可持续的中间交互层,这个中间交互层的具体落地,使得企业在使用平台时不用关心底下具体的某种技术和某种问题。


在大数据科学平台上通过结构化语言、可拖拽图形交互界面,用户可以自主实现定制基于数据生命周期管理的模板。整个大数据生命周期分为四个阶段,从输入接入整合到加工,最后到消费。用户不用关心数据如何接入进来,如何摆放如何整合,如何挖掘加工,他只需要设计好数据逻辑从消费端拿到他想要的结果即可。


之前很多大数据平台主要以技术包装的形态体现,大多数集中在存储管理、人机交互和数据生命周期管理层面上。睿帆科技自主研发的大数据科学平台Europa明确了大数据科学平台的概念和定义,解决了大数据的技术问题,把各种各样的开源技术打包,并在此基础上注重企业在大数据方面的数据业务管理、整个企业内部全方位资源的管理以及企业组织架构的管理。


通过这样的特点,Europa真正成为了一个企业级的大数据科学平台,而不是简简单单的数据开发工具。企业用户使用Europa不仅仅可以解决技术问题,同时还可以帮助企业级用户提高管理质量及管理效率。


4.webp.jpg


大数据科学平台Europa是怎么做的


大数据科学平台Europa按照可视化、智能化、系统化、协同化的理念设计,包括计算框架、资源管理、数据管理三个层面。


Europa内精挑细选了一组开源组件并将它们有机整合在一起,使得Europa可以同时支持高速流式处理和海量数据批量处理,真正做到PB级数据的实时分析挖掘和实时应用。同时,Europa 支持40多种数据源的接口,保证企业业务系统能极其简单地与Europa集成。


大数据科学平台逻辑架构


Europa底层集成了Storm、Spark和Hadoop等计算框架,以及HDFS、Hbase、 MySQL和MongoDB等多种数据存储命令,Europa支持将这些组件整合起来,形成特有的处理流程。


Europa的流程和模型设计能够充分发挥这些开源组件的优点,让数据处理真正加速再加速,在实际应用中,不同的场景尽管支持不同的上层应用,但使用Europa即可轻松完成。


Europa 的数据处理框架


在资源管理层,Europa则通过统一的资源管理机制,为企业提供了大数据的存储和计算资源。


Europa涵盖了采集、清洗、整合、分析挖掘和应用五个方面,支持标准的数据仓库建模流程,以及多种机器学习算法和商业模型。


Europa支持的商业模型


据介绍,Europa可以实现任意一种异构系统的协同工作。例如某个业务,需要用几百个Oracle、MySQL及七八个Hadoop、Spark集群,共同协作按照一定的规则才能完成一件事儿。


对于以上场景来说,想要达成业务必须要贯穿不同的Oracle集群、Spark集群或者Hadoop集群。在这些集群上写一些逻辑相对简单,但要真正地把它们串起来,协调一致地运作解决问题的时候,如果没有Europa,就需要花很大的精力写很多程序,而Europa只需要很轻松的画张流程图即可。


睿帆科技认为,对于数据建模、数据分析人员来说,他们需要利用一些数据分析的工具,但是他们没有心思或者时间去搭载多元异构数据操作的一些组件,而Europa的这个特点,可以完美解决这个问题。


5.webp.jpg


Europa未来展望


睿帆科技希望未来通过Europa这种标准化的产品,能够更好地让有价值的数据输出它的价值。例如,企业用户常用的20到30个大数据技术,可以通过Europa管理和配置,使得大数据应用轻松落地。