网站建设、公众号开发、微网站、微商城、小程序就找牛创网络 !

7*24小时服务专线: 152-150-65-006 023-68263070 扫描二维码加我微信 在线QQ

系统工具团结互助,让我们共同进步!

当前位置:主页 > 技术资讯 > 工具 > 系统工具 >

我们的优势: 10年相关行业经验,专业设计师量身定制 设计师一对一服务模式,上百家客户案例! 企业保证,正规流程,正规合作 7*24小时在线服务,售后无忧

谈谈对大数据平台的整体架构的理解

文章来源:牛创网络 发布时间:2019-12-12 09:18:33 围观次数:
分享到:

摘要:什么是大数据平台? 它是Internet产品与后台大数据系统的集成,由应用程序系统生成的数据被导入到大数据平台中,经过计算后被导出到应用程序系统中。

为什么大数据平台在互联网行业中很重要? 大数据平台集成了Internet应用程序和大数据产品,连接实时数据和脱机数据,使数据能够实现更大范围的关联计算,并挖掘出更大的数据价值来实现数据驱动的业务。 大数据平台使大数据技术产品能够在地面上应用并实现其自身价值。


  通常,大数据平台可分为四个部分:数据收集,数据处理,数据输出和任务调度管理。

数据采集


  根据数据源,它可以分为以下四个点:


  数据库数据


  当前,更常用的数据库导入工具是Sqoop和Canal。


  Sqoop是数据库批处理导入和导出工具,可以将关系数据库数据批量导入到Hadoop,也可以将Hadoop数据导出到关系数据库。


  Sqoop适用于批量导入关系数据库数据。 如果要实时导入关系数据库数据,则可以选择Canal。  Canal是阿里巴巴开源MySQL binlog采集工具。  Binlog是一个MySQL事务日志,可用于MySQL数据库主从复制。 运河伪装成MySQL从属库,并从MySQL获取binlog。


  记录数据


  日志是大数据平台的重要数据源之一。 一方面,应用程序日志记录了各种程序的执行状态,另一方面记录了用户的操作轨迹。  Flume是大数据日志收集的常用工具。  Flume最初是由Cloudera开发的,后来捐赠给Apache基金会作为一个开源项目进行运作。


  3,前端程序埋点


  所谓的前端掩埋点是指用于收集数据以进行数据统计和分析的应用程序前端。


  用户的某些前端行为不会生成后端请求,例如用户页面时间,用户浏览速度,用户单击和取消等等。 此信息对于分析用户行为等很有用。 但是,这些数据必须通过前端掩埋点获得。 一些互联网公司将前端掩埋点数据视为大数据的主要来源。 用户的所有前端行为都收集在掩埋点中,然后与其他数据源结合起来以构建自己的数据仓库以进行数据分析和挖掘。


  对于Internet应用程序,当我们指的是前端时,我们可以指的是以下类别:


  应用程序,例如iOS应用程序或Android应用程序,已安装在用户的手机或平板电脑上;


  PC Web前端,可通过PC浏览器打开;


  H5前端,通过移动设备浏览器打开;


  微信小程序,在微信中打开。

  这些不同的前端是使用不同的开发语言开发的,并在不同的设备上运行。 每种类型的前端都需要解决自己的隐患。


  掩埋点主要包括手动掩埋点,自动掩埋点和视觉掩埋点。


 手动掩埋点是前端开发人员手动编程并将收集的前端数据发送到后端数据获取系统。 通常,公司会开发一些用于前端数据报告的SDK。 前端工程师在需要掩埋点的地方调用SDK,并传递相关的参数,例如ID,名称,页面,控件和其他常见参数,以及业务逻辑数据。  SDK会通过HTTP将这些数据发送到后端服务器。

自动掩埋点是通过前端程序SDK开发的,该程序会自动收集所有用户操作事件并将其完整地上载到后端服务器。 自动掩埋点有时称为无掩埋点,这意味着不需要掩埋点,实际上,它们都是掩埋点,也就是说,所有用户操作都在掩埋点处收集。 自动化掩埋场的好处是开发工作量少且数据规范统一。 缺点是收集的数据量很大,并且在不知道有用的情况下收集了许多数据。 这浪费了计算资源,特别是对于对流量敏感的移动用户。 由于自动收集掩埋点会花费大量流量,因此,这成为卸载应用程序的原因,这是值得的损失。 在实践中,有时仅为某些用户创建自动掩埋点,并对某些数据进行抽样以进行统计分析。


  在手动掩埋点和自动掩埋点之间,另一种解决方案是可视化掩埋点。 直观地配置哪些前端操作需要掩埋点,并根据该配置收集数据。 视觉掩埋点实际上是可以手动干预的自动掩埋点。


  4.爬行动物系统


  通过网络搜寻器获取外部数据,以获取行业数据支持和管理决策。 由于涉及敏感内容,因此无法进一步扩展。


  数据处理


  大数据平台的核心分为两类:离线计算和实时计算。


  1.离线计算


  MapReduce,Hive,Spark等的计算处理


  2.实时计算


  它可以通过流式传输大数据引擎(例如Storm和SparkSteaming)来完成,这些引擎可以在几秒钟甚至几毫秒内完成计算。


  数据输出

大数据处理和计算生成的数据被写入HDFS,但应用程序未将数据读取到HDFS,因此必须将HDFS中的数据导出到数据库。 除了向用户提供数据外,大数据平台还需要向某些后端系统中的操作和决策层提供各种统计数据。 这些数据也被写入数据库,并由相应的后端系统访问。


  四,任务调度管理


  有效地集成和操作以上三个部分的是任务计划管理系统。 其主要功能是:


  合理安排各种MapReduce和Spark任务,以最合理地利用资源


  尽快执行临时的重要任务


  作业提交,进度跟踪,数据查看等

  简单的大数据平台任务调度管理系统实际上是一个类似于Crontab的调度任务系统,该系统在预设时间启动不同的大数据作业脚本。 复杂的大数据平台任务调度还需要考虑不同作业之间的依赖关系。 开源大数据调度系统是Oozie,也可以在此基础上进行扩展。


本文由 牛创网络 整理发布,转载请保留出处,内容部分来自于互联网,如有侵权请联系我们删除。

相关热词搜索:大数据平台 大数据平台整体架构

上一篇:windows7、window10全套一键激活工具经典版
下一篇:系统重装专家简体中文版(Win7/WinVista/WinXP/Win8兼容软件)

热门资讯

鼠标向下滚动