谈谈对大数据平台的整体架构的理解
摘要:什么是大数据平台? 它是Internet产品与后台大数据系统的集成,由应用程序系统生成的数据被导入到大数据平台中,经过计算后被导出到应用程序系统中。
为什么大数据平台在互联网行业中很重要? 大数据平台集成了Internet应用程序和大数据产品,连接实时数据和脱机数据,使数据能够实现更大范围的关联计算,并挖掘出更大的数据价值来实现数据驱动的业务。 大数据平台使大数据技术产品能够在地面上应用并实现其自身价值。
通常,大数据平台可分为四个部分:数据收集,数据处理,数据输出和任务调度管理。
数据采集
根据数据源,它可以分为以下四个点:
数据库数据
当前,更常用的数据库导入工具是Sqoop和Canal。
Sqoop是数据库批处理导入和导出工具,可以将关系数据库数据批量导入到Hadoop,也可以将Hadoop数据导出到关系数据库。
Sqoop适用于批量导入关系数据库数据。 如果要实时导入关系数据库数据,则可以选择Canal。 Canal是阿里巴巴开源MySQL binlog采集工具。 Binlog是一个MySQL事务日志,可用于MySQL数据库主从复制。 运河伪装成MySQL从属库,并从MySQL获取binlog。
记录数据
日志是大数据平台的重要数据源之一。 一方面,应用程序日志记录了各种程序的执行状态,另一方面记录了用户的操作轨迹。 Flume是大数据日志收集的常用工具。 Flume最初是由Cloudera开发的,后来捐赠给Apache基金会作为一个开源项目进行运作。
3,前端程序埋点
所谓的前端掩埋点是指用于收集数据以进行数据统计和分析的应用程序前端。
用户的某些前端行为不会生成后端请求,例如用户页面时间,用户浏览速度,用户单击和取消等等。 此信息对于分析用户行为等很有用。 但是,这些数据必须通过前端掩埋点获得。 一些互联网公司将前端掩埋点数据视为大数据的主要来源。 用户的所有前端行为都收集在掩埋点中,然后与其他数据源结合起来以构建自己的数据仓库以进行数据分析和挖掘。
对于Internet应用程序,当我们指的是前端时,我们可以指的是以下类别:
应用程序,例如iOS应用程序或Android应用程序,已安装在用户的手机或平板电脑上;
PC Web前端,可通过PC浏览器打开;
H5前端,通过移动设备浏览器打开;
微信小程序,在微信中打开。
这些不同的前端是使用不同的开发语言开发的,并在不同的设备上运行。 每种类型的前端都需要解决自己的隐患。
掩埋点主要包括手动掩埋点,自动掩埋点和视觉掩埋点。
手动掩埋点是前端开发人员手动编程并将收集的前端数据发送到后端数据获取系统。 通常,公司会开发一些用于前端数据报告的SDK。 前端工程师在需要掩埋点的地方调用SDK,并传递相关的参数,例如ID,名称,页面,控件和其他常见参数,以及业务逻辑数据。 SDK会通过HTTP将这些数据发送到后端服务器。
自动掩埋点是通过前端程序SDK开发的,该程序会自动收集所有用户操作事件并将其完整地上载到后端服务器。 自动掩埋点有时称为无掩埋点,这意味着不需要掩埋点,实际上,它们都是掩埋点,也就是说,所有用户操作都在掩埋点处收集。 自动化掩埋场的好处是开发工作量少且数据规范统一。 缺点是收集的数据量很大,并且在不知道有用的情况下收集了许多数据。 这浪费了计算资源,特别是对于对流量敏感的移动用户。 由于自动收集掩埋点会花费大量流量,因此,这成为卸载应用程序的原因,这是值得的损失。 在实践中,有时仅为某些用户创建自动掩埋点,并对某些数据进行抽样以进行统计分析。
在手动掩埋点和自动掩埋点之间,另一种解决方案是可视化掩埋点。 直观地配置哪些前端操作需要掩埋点,并根据该配置收集数据。 视觉掩埋点实际上是可以手动干预的自动掩埋点。
4.爬行动物系统
通过网络搜寻器获取外部数据,以获取行业数据支持和管理决策。 由于涉及敏感内容,因此无法进一步扩展。
数据处理
大数据平台的核心分为两类:离线计算和实时计算。
1.离线计算
MapReduce,Hive,Spark等的计算处理
2.实时计算
它可以通过流式传输大数据引擎(例如Storm和SparkSteaming)来完成,这些引擎可以在几秒钟甚至几毫秒内完成计算。
数据输出
大数据处理和计算生成的数据被写入HDFS,但应用程序未将数据读取到HDFS,因此必须将HDFS中的数据导出到数据库。 除了向用户提供数据外,大数据平台还需要向某些后端系统中的操作和决策层提供各种统计数据。 这些数据也被写入数据库,并由相应的后端系统访问。
四,任务调度管理
有效地集成和操作以上三个部分的是任务计划管理系统。 其主要功能是:
合理安排各种MapReduce和Spark任务,以最合理地利用资源
尽快执行临时的重要任务
作业提交,进度跟踪,数据查看等
简单的大数据平台任务调度管理系统实际上是一个类似于Crontab的调度任务系统,该系统在预设时间启动不同的大数据作业脚本。 复杂的大数据平台任务调度还需要考虑不同作业之间的依赖关系。 开源大数据调度系统是Oozie,也可以在此基础上进行扩展。
上一篇:windows7、window10全套一键激活工具经典版
下一篇:系统重装专家简体中文版(Win7/WinVista/WinXP/Win8兼容软件)
人机验证(Captcha)绕过方法:使用Chrome开发者工具在目标网站登录页面上执行简单的元素编辑,以实现Captcha绕过
牛创网络: " 人机身份验证(Captcha)通常显示在网站的注册,登录名和密码重置页面上。 以下是目标网站在登录页面中排列的验证码机制。 从上图可以
2020-01-26 12:44:09 )8872( 亮了
自动发现IDOR(越权)漏洞的方法:使用BurpSuite中的Autozie和Autorepeater插件来检测和识别IDOR漏洞,而无需手动更改每个请求的参数
牛创网络: "自动发现IDOR(越权)漏洞的方法:使用BurpSuite中的Autozie和Autorepeater插件来检测和识别IDOR漏洞,而无需手动更改每个请求的参数
2020-01-30 14:04:47 )6288( 亮了
Grafana CVE-2020-13379漏洞分析:重定向和URL参数注入漏洞的综合利用可以在任何Grafana产品实例中实现未经授权的服务器端请求伪造攻击SSRF
牛创网络: "在Grafana产品实例中,综合利用重定向和URL参数注入漏洞可以实现未经授权的服务器端请求伪造攻击(SSRF)。该漏洞影响Grafana 3 0 1至7 0 1版本。
2020-08-12 14:26:44 )4301( 亮了
Nginx反向代理配置及反向代理泛目录,目录,全站方法
牛创网络: "使用nginx代理dan(sui)是http响应消息写入服务地址或Web绝对路径的情况。 写一个死的服务地址是很少见的,但它偶尔也会发生。 最棘手的是写入web绝对路径,特别是如果绝对路径没有公共前缀
2019-06-17 10:08:58 )3858( 亮了
fortify sca自定义代码安全扫描工具扫描规则(源代码编写、规则定义和扫描结果展示)
牛创网络: "一般安全问题(例如代码注入漏洞),当前fortify sca规则具有很多误报,可通过规则优化来减少误报。自带的扫描规则不能检测到这些问题。 需要自定义扫描规则,合规性角度展示安全风险。
2020-02-12 10:49:07 )3505( 亮了
整理几款2020年流行的漏洞扫描工具
牛创网络: "漏洞扫描器就是确保可以及时准确地检测信息平台基础架构的安全性,确保业务的平稳发展,业务的高效快速发展以及公司,企业和国家 地区的所有信息资产的维护安全。
2020-08-05 14:36:26 )2536( 亮了
微擎安装使用技巧-微擎安装的时候页面显示空白是怎么回事?
牛创网络: "我们在公众号开发中,有时候会用到微擎,那我们来看一下微擎安装的时候页面显示空白是怎么回事吧
2019-06-08 15:34:16 )2261( 亮了
渗透测试:利用前端断点拦截和JS脚本替换对前端加密数据的修改
牛创网络: " 本文介绍的两种方法,虽然断点调试比JS脚本代码替换更容易,但是JS脚本代码替换方法可以实现更强大的功能,测试人员可以根据实际需要选择适当的测试方法
2020-01-07 09:34:42 )1995( 亮了
从工业界到学界盘点SAS与R优缺点比较
牛创网络: "虽然它在业界仍然由SAS主导,但R在学术界广泛使用,因为它的免费开源属性允许用户编写和共享他们自己的应用程序 然而,由于缺乏SAS经验,许多获得数据分析学位的学生很难找到工作。
2019-07-13 22:25:29 )1842( 亮了
41款APP侵犯用户隐私权:QQ,小米,搜狐,新浪,人人均被通报
牛创网络: "随着互联网的不断发展,我们进入了一个时代,每个人都离不开手机。 但是,APP越来越侵犯了用户隐私权。12月19日,工业和信息化部发布了《关于侵犯用户权益的APP(第一批)》的通知。
2019-12-20 11:28:14 )1775( 亮了