阿里开源通用算法平台Alink!
摘要:最近,阿里云计算部门已在GitHub上发布了其Alink平台的“核心代码”,并上传了一系列支持批处理和流处理的算法库,这对于支持机器学习任务至关重要。Alink是基于Flink的通用算法平台。
Alink是基于Flink的通用算法平台,由阿里巴巴计算平台的PAI团队开发。 除了支持阿里自己的平台,它还支持一系列开源数据存储平台,例如Kafka,HDFS和HBase。
阿里云计算和机器智能公司表示,开发人员和数据分析师可以使用开源代码来构建软件功能,例如统计分析,机器学习,实时预测,个性化推荐和异常检测。 Alink提供了一系列算法,可帮助完成机器学习任务,例如AI驱动的客户服务和产品推荐。
阿里巴巴集团副总裁,阿里云智能计算平台事业部总裁贾阳清和高级研究员指出,对于寻求大数据和机器学习工具的开发人员而言,Alink将是一个新的选择。
他认为,由于中国企业是GitHub上十大贡献者之一,因此Ali致力于在软件开发周期中与开源社区建立早期联系。 GitHub上的开源Alink遵循了这一承诺。
阿里巴巴已将Alink部署到其电子商务平台天猫。 在今年的“双十一”期间,单日数据处理量达到970PB,每秒处理的峰值数据高达25亿条。 Alink帮助天猫产品推荐点击率提高了4%。
迄今为止,在过去八年中,阿里巴巴开发人员已为整个开源社区贡献了180多个项目,包括云基础架构,机器学习,数据库和网络。 阿里巴巴的开源计划包括基于MySQL的AliSQL,容器工具Pouch和JStorm(基于Java的Apache Storm版本)。
有关使用Alink的问题
问:我可以连接到远程Flink群集进行计算吗?
答:您可以连接到已通过以下方法启动的Flink群集:useRemoteEnv(主机,端口,并行性,flinkHome = None,localIp =“ localhost”,shipAlinkAlgoJar = True,config = None)。 其中,参数:
host和port代表集群的地址;
并行度表示执行作业时的并行度;
flinkHome是flink的完整路径。 默认情况下,使用PyAlink随附的flink-1.9.0路径。
localIp指定实现Flink DataStream的打印预览功能所需的本地IP地址,Flink群集需要访问该本地IP地址。 默认值为localhost。
shipAlinkAlgoJar是否将PyAlink提供的Alink算法包传输到远程集群。 如果将Alink算法包放置在远程群集中,则可以在此处将其设置为False以减少数据传输。
问:如何停止长时间运行的Flink作业?
答:使用本地执行环境时,只需使用Notebook提供的“停止”按钮。 使用远程集群时,需要使用集群提供的作业停止功能。
问:我可以直接使用Python脚本而不是Notebook运行它吗?
答:可以。 但是您需要在代码末尾调用resetEnv(),否则脚本不会退出
使用步骤
使用前准备
确保您的环境中装有Python3,版本> = 3.5;
需要根据Python版本下载相应的pyalink软件包(下载链接请参见GitHub);
使用easy_install easy_install [存储路径] /pyalink-0.0.1-py3安装。 *。 蛋。 必须知道的是:
如果您以前安装过pyalink,请先使用pip uninstall pyalink卸载以前的版本。
如果您有多个版本的Python,则可能需要使用easy_install的特定版本,例如easy_install-3.7。
如果使用Anaconda,则需要从Anaconda命令行安装它。
开始使用
阿里建议通过Jupyter Notebook使用PyAlink,以获得更好的体验。
使用步骤
1.从以下命令行启动Jupyter:jupyter笔记本,然后创建一个新的Python 3笔记本。
2.导入pyalink包:从pyalink.alink import *。
3.使用该方法创建本地运行时环境:useLocalEnv(并行性,flinkHome = None,config = None)。 其中,参数Parallism指示用于执行的并行度; flinkHome是flink的完整路径,并使用PyAlink的默认flink-1.9.0路径; config是Flink接受的配置参数。 运行后,将显示以下输出,表明正在运行的环境初始化成功:
4. 开始编写PyAlink代码,例如:
写代码
在PyAlink中,算法组件提供的接口基本上与Java API一致,即通过默认构造方法创建算法组件,然后通过setXXX设置参数,并通过link / linkTo /连接其他组件。 linkFrom Here,可以使用Jupyter的自动完成机制来提供书写便利。
对于批处理作业,可以通过诸如批处理组件的print / collectToDataframe / collectToDataframes或BatchOperator.execute()之类的方法触发执行。 对于流作业,请使用StreamOperator.execute()启动该作业。
如何在群集上运行Alink算法?
1. 准备Flink集群
2. 准备Alink算法包
3. 运行Java示例
上一篇:谁是当今最好的技术? SQL,Java,Python,C++都在清单上!
下一篇:关于2020年的最新攻击手段总结
人机验证(Captcha)绕过方法:使用Chrome开发者工具在目标网站登录页面上执行简单的元素编辑,以实现Captcha绕过
牛创网络: " 人机身份验证(Captcha)通常显示在网站的注册,登录名和密码重置页面上。 以下是目标网站在登录页面中排列的验证码机制。 从上图可以
2020-01-26 12:44:09 )8872( 亮了
自动发现IDOR(越权)漏洞的方法:使用BurpSuite中的Autozie和Autorepeater插件来检测和识别IDOR漏洞,而无需手动更改每个请求的参数
牛创网络: "自动发现IDOR(越权)漏洞的方法:使用BurpSuite中的Autozie和Autorepeater插件来检测和识别IDOR漏洞,而无需手动更改每个请求的参数
2020-01-30 14:04:47 )6288( 亮了
Grafana CVE-2020-13379漏洞分析:重定向和URL参数注入漏洞的综合利用可以在任何Grafana产品实例中实现未经授权的服务器端请求伪造攻击SSRF
牛创网络: "在Grafana产品实例中,综合利用重定向和URL参数注入漏洞可以实现未经授权的服务器端请求伪造攻击(SSRF)。该漏洞影响Grafana 3 0 1至7 0 1版本。
2020-08-12 14:26:44 )4301( 亮了
Nginx反向代理配置及反向代理泛目录,目录,全站方法
牛创网络: "使用nginx代理dan(sui)是http响应消息写入服务地址或Web绝对路径的情况。 写一个死的服务地址是很少见的,但它偶尔也会发生。 最棘手的是写入web绝对路径,特别是如果绝对路径没有公共前缀
2019-06-17 10:08:58 )3858( 亮了
fortify sca自定义代码安全扫描工具扫描规则(源代码编写、规则定义和扫描结果展示)
牛创网络: "一般安全问题(例如代码注入漏洞),当前fortify sca规则具有很多误报,可通过规则优化来减少误报。自带的扫描规则不能检测到这些问题。 需要自定义扫描规则,合规性角度展示安全风险。
2020-02-12 10:49:07 )3505( 亮了
整理几款2020年流行的漏洞扫描工具
牛创网络: "漏洞扫描器就是确保可以及时准确地检测信息平台基础架构的安全性,确保业务的平稳发展,业务的高效快速发展以及公司,企业和国家 地区的所有信息资产的维护安全。
2020-08-05 14:36:26 )2536( 亮了
微擎安装使用技巧-微擎安装的时候页面显示空白是怎么回事?
牛创网络: "我们在公众号开发中,有时候会用到微擎,那我们来看一下微擎安装的时候页面显示空白是怎么回事吧
2019-06-08 15:34:16 )2261( 亮了
渗透测试:利用前端断点拦截和JS脚本替换对前端加密数据的修改
牛创网络: " 本文介绍的两种方法,虽然断点调试比JS脚本代码替换更容易,但是JS脚本代码替换方法可以实现更强大的功能,测试人员可以根据实际需要选择适当的测试方法
2020-01-07 09:34:42 )1995( 亮了
从工业界到学界盘点SAS与R优缺点比较
牛创网络: "虽然它在业界仍然由SAS主导,但R在学术界广泛使用,因为它的免费开源属性允许用户编写和共享他们自己的应用程序 然而,由于缺乏SAS经验,许多获得数据分析学位的学生很难找到工作。
2019-07-13 22:25:29 )1842( 亮了
41款APP侵犯用户隐私权:QQ,小米,搜狐,新浪,人人均被通报
牛创网络: "随着互联网的不断发展,我们进入了一个时代,每个人都离不开手机。 但是,APP越来越侵犯了用户隐私权。12月19日,工业和信息化部发布了《关于侵犯用户权益的APP(第一批)》的通知。
2019-12-20 11:28:14 )1775( 亮了