打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
开源推荐 | 用户行为分析、用户画像、智能营销、智能推荐


开源软件推荐系列

这篇文章不科普开源软件,“开源驱动世界”,怎么强调它的重要性都不为过。
90年代末,我自己创办网站的时候,因为网站是软件下载站,所以很注重这方面资料的收集。最基本的软件有收费软件、免费软件和开源软件,免费和开源有很大的区别,这个在IT软件行业应该是人人都知道的。
互联网进入中国之后,由于版权意识、知识产权意识的严重跟不上,再加上人们没有为软件付费的概念、盗版猖獗、破解版软件横行国内互联网,以至于很多人认为互联网上什么都是免费的,到现在都如此。
不过,现状在改,就拿音乐来说,互联网把影视行业差点给搞死。想当年我上大学,听歌曲,不都是去买磁带吗。互联网传播的巨大便利性和维权的不易性,都让不少行业吃亏巨大。现在好了,听歌看电影没那么容易了吧,慢慢地都要花钱了。你说你免费听音乐歌曲、免费看影视、免费看文学作品,原创者都赚不到钱,谁来生产?
开源软件不一样,开源让无数的软件和框架保持了活力。在早期我自己还在做一些小系统的时候,就知道了开源软件、开源社区,国外这个领域发展的脚步远远先于国内,并且道路非常通畅,已经形成了很好的生态。插一句,软件生态是非常重要的,否则苹果公司咋能赚那么多利润呢?
先抛开国外的开软软件不说,介绍一个国内很好的开源社区:开源中国。OSCHINA 成立于2008年8月,是目前国内最大的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。2013年,OSCHINA 建立大型综合性的云开发平台-Gitee,为中国广大开发者提供团队协作、源码托管、代码质量分析、代码评审、测试、代码演示平台等功能。
这个平台目前包括三部分:

先来介绍这个平台提供的一个开源软件:xxanalysis 用户行为分析平台。
大数据技术已经迅速应用于商业并产生价值,通过数据分析来识别用户行为,建立以用户为中心的低成本快速增长,是一个企业必须具备的核心竞争力。随着成本的大幅度增加,企业必须改变过去粗放型的营销和运营方式,特别是在市场营销、产品制造、销售以及未来的客户服务等各个方面向更加科学、高效的方向转变。
小象电商系统上线后,需要收集用户行为数据,通过大数据实时分析实现电商业务数字化运营。基于此强需求开发小象用户行为分析,兼容神策开源的埋点SDK完成终端行为上报,采用 Nginx+Flume+kafka 实现日志收集,采用 Flink 写入 HDFS。
本开源项目内容包括 nginx 环境配置、Flume 解密和日志格式处理、将明文数据存放到 kafka 的 Topic 下、Flink 消费后将埋点数据存入 HDFS 的关键4步操作。为方便前期埋点的校验调优,在 kafka环节,增加了埋点解析数据  JSON 格式存入 MySQL。后续计划增加友盟和其他SDK厂商的埋点处理,以及业务系统日志的采集入库。
项目主要内容:日志采集(Flume+kafka);日志入库(Flink+HDFS)
工作流程:完成数据采集技术构建和业务设计,在 App、小程序的系统供应商配合下完成用户行为数据采集埋点,并基于埋点的数据构建线上用户行为标签和画像。 

架构设计思路:所谓“埋点”,是数据采集领域(尤其是用户行为数据采集领域)的术语,指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。比如用户某个icon点击次数、观看某个视频的时长等等。 

业务设计思路:埋点业务设计,首先需要根据业务分析明确采集的目标行为,进一步搞清楚应该在哪些地方埋什么样的点。过程中建议使用“事件模型( Event 模型)”来描述用户的各种行为,事件模型包括事件( Event )和用户( User )两个核心实体。基于4W1H模型描述用户行为可将整个行为描述清楚,要点包括:是谁、什么时间、什么地点、以什么方式、干了什么。通过这两个实体结合在一起就可以清晰地描述清楚用户行为。 

技术架构:SDK 埋点采集行为数据来源终端包括 iOS、安卓、Web、H5、微信小程序等。不同终端 SDK 采用对应平台和主流语言的 SDK,埋点采集到的数据通过 JSON 数据以 HTTP POST 方式提交到服务端 API。服务端 API由数据接入系统组成,采用 Nginx 来接收通过 API 发送的数据,并且将之写到日志文件上。使用 Nginx 实现高可靠性与高可扩展性。对于 Nginx 打印到文件的日志,会由 Flume 的 Source 模块来实时读取 Nginx 日志,并由 Channel 模块进行数据处理,最终通过 Sink 模块将处理结果发布到 Kafka 中。

软件完整架构:

第三方埋点SDK集成步骤---引入 SDK:在终端应用配置文件添加 SDK 依赖,不同终端引入方式会有差异,具体操作步骤将在后续SDK技术文档中体现。配置上报服务端API地址:用于设置 SDK 上报 API 的服务端地址。开启全埋点:SDK 可以自动采集一些用户行为,如 App 启动、退出、浏览页面、控件点击。初始化 SDK 时,通过 SDK 提供的初始化方法可以配置开启全埋点。

API接入服务设计:不同渠道的埋点数据通过 HTTP API 发送给服务端API实现数据接入。采用Nginx作为WEB容器接收客户端SDK发送的数据,并且将之写到日志文件上。使用 Nginx 主要是考虑到其高并发、高可靠性与高可扩展性。

用户行为采集场景:通过应用场景梳理,实现以场景规划埋点,用场景检验埋点。场景梳理可以抽象为三个层面:

通用基础场景:共性操作统一考虑。

重要操作场景:重要操作整体归因。

业务主流程场景:以业务线定义完整过程。

应用效果:

开源中国整合了非常多的开源软件,是非常多,几乎各行各业都有。在研究这些软件或者框架或者平台的时候,我们会发现它们有很大的区别,有的小软件单机或者只要一个服务器环境就可以实现和运行,有的开源软件就得搭一个很完整的运行环境,部署一个运行稳定的软件环境不是一件容易的事,所以即使一行代码都不会编,也能在IT行业挣得一份高薪。IT行业里面细分起来,数不胜数,很多人一听某个人是学计算机的,就以为和计算机沾边的他都会,这就大错特错了。

如果你懂软件,但又没条件去搭建环境的话,怎么办?推荐开源中国的Gitee平台。Githup也非常好,是国外的,在这里暂不讨论。

IT行业,网上的社区非常重要,特别是开源软件,甚至可以说,没有社区,就没有开源。

下一步考虑一下,整理个开源软件极简史。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
如何实现分析去中心化的客户行为分析平台
如何秒级导查亿级数据
个人总结:性能测试常见问题案例与原因
神策数据算法专家:推荐系统的算法和数据,像极了爱情
使用Beacon API实现高效数据传输和用户行为分析
2013 年开源中国 10 大热门 Java 开源项目
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服