网站统计中的数据收集原理

点赞:28081 浏览:130492 近期更新时间:2024-01-17 作者:网友分享原创网站原创

摘 要:网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于jascript的.本文将简要分析这种数据收集的原理.

网站统计中的数据收集原理参考属性评定
有关论文范文主题研究: 关于统计分析的论文范文集 大学生适用: 研究生论文、专升本毕业论文
相关参考文献下载数量: 69 写作解决问题: 毕业论文怎么写
毕业论文开题报告: 文献综述、论文结论 职称论文适用: 核心期刊、职称评副高
所属大学生专业类别: 毕业论文怎么写 论文题目推荐度: 优秀选题

关 键 词 :网站统计,数据收集,脚本执行,

文章编号:1674-3520(2014)-11-00-01

一、数据收集原理分析

简单来说,网站统计分析工具需要收集到用户浏览目标网站的行为(如打开某网页、点击某按钮、将商品加入购物车等)及行为附加数据(如某下单行为产生的订单金额等).早期的网站统计往往只收集一种用户行为:页面的打开.而后用户在页面中的行为均无法收集.这种收集策略能满足基本的流量分析、来源分析、内容分析及访客属性等常用分析视角,但是,随着ajax技术的广泛使用及电子商务网站对于电子商务目标的统计分析的需求越来越强烈,这种传统的收集策略已经显得力不能及.后来,Google在其产品谷歌分析中创新性的引入了可写作的数据收集脚本,用户通过谷歌分析定义好的可扩展接口,只需编写少量的jascript代码就可以实现自定义事件和自定义指标的跟踪和分析.

二、流程概览

首先通过一幅图总体看一下数据收集的基本流程.

图1. 网站统计数据收集基本流程

首先,用户的行为会触发浏览器对被统计页面的一个http请求,这里姑且先认为行为就是打开网页.当网页被打开,页面中的埋点jascript 片段会被执行,用过相关工具的朋友应该知道,一般网站统计工具都会要求用户在网页中加入一小段jascript代码,这个代码片段一般会动态创建一个 script标签,并将src指向一个单独的js文件,此时这个单独的js文件(图1中绿色节点)会被浏览器请求到并执行,这个js往往就是真正的数据收 集脚本.数据收集完成后,js会请求一个后端的数据收集脚本(图1中的backend),这个脚本一般是一个伪装成图片的动态脚本程序,可能由php、 python或其它怎么写作端语言编写,js会将收集到的数据通过http参数的方式传递给后端脚本,后端脚本解析参数并按固定格式记录到访问日志,同时可能 会在http响应中给客户端种植一些用于追踪的cookie.上面是一个数据收集的大概流程,下面以谷歌分析为例,对每一个阶段进行一个相对详细的分析.


三、埋点脚本执行阶段

若要使用谷歌分析(以下简称GA),需要在页面中插入一段它提供的jascript片段,这个片段往往被称为埋点代码.下面是谷歌分析埋点代码截图:

图2. 谷歌分析埋点代码

其中_gaq是GA的的全局数组,用于放置各种配置,其中每一条配置的格式为:

1、_gaq.push(['Action', 'param1', 'param2', ...]),

Action指定配置动作,后面是相关的参数列表.GA给的默认埋点代码会给出两条预置配置,_setAccount用于设置网站标识ID,这个标识ID是在注册GA时分配的._trackPageview告诉GA跟踪一次页面访问.更多配置请参考:https://developers.google./analytics/devguides/collection/gajs/.实际上,这个_gaq是被当做一个FIFO队列来用的,配置代码不必出现在埋点代码之前,具体请参考上述链接的说明.这段代码的主要目的就是引入一个外部的js文件 (ga.js),方式是通过document.createElement方法创建一个script并根据协议(http或https)将src指向对应 的ga.js,最后将这个element插入页面的dom树上.

四、数据收集脚本执行阶段

数据收集脚本(ga.js)被请求后会被执行,这个脚本一般要做如下几件事:

1、通过浏览器内置jascript对象收集信息,如页面title(通过document.title)、referrer(上一跳url, 通过document.referrer)、用户显示器分辨率(通过windows.screen)、cookie信息(通过 document.cookie)等等一些信息.

2、解析_gaq收集配置信息.这里面可能会包括用户自定义的事件跟踪、业务数据(如电子商务网站的商品编号等)等.

3.将上面两步收集的数据按预定义格式解析并拼接.

4.请求一个后端脚本,将信息放在http request参数中携带给后端脚本.

五、后端脚本执行阶段

GA的__utm.gif是一个伪装成gif的脚本.这种后端脚本一般要完成以下几件事情:

1.解析http请求参数的到信息.

2.从怎么写作器(WebServer)中获取一些客户端无法获取的信息,如访客ip等.

3.将信息按格式写入log.

4.生成一副1×1的空gif图片作为响应内容并将响应头的Content-type设为image/gif.

5.在响应头中通过Set-cookie设置一些需要的cookie信息.

之所以要设置cookie是因为如果要跟踪唯一访客,通常做法是如果在请求时发现客户端没有指定的跟踪cookie,则根据规则生成一个全局唯一的 cookie并种植给用户,否则Set-cookie中放置获取到的跟踪cookie以保持同一用户cookie不变.这种做法虽然不是完美的(例如用户清掉cookie或更换浏览器会被认为是两个用户),但是是目前被广泛使用的手段.注意,如果没有跨站跟踪同一用 户的需求,可以通过js将cookie种植在被统计站点的域下(GA是这么做的),如果要全网统一定位,则通过后端脚本种植在怎么写作端域下.