网站分析 (Web Analytics) 是种网站访客行为的研究。于商务应用背景来说,网站分析特别指的是来自某网站蒐集来的资料之使用,以决定网站布局是否符合商业目标;例如,哪个登陆页面比较容易刺激顾客购买欲。
这些蒐集来的资料几乎总是包括网站流量报告,也可能包括电子邮件回应率、直接邮件活动资料、销售与客户资料、使用者效能资料如点击热点地图、或者其他自订需求资讯。这些资料通常与关键绩效指标比较以得效能资讯,并且可用来改善网站或者行销活动里观众的反映情况。
目前市面上有许多不同的行销商皆提供网站分析软件以及服务。
网站分析技术
目前有两种主要收集网站分析资料的技术手段。第一种方法,即所谓''日志档分析──意即读入服务器纪录其所有交易的日志档进行处理。第二种方法,加网页标签──利用插入Javascript于每一页来告知第三方的服务器某页被网页浏览器所读取。
网站服务器日志档分析
市面上各家网页服务器自发展初随时都会纪录其所有的交易于一个日志档里头。这种特性不久就被网管意识到可以透过软件读取它,以提供网页流行度的相关资料;从而造成网站日志分析软件的兴起。
90年代早期,网站统计资料仅是简单的客户端对网站服务器请求 (或者访问) 的记数值。一开始这是挺合理的方法,因为每个网站通常只有单一个 HTML 档案。然而,随着图形进入 HTML 标准,以及网站扩增至多重 HTML 档案,这种记数变得没什么帮助。最早真正的商用日志分析器于1994年由 IPRO 发行[1]。
90年代中期,两种计量单位被引入以更准确的估计人类于网站服务器上的活动总数。它们是网页点阅数(Page Views) 以及访问量 (Visits,或者节区(Session))。一次的网页点阅数定义为客户端对服务器提出某单一网页读取请求,恰好为对某一图形请求的相反;而一次的访问量则定义为来自于某一唯一已识别的客户端对服务器一连串请求直到闲置一段时间──通常为30分钟──为止。网页点阅数与访问量仍旧在报告上十分常见,不过现今它们被当作是过于简单的量度。
90年代末期,随着网络蜘蛛与机器人问世,伴随着大型企业以及因特网服务提供商使用代理服务器与动态指定IP位址,鉴别某网站单一访客变得更困难。对此,日志分析器以指定Cookie作为追踪访问量的对策,并忽略已知的蜘蛛机器人的读取请求。
网页快取的广泛使用也造成日志分析上的问题。如果某人再度造访某页,第二次的读取请求通常由网页浏览器快取达成,因此网站服务器端不会接受到此请求。这意味着该访问者浏览过该站的“足迹”丢失。快取与否可于设定网站服务器时克服,不过这可能导致降低该网站的效能。
加网页标签
由于对日志档案分析于快取存在下准确性的关注,以及渴望能实现把网站分析当作是种外包的服务,导致第二种资料收集方法:加网页标签,或称网虫(Web bug) 的出现。
90年代中期,网页计数器已经普及──这些计数器以包含在网页中的图像出现,显示多少次该图像被读取过。而图像内容就是显示大约该页被拜访次数的数目。90年代晚期,这种做法延伸至包括一个微小不可见图像,而非可见的。并且,透过 JavaScript,图像请求的某些关于网页和访客的讯息被传递到第三方服务器方。这些资料随后被网站分析公司处理并产生详细的统计资料。
网站分析服务也代管指定cookie到使用者的过程。这种方式可以鉴别各个唯一访客初次以及随后的拜访。
随着Ajax为主解决方案普及,一种利用不可见图像的替代方案实现了从读取页面“回电”服务器的机制。在这个情况下,当某网页被网页浏览器读取,该页某部分Ajax 代码将致电回服务器并递送有关用户端的资讯,随后被送到网站分析公司做汇整。这在某些方面还是有漏洞,因为某些浏览器限定哪种XmlHttpRequest物件可与服务器联系。
网站日志分析与加网页标签的比较
网站日志分析与加网页标签两者都已经很成熟可供有意公司进行网站分析。在许多情况下,同一家网站分析公司甚至同时提供这两种方法。那问题便回到公司该选用哪种方法。两种方法各有优缺:
网站日志分析优点
网站日志分析较加网页标签为优的主要有下列几点:
网页服务器一般已经产生日志档案,故原始资料已经存在。而透过加网页标签方式蒐集资料网站得做些改变。
网页服务器依靠每次网页需求与回应的处理发生。加网页标签依靠访客网页浏览器帮助。而占某些比例的浏览器可能达不到 (浏览器禁用 JavaScript 便是一例)。
蒐集来的资料位于公司自己的服务器,而且它是标准格式,而不是某种私有格式。这使得该公司日后要换它种分析程式,或者与其他程式整合,以分析过去历史资料变得容易。加网页标签方案可能遭服务商封锁。
日志档亦包括来自搜寻引擎蜘蛛的访问资讯。虽然无法被归为客户行为的一部分,这些资料对搜寻引擎最佳化来说很重要。
日志档亦包括请求失败的资讯;加网页标签只有纪录该网页成功被读取时的事件。
加网页标签优点
加网页标签较网站日志分析为优的主要有下列几点:
每当网页加载时 JavaScript 会自动执行。因此对快取顾虑较少。
加入额外资讯到 JavsScript 比较容易。这些稍后可以被远端服务器蒐集。举例来说,访客的屏幕大小,或者购买的商品单价。而网站日志分析,网站服务器无法正常的蒐集到的资讯只可透过改变网址来蒐集到。
加网页标签可回报对网站服务器不发生请求的事件,例如与Flash影片片段间的互动。
加网页标签服务管理了指定cookie给访客的过程;至于日志分析,服务器得特别设定才能达成。
加网页标签能帮助没有自己网站服务器的某些中小公司。
经济因素
网站日志分析大部分总是在公司内部进行;加网页标签也可以,但它以第三方提供的服务方式更为常见。介于这两种模式的经济方面差异亦常为公司考量采用因素。
网站日志分析传统包括一次性软件购买。然而,许多软件商也采用最大年度网页浏览数为主的、处理额外资讯额外付费的计价方式。
加网页标签大部分采月费模式,虽然某些厂商提供安装加网页标签不另收网页浏览数费用的方案 (例如 Google Analytics)。
至于哪种方案比较便宜常常取决于公司内对此道技术专精程度、选择哪家厂商、欲对网站活动了解程度、欲对资讯型态了解深度、以及个别网站本身对统计资料的种种需求而定。
两者混用
许多公司目前出品的软件蒐集资料同时透过日志档与加网页标签。透过混用方式,它们的看准该方法会产生比二者其一更准确的统计资料。第一个混用解决方案是由 Rufus Evison 于 1998 年提出,并随后随着成品上市他成立公司专门处里日渐准确的混用法[2]。
其他方法
其他资料收集方法多多少少有人试,不过达不到广泛的利用。这些包括整合网站分析程式进网络服务器,以及透过嗅探介于网页服务器与外在世界间的网络流蒐集资料。封包嗅探用于许多最大型的电子商务站点,因为它不需改变网站或者服务器,并且日常营运无法与之妥协。它亦提供较好的即时或者日志档格式资料,并且容易喂资料给资料仓储与将资料加入客户关系管理系统与企业资料里。
加网页标签也有另一种方法。除了从使用者方取得资讯,当她或他开启网页时,亦可能让脚本于服务器端工作:服务器端先接收使用者资讯后才递送网页资料。
关键词定义
在网站分析领域里,并没有放诸四海皆同意的定义,故业界正努力同意一些相当有用且在某些时候可靠的定义。已对此领域有贡献的主要团体有 Jicwebs (网络标准工业委员会,Industry Committee for Web Standards) / ABCe (发行量稽核组织电子部,Auditing Bureau of Circulations electronic, 英国与欧洲)、WAA (网站分析协会,美国),至比较小范围的 IAB (互动广告局,Interactive Advertising Bureau)。这并不妨碍下面列表的成为有用的指引,只是解释稍稍会有点模糊而已。WAA 与 ABCe 两者都提供更多可靠的列表,以供查考。
点击(Hit) — 一次对来自网页服务器上档案的请求。只有在网站日志分析才有。网站有多少点击量通常用来声称该站流行度,不过该数目极度的使人误解并且戏剧性的过度高估其流行度。单一网页通常包括多重 (通常一打) 个别的档案。每个档案随网页的下载亦被记入点击,故点击量实际是个过度武断的数字,它反映了个别网页的复杂度,而非实际上的流行度。访客总数或者网页点阅数提供更实际与正确的流行度估计。
网页点阅数(Page View) — 对某档案,其档案型态于日志分析中定义为网页,的一次请求。亦定义为加网页标签法中脚本被执行一次。在日志分析中,随着所有一网页需求资源 (图像、.js 、与 .css 档案) 的读入,一次网页点阅率可能产生多次的点击。
访问量 (Visits) / 节区(Session) — 来自同样唯一已识别用户的一系列的请求并附失效时间。一次访问预期会包括多重的点击 (于日志分析) 与网页点阅数。
首次访问 / 首次节区 (First Visit / First Session) — 一次来自从未曾造访过访客的访问。
访客 / 唯一访客 (Visitor / Unique Visitor) — 于预定时间区段 (例如:天、周、或月) 唯一已鉴别的对网页服务器产生要求 (日志分析) 或者阅览网页 (加网页标签) 的客户端。唯一访客于时间区段只有计算一次。访客可以多次拜访。唯一访客目前是仅有强制的变量系统在发行量稽核局电子部 (ABCe) 审核利用[[3]]。
重复访客 (Repeat Visitor) — 某访客至少有一次先前造访纪录。介于现行与最近造访期间被称做访客崭新度 (visitor recency),它以天计算。
新访客 (New Visitor) — 某访客没有任何先前造访纪录。这定义产生相当多的误解 (参见以下常见迷思一节),并且有时为首次访问分析所取代。
印象 (Impression) — 一次印象是为每次某广告加载使用者画面上。任何时候你看到网站广告横幅,那就算一次印象。
单体 (Singletons) — 仅仅某单一网页被检阅的访问数。虽然对变量系统或者其本身部是那么有用,单体数是各种不同形式“点击欺骗”的指标,同时它亦常用以计算跳出率;还有在许多情况下用来鉴别自动机 (就是“机器人”)。
跳出率 (Bounce Rate) / %离开率 (%Exit) — 指的是访客于某页进入相同网页离开,期间未拜访任何其他页,占多少造访的百分比。
网站分析常见迷思
旅馆问题
旅馆问题一般是网站分析使用者遭遇到的第一个问题。这个术语最早由 Rufus Evison 于电子变量系统高峰会 (Emetric Summit) 其中一次解释问题中提出。现在已经十分普及用于简单地描述网站分析问题及其解决方案。
该问题是一个月中里每日的唯一访客群累加成该月相同唯一访客群总数。这个情况出现在没经验的使用者对其使用的分析软件结果产生疑问。实际上它不过是其中公制定义里简单的特性。
对此疑问视觉化的方法是,想像一个旅馆,该旅馆有两个房间 (房间甲与房间乙):
如表格所示,旅馆在三天内每天有两个唯一使用者。据此加成总合所有天数得到六。
在此时段里每个房间有两个唯一使用者。据此加成总合所有房间得到四。
实际上在该段时间里旅馆只有三位访客。问题出在某人如果待两晚照每日算人头一次的话将被计算两次,然而如果按照整段时间计算的话只被计算一次。任何网站分析软件将于规定的时段正确的加总这些,因此导致当使用者试着比较总数时,问题就来了。
新访客 + 重复访客并不等于全部访客
另一个网站分析常见的迷思是新访客与重复访客加总应该是访客总数。再一次说,在小规模如果访客们都个别阅览情况下事情就变得清楚明了,不过这仍旧造成对分析软件不工作的大量抱怨,因为使用者并不了解变量系统。
这里的罪犯是新访客。当你从时间前进的角度考虑一个网站,实际上并没有新访客这种东西。如果某访客于某日第一次拜访,随后于同一天回到该网站,这些人实际上于该日同时是新访客和重复访客。所以如果我们都把他们看作是个个体,那该归新访客重复访客的哪一类?答案是两者都是。故变量系统定义在此有瑕疵。
一个新访客并不是一个个体;它只是网站计量的一个事实而已。为了这个理由,最容易的方法是概念化这问题同一方面为首次访问 (或者首次区间)。这解决了定义冲突与了解混淆。不会有人把首次访问数量加到重复访客数量以得到访客总数。这变量系统将会有相同数目的新访客,不过还是不要加进这个辞会更清楚。
回到我们之前的问题,有许多我们选择个体的首次访问,亦有来自相同个体的重复访问。首次访问量与重复访问量将会相加成该日的总共访问量。
网站分析方法
Cookie的问题
在历史上,加网页标签分析解决方案供应商已经使用了第三方的 Cookie,就是 Cookie 是由供应商网域送出而非点阅网站本身的网域。第三方的 cookie 可以处理越过公司内部多重无关网域的访客,因为 cookie 总是由供应商服务器处理。
然而,第三方 cookie 在原理上允许穿过不同公司网站追踪个别使用者,这让分析供应商能从某些客户合法授权保留资料的网站活动萃取个人资讯,以帮助该用户认为他是匿名浏览的其他网站做活动分析。虽然网站分析公司否认干这档事,其他公司像做网站广告条幅公司已经这样做了。对cookie隐私的关注因此导致显著的少数派使用者屏闭或者删除第三方的cookie。在2005年,许多报告指出约 28% 的互联网使用者屏闭第三方 cookie ;并且 22% 删除 cookie 每月至少一次 [4]。
大部分加网页标签解决方案供应商现在转移至提供至少使用第一方cookie (cookie由被访问网站子网域指定) 的选择方案。
另一个问题是 cookie 删除。当网站分析依靠 cookie 来鉴别唯一访客,统计资料便依靠持续存在的 cookie 作为容纳唯一使用者辨识码的载体。当使用者删除 cookie 时,他们通常同时删除第一方与第三方的 cookie。如果这件事在与网站互动的时期发生,使用者将在他们下次互动点被视为首次访客。没有持续存在与唯一的访客识别码,转换率、点击流分析、以及其他随时间依靠唯一访客活动的变量系统,不可能正确。
Cookie 常用是因为 IP 位址对使用者而言并不一定是唯一的,并且它可能与很大的一群机器或者代理服务器分享。其他识别唯一使用者的方法技术上具有挑战性,并且可追踪的观众有限,或者可视为不可靠的。Cookie 会被选上是因为,排除使用某些科技如间谍软件之外,它有着门槛最低的共通来源。
于活动追踪方面,唯一登陆页与引荐页间的比较
于大部分网站分析包里透过外部网站引荐的广告关系产生活动数量的追踪报告显著的比利用登陆页面来得不准确。
引荐页是不可靠的资讯来源其原因如下:
它们可能是或可能不是由网页浏览器所提供。
它们可能是或可能不是由网页服务器所纪录。
它们可能被网页浏览器有意的扰乱过,以达成使用者希望匿名浏览的目标。
它们可能被重定向扭曲或者隐藏,不管有意或者无意。