1000字范文 > 推荐系统--揭开推荐的神奇面纱

开篇

先推荐几篇关于推荐的文章，个人感觉对于入门非常有实际意义，是IBM的project师写的，例如以下：

探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

探索推荐引擎内部的秘密，第 2 部分: 深入推荐引擎相关算法 - 协同过滤

探索推荐引擎内部的秘密，第 3 部分: 深入推荐引擎相关算法 - 聚类

推荐两本书，例如以下：

项亮：《推荐系统实践》

蒋凡：《推荐系统》

最新源代码：git clone git@:pumadong/cl-recommend.git 。

日志分析扩展和流量统计

对于日志的分析，能够统计站点的流量，可是要过滤掉对JS/CSS/IMG等静态资源的URL，仅仅保留真实有效的訪问。

在一个页面的訪问过程中，浏览器会向server发起非常多个请求，把HTML/CSS/IMG/JS等都下载下来，解析成美观的页面，展现给訪问者，在这个过程中事实上会在NGINX等Webserver中，记录非常多行日志。

关于流量统计，也有非常多採用插码的方式，插码这样的方式，业界的代码标准是Google的GA，插码的优点是能够统计记录很多其它信息（超出日志），能够自己定义非常多事件，收集很多其它信息。

当前google因为特殊原因国内不能直接訪问，可是对于ga代码的统计是没有问题的，訪问地址是：http://www.google-/ga.js。

比較日志分析和插码两种方式，日志分析是有訪问就记录日志，此时页面可能没展示完毕訪问者就关闭了；插码这样的方式，仅仅有运行到插入的JS代码的时候，才会记录流星；也就是前一种强调来过，后一种强调有效訪问。

日志分析这样的流量分析方式，须要过滤掉爬虫的IP地址；而插码就不须要，由于爬虫仅仅会爬页面内容，并不会运行JS，JS的运行实际是浏览器的JS引擎帮我们做的。

另外，对于第三方的流量分析，则必须是插码，不可能使用日志分析。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。