最新消息:

数据挖掘

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

datafew 1年前 (2016-07-29) 335浏览

 摘要: 腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2 R...

京东基于Spark的风控系统架构实践和技术细节

京东基于Spark的风控系统架构实践和技术细节

datafew 1年前 (2016-06-02) 430浏览

摘要: 互联网的迅速发展,为电子商务兴起提供了肥沃的土壤。2014年,中国电子商务市场交易规模达到13.4万亿元,同比增长31.4%。其中,B2B电子商务市场交易额达到10万亿元,同比增长21.9%。这一连串高速增长的数字背后,不 …...

用户行为数据可视化——行为序列图

用户行为数据可视化——行为序列图

datafew 1年前 (2016-05-06) 422浏览

作为一名网站的用户研究工作人员,我曾经碰到过以下问题: 深知服务器日志是一座金矿,但不知道该从哪里开始分析?  辛辛苦苦盯着电脑一天,看了1000+条日志,越看越晕,看不出规律,找不到方向…  在众多日志中,发现了一个异常动作,可是,这只是一个...

快速发展背后,滴滴躲过哪七大技术深坑?

快速发展背后,滴滴躲过哪七大技术深坑?

datafew 1年前 (2016-04-26) 353浏览

 摘要: 实际上,这个故事引申出了日常研发中经常出现的几个决策场景,例如:最近训练出几个模型,该如何选择?如何证明机器学习模型优于目前人工设置的模型?几个新设计的产品方案,该如何选择?等等。对上述问题,齐贺提出 … 4月2...

面向程序员的数据挖掘指南(八)-聚类

面向程序员的数据挖掘指南(八)-聚类

datafew 1年前 (2016-04-18) 386浏览

作者:Ron Zacharski 第八章:聚类 前几章我们学习了如何构建分类系统,使用的是已经标记好类别的数据集进行训练: 训练完成后我们就可以用来预测了:这个人看起来像是篮球运动员,那个人可能是练体操的;这个人三年内不会患有糖尿病。 可以看...

面向程序员的数据挖掘指南(七)-Naive Bayesian and Text mining

面向程序员的数据挖掘指南(七)-Naive Bayesian and Text mining

datafew 1年前 (2016-04-18) 395浏览

作者:Ron Zacharski 第七章:朴素贝叶斯和文本数据 非结构化文本的分类算法 在前几个章节中,我们学习了如何使用人们对物品的评价(五星、顶和踩)来进行推荐;还使用了他们的隐式评价——买过什么,点击过什么;我们利用特征来进行分类,如身高、...

面向程序员的数据挖掘指南(六)-概率与贝叶斯

面向程序员的数据挖掘指南(六)-概率与贝叶斯

datafew 1年前 (2016-04-18) 344浏览

作者:Ron Zacharski 第六章:概率和朴素贝叶斯 朴素贝叶斯 还是让我们回到运动员的例子。如果我问你Brittney Griner的运动项目是什么,她有6尺8寸高,207磅重,你会说“篮球”;我再问你对此分类的准确度有多少信心,你会回答...

面向程序员的数据挖掘指南(五)-分类器的准确性评估

面向程序员的数据挖掘指南(五)-分类器的准确性评估

datafew 1年前 (2016-04-18) 473浏览

作者:Ron Zacharski 第五章:进一步探索分类 效果评估算法和kNN 当我们构建完一个分类器后,应该问以下问题: 分类器的准确度如何? 结果理想吗? 如何与其它分类器做比较? 让我们回到上一章中运动项目的例子。 在那个例子中,我...

面向程序员的数据挖掘指南(四)-分类

面向程序员的数据挖掘指南(四)-分类

datafew 1年前 (2016-04-18) 359浏览

作者:Ron Zacharski 第四章:分类 在上几章中我们使用用户对物品的评价来进行推荐,这一章我们将使用物品本身的特征来进行推荐。这也是潘多拉音乐站所使用的方法。 内容: 潘多拉推荐系统简介 特征值选择的重要性 示例:音乐特征值和邻域算法...

面向程序员的数据挖掘指南(三)-协同过滤

面向程序员的数据挖掘指南(三)-协同过滤

datafew 1年前 (2016-04-18) 496浏览

作者:Ron Zacharski 第三章:隐式评价和基于物品的过滤算法 本章会从用户的评价类型开始讨论,包括显式评价(赞一下、踩一脚、五星评价等等)和隐式评价(比如在亚马逊上购买了MP3,我们可以认为他喜欢这个产品)。 内容: 显式评价 隐式评...