关闭

给自己的人生一个精彩的PlanB

意向国家及地区
获取验证码

我已阅读并同意 《隐私保护协议》

立即咨询专家
搜索
关注我们

留学官方微信

留学官方微博

400-010-8000

关于金吉列

留学

留学攻略 留学规划师 英国 美国 日本 加拿大
新西兰 澳大利亚 韩国 欧洲 亚洲 中国香港

热门

留学产品 成功案例 院校排名
国际学校 精彩讲座 OSSD课程

申请

留学资料 语言提升
能力提升 签证准备

生活

留学安全 海外生活
实习就业 移民置业

工具栏

在线咨询

免费评估

费用计算

电话咨询

分公司电话

400-010-8000

免费咨询电话

400-010-8000

到店咨询

免费领取留学邀请函
意向国家及地区
意向学段

请留下您的信息,我们将有专人与您联系

获取验证码
我已阅读并同意《隐私保护协议》

金吉列留学北京总部2

北京市朝阳区建国门外大街8号楼IFC国际财源中心B座15层

010-56836688

复制地址
到店咨询
0
0
首页 文章详情

DS for Business 这本书!

何青
2019-07-22 16:55:20
人浏览
0
0

7月盛夏 畅游无界 月度精...

了解详情

一站式留学评测 留学快人一步

了解详情

申请顶尖院校必备!教你如何提...

了解详情

第二外语选什么小语种吃香?

了解详情
总评: 2013年由O'Reilly 出版的这本书获得了一些好评: SAP全球副总裁说:“任何一位想要真正要迎接大数据机遇的人士,这是一本必读书目” 其他企业商业分析部门、统计部门、数据科学小组等部门负责人的评述略。 作者: Foster Provost 是美国纽约大学斯特恩商学院数据科学,信息系统等专业的教授 Foster Provost, 匹兹堡大学计算机科学硕士、博士。

第一章 入门:数据分析思维

在过去15年里,商业基础设施的大量投入带来的结果是,整个企业内部的数据收集变得非常容易。实际上商业活动的每个层面都向数据收集开放,而且已经有相应的数据收集工具:运营、制造业、供应链管理、客户行为、市场推广业绩、工作流程步骤等等。同时,关于外部事件如市场趋势、业界新闻,和竞争对手动态等信息也变得非常容易获得。数据变得广泛可用,如何从数据提取有用信息和知识- 这些数据科学领域内的问题,就受到越来越多的关注。

无所不在的数据机遇

大量的数据变得唾手可得,几乎每个行业的公司都关注如何发掘数据,让公司更加有竞争优势。传统的商业数据处理模式,在大数据面前会力不从心。计算机和网络运算能力的大幅提升,让更广泛和深入了解商业数据成为可能。这就是数据科学和数据挖掘技术深入到商业领域的重要推动力。

数据挖掘广泛用于:

  • 针对性营销
  • 在线广告
  • 推荐搭售

分析客户行为,最大化挖掘客户的价值。金融领域往往会借助数据挖掘进行信用评分和交易分析,以及虚假侦测等。从沃尔玛到亚马逊都在使用数据挖掘技术服务于他们的经营目的。

本书的目的就是,从数据的角度看业务。让您具备数据分析思维能力,进而更好的为商业运营服务。全书会涵盖一些基本数据可续原则,并且会介绍至少一种对应的数据挖掘技术/方法。

两个案例:

1. 弗朗西斯飓风

我们假定在飓风经过的地区,人们会增加对瓶装水的需求。或许这太显而易见了,为什么还要数据挖掘呢?不过,如果仔细研究,我们可以分析数据,来预测具体的需求数量,比如多少瓶,多少件,这样有利于沃尔玛有计划的提供水,有了具体的数量。或许人们对DVD播放器的需求增加了。只有去分析数据,才能看到这些趋势。

纽约时报2004年的研究表明,在飓风到来之前,最畅销的商品竟然是-啤酒。

2. 预测客户流失

假设您负责MegaTelCo公司的数据分析业务。这家公司目前面临的最大问题是,客户在无线上网领域内的不断流失。在亚特兰大中部地区,20%的客户在合同期满之后就离开了,同时公司也很难吸引更多新客户的加入。

第二章 商业/业务问题和数据科学解决方案 ...

本章节主要包括两方面内容,第一数据挖掘常见任务;第二数据挖掘的过程
CRISP数据挖掘过程/方法。

首先来看一下数据挖掘的常见任务:

1. 分类和类别概率估计,来预测总体中的每个体属于哪个类别。通常这些总体内的类别是独特分类互相排斥的。比如,一家商店的所有顾客中,哪些人会对折扣促销感兴趣。结果有两类人,一类积极反应,另一类置之不理。

具体到数据挖掘,分类任务就是去打造一个模型,来决定新的成员属于哪一类。最接近的两种任务是评分(scoring)和概率估计。

2. 回归(’数值估计’)就是去估计和预测每个个体,根据某些变量的数值来估计。具体的问题,比如:多大程度上这个顾客会使用此项服务?回归和分类二者在数据挖掘的时候有关系,但是二者的区别是什么呢?分类只告诉我们是否的问题,而回归则预测多大程度会发生。

3. 相似性匹配 根据已知数据,来确定相似的个体。这个任务在推荐系统中会用到,比如某甲和某乙都对某种商品有相似的兴趣。

4. 聚类,就是物以类聚,人以群分。

5. 同时分组(常见项目挖掘,相关规则,市场-篮分析),根据交易记录发现二者之间存在的联系。例如,超市里那些东西经常会一起同时买?聚类关注事物的相似性,而同时分组则关注同时发生了哪些事情,并将他们分为一组。

6. 画像(也称行为描述),描述个体,组,和全体最常见的特点。例如,这个客户群标配的手机是哪一款?画像可以针对全体或者具体到客户群或个人。通常可以通过画像建立常模,然后用常模来查找非正常数据。比如,欺诈检测和监控等,通常用于信用卡。

7. 联系预测,预测数据直接存在何种联系。并会描述联系有多远或近。比如facebook, linkein 给你推荐的朋友。

8. 数据降维- 或者在这里说数据瘦身,不过仍然保留重要的信息。不过这一过程,总是伴随着信息的丢失。

9. 因果模型,了解那些事情和行为的确在影响其他事或人。

监督和非监督方法

如果目标明确,标准清楚,那么这样的数据挖掘就是监督型的,而没有目标,只是了解分析数据,则是非监督的方法。

分类,回归和因果模型通常解决问题采用监督的方法。

聚类,同时发生分组和画像则属于非监督的方法。

第二 数据挖掘过程

CRISP 过程/方法 。基本过程:

了解业务-了解数据-数据准备-建模-评估-实施

第三章 预测模型:从相关性到监督划分

前一章节概括讨论了模型和建模。本章将深入数据挖掘的主要课题之一: 预测性建模。待更新。

第四章 模型数据拟合

第五章 过度拟合和如何避免

引言:

数据科学最重要的基本概念之一过度拟合和概化过程。通俗的说,过度拟合就像你让裁缝给你做了一套衣服,太合身了 - 数据模型完美拟合(overfitting)。可惜,这么合身的衣服无法量产,无法适合其他人,或其他人群推广(Generalization)。这么说来,二者是对立存在的。

基本逻辑:从总体获得一些样本数据, 这些样本数据按照比例抽取一部分作为训练数据,另一部分用作测试数据(Hol Out Data)。训练数据的目的是为了建模,而测试数据是为了检验模型是否可以推而广之去使用。如果这两个准确性值都很高,那么就可以去应用到其他真实数据集了。过度拟合发生在模型和训练数据,而无法推广generalization 可以通过模型和测试数据来反应。

第六章 相似性,相邻,和聚类

第四章 模型数据拟合

开启美国留学之旅 立即咨询

快速评估适合你的专业&院校

获取验证码
意向国家及地区
立即评估

我已阅读并同意

《隐私保护协议》
更多留学话题
美国录取捷报 美国留学申请攻略 美国留学产品 美国留学专业解析 美国留学职场就业发展 美国留学生活 美国留学时讯 美国签证指导 美国大学排名 美国成功案例
美国留学实用指南
研究生申请
本科申请
高中申请
查专业
看排名
能力提升
推荐产品
  • 美国前30/60名校培养计划
    基于美国特有的转学体制,为学生提供包括学术、领导力、职业等在内的长时段服务,让学生既获得名校录取,又有读完名校的实力
    了解详情
  • 美国高端本科:金鹏计划
    为学生量身搭建五维立体模型,逐一击破痛点,致力于提高美国TOP30本科录取成功率
    了解详情
  • 美国高端硕士:金骏计划
    为志向申请名校的学生提供的高端服务产品 致力于提升学生入读美国前30名校的成功率 产品中涵盖背景提升项目基金,学生可根据自身背景任意选择海内/外科研与职场提升等项目
    了解详情
关闭
专业留学顾问限时 1对1咨询

icon

获取验证码

立即预约
icon icon

我已阅读并同意 《隐私保护协议》

信息提交成功!稍后将有专人与您联系。