R培训
商业理解和部署很重要
数据分析的基本步骤
- 明确要解决的问题类型(是要分类、发现关联还是预测),以确定使用哪种算法
a. 分类(有监督):决策树、逻辑回归(二分)
b. 关联关系:关联规则(Aprior算法,基于投票或交易数据)、协同过滤(基于评分数据)逻辑回归的解析和应用场景:http://wenku.baidu.com/link?url=Q36Op3RXf3qR2-MMejmUC8r99RzXeVlp5QYfRNy2NqqeRioao9yWcj3_wa0QHPS1m9WU0MioQiMwdaiCbW2sZ1ykQ4j_tKz_tEFnWx4fI-m
c. 预测:线性回归
d. 聚类(无监督): - 算法思路
a. 确定目标函数
b. 模型评价
##rJava库的装载
- 设置,在Path变量中添加项1234%R_Home%\bin\x64或%R_Home%\bin\x86取决于系统是64位还是32位。
安装rJava这个用于R与Java交互的Packages后,还需在Path变量中添加项1%R_Home%\library\rJava\jri
- 重要,JAVA_HOME要设置为jre的目录,设成JDK的不行!!
图形化交互Rattle
使用install.packages('rattle')
进行安装12> library(rattle)> rattle()
通过excel导入数据
|
|
判断线性回归方程的优度(贡献率)
最重要的标准:R平方
步骤
利用散点图先大致观察变量和响应变量的关系,再逐步增、减变量查看结果
决策树
分裂变量选择的原则: 选择该变量后,分裂后的子集分布和原来的差异明显;
树停止分裂的条件: 1. 层数超过阈值;2. 子集数据小于阈值;3. 子集各类比例超过阈值
选取变量的手段:通过信息熵——熵越大,不确定性越大(最大为1);熵越小,不确定性越小(最小为0)。每个变量计算条件熵,然后用总信息熵-条件熵,差值最大的,表示使用该变量进行分裂之后,不确定程度降低得最多(即越能确定),所以选取该条件作为该层的节点
连续性的变量:计算所有值两两之间的切分点,每个区间转换成一个类型值,然后按上述的原则计算各个切分点的信息熵。对于样本数量很多的时候,可以按每个n个切分点算一个熵
lift值:就是使用该策略时的响应数/随机策略时的响应数