2015-04-07

R-howto

R培训

商业理解和部署很重要

数据分析的基本步骤

明确要解决的问题类型（是要分类、发现关联还是预测），以确定使用哪种算法
a. 分类（有监督）：决策树、逻辑回归（二分）
```
逻辑回归的解析和应用场景：http://wenku.baidu.com/link?url=Q36Op3RXf3qR2-MMejmUC8r99RzXeVlp5QYfRNy2NqqeRioao9yWcj3_wa0QHPS1m9WU0MioQiMwdaiCbW2sZ1ykQ4j_tKz_tEFnWx4fI-m
```
b. 关联关系：关联规则（Aprior算法，基于投票或交易数据）、协同过滤（基于评分数据）
c. 预测：线性回归
d. 聚类（无监督）：
算法思路
a. 确定目标函数
b. 模型评价

##rJava库的装载

设置，在Path变量中添加项

%R_Home%\bin\x64
或
%R_Home%\bin\x86
取决于系统是64位还是32位。

安装rJava这个用于R与Java交互的Packages后，还需在Path变量中添加项

1	%R_Home%\library\rJava\jri

重要，JAVA_HOME要设置为jre的目录，设成JDK的不行！！

图形化交互Rattle

使用install.packages('rattle')进行安装

1 2	> library(rattle) > rattle()

通过excel导入数据

# 先安装库并引用
>install.packages('xlsx')
>library(xlsx)
# 读取excel文件（适用于excel2007以上）
> x=read.xlsx('F:/tmp/R/Rtest.xlsx', 1)
> str(x)

判断线性回归方程的优度（贡献率）

最重要的标准：R平方

步骤

利用散点图先大致观察变量和响应变量的关系，再逐步增、减变量查看结果

决策树

分裂变量选择的原则: 选择该变量后，分裂后的子集分布和原来的差异明显；
树停止分裂的条件: 1. 层数超过阈值；2. 子集数据小于阈值；3. 子集各类比例超过阈值
选取变量的手段：通过信息熵——熵越大，不确定性越大（最大为1）；熵越小，不确定性越小（最小为0）。每个变量计算条件熵，然后用总信息熵-条件熵，差值最大的，表示使用该变量进行分裂之后，不确定程度降低得最多（即越能确定），所以选取该条件作为该层的节点
连续性的变量：计算所有值两两之间的切分点，每个区间转换成一个类型值，然后按上述的原则计算各个切分点的信息熵。对于样本数量很多的时候，可以按每个n个切分点算一个熵

lift值：就是使用该策略时的响应数/随机策略时的响应数