R-howto

R培训

商业理解和部署很重要


数据分析的基本步骤

  1. 明确要解决的问题类型(是要分类、发现关联还是预测),以确定使用哪种算法
    a. 分类(有监督):决策树、逻辑回归(二分)
    逻辑回归的解析和应用场景:http://wenku.baidu.com/link?url=Q36Op3RXf3qR2-MMejmUC8r99RzXeVlp5QYfRNy2NqqeRioao9yWcj3_wa0QHPS1m9WU0MioQiMwdaiCbW2sZ1ykQ4j_tKz_tEFnWx4fI-m
    
    b. 关联关系:关联规则(Aprior算法,基于投票或交易数据)、协同过滤(基于评分数据)
    c. 预测:线性回归
    d. 聚类(无监督):
  2. 算法思路
    a. 确定目标函数
    b. 模型评价

##rJava库的装载

  1. 设置,在Path变量中添加项
    1
    2
    3
    4
    %R_Home%\bin\x64
    %R_Home%\bin\x86
    取决于系统是64位还是32位。

安装rJava这个用于R与Java交互的Packages后,还需在Path变量中添加项

1
%R_Home%\library\rJava\jri

  1. 重要,JAVA_HOME要设置为jre的目录,设成JDK的不行!!

图形化交互Rattle

使用install.packages('rattle')进行安装

1
2
> library(rattle)
> rattle()


通过excel导入数据

1
2
3
4
5
6
7
# 先安装库并引用
>install.packages('xlsx')
>library(xlsx)
# 读取excel文件(适用于excel2007以上)
> x=read.xlsx('F:/tmp/R/Rtest.xlsx', 1)
> str(x)

判断线性回归方程的优度(贡献率)

最重要的标准:R平方

步骤

利用散点图先大致观察变量和响应变量的关系,再逐步增、减变量查看结果


决策树

分裂变量选择的原则: 选择该变量后,分裂后的子集分布和原来的差异明显;
树停止分裂的条件: 1. 层数超过阈值;2. 子集数据小于阈值;3. 子集各类比例超过阈值
选取变量的手段:通过信息熵——熵越大,不确定性越大(最大为1);熵越小,不确定性越小(最小为0)。每个变量计算条件熵,然后用总信息熵-条件熵,差值最大的,表示使用该变量进行分裂之后,不确定程度降低得最多(即越能确定),所以选取该条件作为该层的节点
连续性的变量:计算所有值两两之间的切分点,每个区间转换成一个类型值,然后按上述的原则计算各个切分点的信息熵。对于样本数量很多的时候,可以按每个n个切分点算一个熵

lift值:就是使用该策略时的响应数/随机策略时的响应数