用户密钥
使用命令行工具,第一步要使用aws configue
命令,输入Access Key ID
和Access Key
DynamoDB
建索引时可以指定projected columns,这些列会加入到index里,按索引查询时可直接得到该列,默认情况下,会将除index外的所有列设为projected columns
索引不存空值,所以根据索引无法查询符合空值的记录
事件
Kinesis可以做到几乎实时(1秒以内)的消息获取,SQS不行,只能做到10秒级别,消息有序
SWF主要中心化协调工作流的各个工作步骤,提供任务流的总线
SQS消息不保证顺序,消息不会自动删除,需要消费者显式删除
实验
数据收集
依据数据的时候方式,决定使用哪种收集方式:
- 实时使用:流式收集
- 批量使用:文件收集(存到S3)
- 随机读取:存到DynamoDB
S3
一个文件肯定是放在一个分区中,所以当MR读取S3文件时,文件大小(可分割的文件)最好控制在2-4G,否则可能达到S3的性能瓶颈
Redshift
- MPP架构
- 支持标准SQL
- 通常是高价值数据最终归属
EMR
- 提供出来的HDFS是通过本地磁盘提供的(虚拟机重启,会在另一台物理机起动,所以实例存储上的资料会丢失)
Redshift
- 载入数据时,用
copy
命令,且要切分文件,以使用计算节点的并发量;不要用insert
命令,会经过leader节点