AWS入门

用户密钥

使用命令行工具,第一步要使用aws configue命令,输入Access Key IDAccess Key

DynamoDB

  1. 建索引时可以指定projected columns,这些列会加入到index里,按索引查询时可直接得到该列,默认情况下,会将除index外的所有列设为projected columns

  2. 索引不存空值,所以根据索引无法查询符合空值的记录

事件

  1. Kinesis可以做到几乎实时(1秒以内)的消息获取,SQS不行,只能做到10秒级别,消息有序

  2. SWF主要中心化协调工作流的各个工作步骤,提供任务流的总线

  3. SQS消息不保证顺序,消息不会自动删除,需要消费者显式删除

实验

https://china.qwiklab.com

数据收集

依据数据的时候方式,决定使用哪种收集方式:

  1. 实时使用:流式收集
  2. 批量使用:文件收集(存到S3)
  3. 随机读取:存到DynamoDB

S3

一个文件肯定是放在一个分区中,所以当MR读取S3文件时,文件大小(可分割的文件)最好控制在2-4G,否则可能达到S3的性能瓶颈

Redshift

  1. MPP架构
  2. 支持标准SQL
  3. 通常是高价值数据最终归属

EMR

  1. 提供出来的HDFS是通过本地磁盘提供的(虚拟机重启,会在另一台物理机起动,所以实例存储上的资料会丢失)

Redshift

  1. 载入数据时,用copy命令,且要切分文件,以使用计算节点的并发量;不要用insert命令,会经过leader节点