¿Cómo puedo hacer una copia de seguridad o sincronizar un bucket de Amazon S3?


Prefiero hacer una copia de seguridad localmente usando la sincronización donde solo se actualizan los cambios. Esa no es la solución de copia de seguridad perfecta, pero puede implementar actualizaciones periódicas más adelante cuando lo necesite:

s3cmd sync --delete-removed s3://your-bucket-name/ /path/to/myfolder/

Si nunca usó s3cmd, instálelo y configúrelo usando:

pip install s3cmd
s3cmd --configure

También debería haber servicios de copia de seguridad de S3 por $ 5 / mes, pero también verificaría Amazon Glacier, que le permite colocar casi 40 GB de archivo de archivo único si usa la carga de varias partes.

Recuerde, si su cuenta S3 se ve comprometida, tiene la posibilidad de perder todos sus datos, ya que sincronizaría una carpeta vacía o archivos con formato incorrecto. Por lo tanto, es mejor que escriba un script para archivar su copia de seguridad varias veces, por ejemplo, detectando el comienzo de la semana.

Actualización 17/01/2016:

La AWS CLI basada en Python es muy madura ahora.

Ejemplo: aws s3 sync s3://mybucket .

Este script hace una copia de seguridad de un bucket de S3:

#!/usr/bin/env python
from boto.s3.connection import S3Connection
import re
import datetime
import sys
import time

def main():
    s3_ID = sys.argv[1]
    s3_key = sys.argv[2]
    src_bucket_name = sys.argv[3]
    num_backup_buckets = sys.argv[4]
    connection = S3Connection(s3_ID, s3_key)
    delete_oldest_backup_buckets(connection, num_backup_buckets)
    backup(connection, src_bucket_name)

def delete_oldest_backup_buckets(connection, num_backup_buckets):
    """Deletes the oldest backup buckets such that only the newest NUM_BACKUP_BUCKETS - 1 buckets remain."""
    buckets = connection.get_all_buckets() # returns a list of bucket objects
    num_buckets = len(buckets)

    backup_bucket_names = []
    for bucket in buckets:
        if ('backup-' + r'd{4}-d{2}-d{2}' ,

    backup_bucket_names.sort(key=lambda x: datetime.datetime.strptime(x[len('backup-'):17], '%Y-%m-%d').date())

    # The buckets are sorted latest to earliest, so we want to keep the last NUM_BACKUP_BUCKETS - 1
    delete = len(backup_bucket_names) - (int(num_backup_buckets) - 1)
    if delete <= 0:

    for i in range(0, delete):
        print 'Deleting the backup bucket, ' + backup_bucket_names[i]

def backup(connection, src_bucket_name):
    now =
    # the month and day must be zero-filled
    new_backup_bucket_name="backup-" + str('%02d' % now.year) + '-' + str('%02d' % now.month) + '-' + str(;
    print "Creating new bucket " + new_backup_bucket_name
    new_backup_bucket = connection.create_bucket(new_backup_bucket_name)
    copy_bucket(src_bucket_name, new_backup_bucket_name, connection)

def copy_bucket(src_bucket_name, dst_bucket_name, connection, maximum_keys = 100):
    src_bucket = connection.get_bucket(src_bucket_name);
    dst_bucket = connection.get_bucket(dst_bucket_name);

    while True:
        keys = src_bucket.get_all_keys(max_keys = maximum_keys, marker = result_marker)

        for k in keys:
            print 'Copying ' + k.key + ' from ' + src_bucket_name + ' to ' + dst_bucket_name

            t0 = time.clock()
            dst_bucket.copy_key(k.key, src_bucket_name, k.key)
            print time.clock() - t0, ' seconds'

        if len(keys) < maximum_keys:
            print 'Done backing up.'

        result_marker = keys[maximum_keys - 1].key

if  __name__ =='__main__':main()

Yo uso esto en una tarea de rake (para una aplicación Rails):

desc "Back up a file onto S3"
task :backup do
     S3KEY = "0A5kuzV+F1pbaMjZxHQAZfakedeJd0dfakeNpry"
     SRCBUCKET = "primary-mzgd"

     system "./ #{S3ID} #{S3KEY} #{SRCBUCKET} #{NUM_BACKUP_BUCKETS}"
