超大文件上传到Azure Linux虚拟机最佳实践

   2016-11-10 0
核心提示:客户在实际进行迁移的时候,往往碰到需要将本地数据中心的超大文件,比如单个200GB的文件,或者总共1TB的无数文件上传到Azure上的情况,尤其是传到Azure的Linux虚拟机的场景,这种场景包括:大日志文件上传到Azure进行分析 数据库备份文件导入导出 大数据文件

客户在实际进行迁移的时候,往往碰到需要将本地数据中心的超大文件,比如单个200GB的文件,或者总共1TB的无数文件上传到Azure上的情况,尤其是传到Azure的Linux虚拟机的场景,这种场景包括:

  • 大日志文件上传到Azure进行分析

  • 数据库备份文件导入导出

  • 大数据文件下载到本地等等

尤其是要将数据库备份文件导入到Linux虚拟机进行数据库恢复,一般用户常常会选择传统的FTP方式进行处理,这样的方式通常会花费用户十几个小时,甚至几天的时间进行文件传输,但是在云计算的时代,其实有非常多的工具和方法可以使用,让你大幅度降低时间和成本,今天我们就以250GB数据库文件上传到Linux虚拟机为例,来看看怎么利用这些工具。

基本流程:

  1. 在本地安装或者使用一个Windows机器,内核数目和内存可能的话最好大一些,因为azcopy会根据内核数计算并发线程数

  2. 安装azcopy

  3. 在Azure上创建storage account,容器container

  4. 利用azcopy上传本地文件到Blob storage

  5. 在Linux虚拟机利用Azure CLI下载云端文件到本地Linux虚拟机

  6. 如果Azure上是Windows虚拟机,使用azcopy下载

限制和优化建议:

  1. 单个block blob的文件不能超过 195GB ,所以如果你的本地单个文件超过这个大小,你可以选择:

    1. 分割文件成小份

    2. 利用压缩软件压缩文件到较小大小

  2. 如果你本地的机器比较强大,并且单个文件的确比较大,建议你本地压缩,可以节约总体时间,你开始压缩的时候,大致可以知道这个压缩需要多长时间,

  3. 你的虚拟机和你的存储帐号入伍特别需要,请放在一个区域,比如都在北京或者上海,一边最大限度的降低延迟,提升速度

  4. Azcopy会最大限度的利用你的数据中心的带宽,如果你希望降低带宽占用,可以限制azcopy的并发处理数目,利用/NC来做限制,默认情况下,如果你是操作blob storage, azcopy的并发线程数是你处理器数目的8倍;对于Table的操作,默认的并发线程数是你的处理器数目。

  5. 上传下载速度和你的磁盘速度,网络带宽等都有关系,如果需要处理大规模文件,可以考虑临时调整你的数据中心带宽大小

在本示例中,基本环境如下:

  1. 备份文件未压缩前210GB,压缩后60GB

  2. 用户数据中心服务器,Windows Server 2012,16 cores,32GB

  3. Azure Linux虚拟机:A4,SUSE 11 SP3

基本配置步骤如下:

  1. 在用户数据中心Windows Server上下载并安装azcopy,请安装最新版本:

    http://aka.ms/downloadazcopy

  2. 在Azure上创建一个存储账号,并取得存储账号的主访问密钥:

超大文件上传到Azure Linux虚拟机最佳实践

超大文件上传到Azure Linux虚拟机最佳实践

3. 在该存储账号下创建一个容器,名字为upload,你可以按照自己的需要命名:

超大文件上传到Azure Linux虚拟机最佳实践

超大文件上传到Azure Linux虚拟机最佳实践

4. 利用Azcopy,上传你本地的文件到Blob storage,注意要用到上个步骤创建到的存储账号和账号的key,假定当前的上传文件名为FULL0606.zip,放在你的E盘:

Azcopy.exe /Source:E:\ /Dest: https://myhousestorage.blob.core.linuxidc.com/upload /DestKey:YOURSTORAGEKEY /Pattern:"FULL0606.zip"

参数说明:

/Souce:你的源文件地址,写目录,具体文件名写后面,如C:\data

/Dest:你的存储账号的容器地址,可以在你的容器页面看到

/DestKey:存储帐号的主访问密钥

更多关于azcopy的详细用法和命令,请参考:

https://azure.microsoft.com/en-us/documentation/articles/storage-use-azcopy/

5. 传统方式下,用户会使用FTP的模式,经过调优,大概速度是3.5MB/s,而使用了azcopy,由于它有多线程,网络优化等底层功能的支持,速度可以达到近11MB/s,用户数据中心带宽100M,这个速度是相当不错的:

超大文件上传到Azure Linux虚拟机最佳实践

6. 在将数据上传到Azure blob storage之后,需要在Linux虚拟机上将他下载到本地,在Windows上有Powershell,azcopy等工具,在Linux系统上,有Azure CLI作为跨平台的工具可以管理Azure的各项服务,关于如何在Linux上安装配置Azure CLI,请参考:

http://www.linuxidc.com/Linux/2016-11/136978.htm

7. 在Linux虚拟机上,直接使用Azure的CLI命令下载上传到Blob storage上的压缩文件即可,在同一个region,速度大约30MB,但实际速度依赖于网络状况和当前负载:

# azure storage blob download upload FULL0606.zip ./

超大文件上传到Azure Linux虚拟机最佳实践

如果需要把Linux虚拟机上的大文件下载到本地,可以考虑逆序使用上述方法,azcopy经过了网络优化,压缩优化和算法优化,是Azure上数据处理的神器:)

在之前客户的方案中,文件上传到Linux虚拟机大约需要17个小时,经过选择合适的方法,数据上传,下载大约总共2个小时的时间,所以根据不同的场景选择不同的工具和方法很重要。

本文永久更新链接地址 http://www.linuxidc.com/Linux/2016-11/136977.htm

 
标签: Windows Azure Linux
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • windows10环境下安装Linux子系统---debian
    windows10环境下安装Linux子系统---debian
    windows10环境下安装Linux子系统---debian一、前提1、在控制面板-程序-启用与关闭Windows功能中,勾选“适用于Linux的Windows子系统”  2、首先需要创建一个文件夹,用来存放子系统,在需要的位置创建即可,文件夹名任意3、手动下载Windows子系统发行版包,
    03-08
  • windows Apache 配置支持HTTPS的SSL证书
    在设置Apache + SSL之前, 需要做:安装Apache, 下载安装Apache时请下载带有ssl版本的Apache安装程序.并且ssl需要的文件在如下的位置:     [Apache安装目录]/modules/ mod_ssl.so    [Apache安装目录]/bin/ openssl.exe, libeay32.dll, ssleay32.dll, ope
    02-10
  • Windows7下安装IIS出现“出现错误,并非所有的功能被成功更改
    Windows7下安装IIS出现“出现错误,并非所有的功
     1、开始,搜索输入UAC--选择 “更改用户账户控制设置” 2、调到最低 3、打开控制面板--》程序--》打开或关闭windows功能,去掉图里的2个选项,点确定,重启 4、重启后,再把这2个勾选上,注:indernet信息服务很多子项不勾选,需要手动展开到最底层进行
    02-10
  • 从WINDOWS用SSH连到Fedora Core2 ,ssh终端文本
    从WINDOWS用SSH连到Fedora Core2 主要是因为Fedora Core2 的编码是UTF-8,所以没法正确显示。1.临时解决办法:每次使用ssh登陆以后先执行命令:中文:export LANG=zh_CN.gb2312英文:export LANG="en_US" export LC_ALL="en_US"如:[root@localhost ~]# expor
    02-10
  • Windows下搭建apache+mysql+php开发环境
    Windows下搭建apache+mysql+php开发环境
      最近因在windows环境下搭建php开发环境遇到了各式各样的问题,故在此加以归纳总结。目的有二,一是为了避免以后再次遇到类似的问题,二是为需要的同学提供启示和借鉴。  一:下载需要的软件apache   httpd-2.2.22-win32-x86-no_ssl.msimysql     mys
    02-10
  • windows下apache tomcat整合
    准备工作:1、 httpd-2.2.22-win32-x86-openssl-0.9.8t.msi下载地址:http://apache.etoak.com//httpd/binaries/win32/httpd-2.2.22-win32-x86-openssl-0.9.8t.msi2、 apache-tomcat-6.0.20.zip(免安装版-绿色版)下载地址:http://archive.apache.org/dist/
    02-10
  • windows支持apache、mysql、php集成环境推荐wam
    对英文不感冒的同学很容易下载到更新包,而且官方的下载速度很慢,此文件为官方原版下载,现在分享给大家。链接:https://pan.baidu.com/s/1LYyJi6FddvkQQNrLp4L6Ww 提取码:edsaMD5: 4C32136656EB25E2951E1539D264339ESHA1: 15EAC178B27EE5298883DC3BA351B81
    02-10
  • Windows7 x64 安装 Wamp2.1-x64 + memcache-x64
    我目前使用WAMPServer是2.1的64位版本=============php_memcache.dll install ===========1. php-5.3.4-x64 php_memcache.dll 下载:http://download849.mediafire.com/qbb07jdosz7g/u6y1f85gftrepwl/php_memcache-2.2.6-5.3-vc9-x64.zip网友连接好像不能下载
    02-10
  • Windows7环境下Apache连接MySQL提示“连接已重
    win7下手动搭建wamp环境,碰到的几个坑总结下,1.能正常访问php和html类型文件,但是访问项目文件时老是连接被重置,后来总结是数据库的问题,就写测试用例测试php能否成功调用数据库, 1 ?php 2echo "mysql"; 34$mysql_conf = array( 5 'host'= '127.0.0.1',
    02-10
点击排行