词条 | 数据迁移 |
释义 | 数据迁移(又称分级存储管理,hierarchical storage management,hsm)是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的 数据按指定的策略自动迁移到磁带库(简称带库)等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一 级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。 方法数据迁移可以采取不同的方法进行,归纳起来主要有三种方法,即系统切换前通过工具迁移、系统切换前采用手工录入、系统切换后通过新系统生成。 迁移(和回迁)是将文件从珍贵的高速磁盘空间移出并移到辅助高容量主媒体光盘的过程。文件在脱机时仍可用,但用户需通过网络访问它们。 该过程是通过将存档文件的名称列表保留在主媒体上实现的。当用户需要存档的文件时,他们在该目录中查找该文件,找到后像普通的文件一样打开它。随即文件从辅助存储器(光盘)上回迁到主存储器(磁盘)上。该过程在后台发生,用户可能不知道文件已经从光盘中回迁出来。当用户处理完Q时,文件又迁回至辅助存储器中。迁移过程在某个特定的时间段后或按用户或网络管理员的意愿立即发生。 Novell NetWare高容量存储系统(HCSS)是支持脱机光盘自动换盘机存储设备的数据存档系统。光盘自动换盘机是可以从可重写光盘库中选盘的自动换盘设备。HCSS使用数据迁移技术在高速、低容量存储设备(服务器的硬盘)和低速、大容量存储设备(光盘库)之间移动文件。用户在一个特殊的目录中仍能采用文件的清单,这些文件看起来就象被联机存储一样。 HCSS系统将管理员作上标记的文件“迁移”到脱机光盘库存储设备中。如果用户需要已迁移的文件,他只需按普通方法对其进行访问。HCSS系统反向迁移文件到磁盘,用户就能对其访问。除了很短的访问延迟,用户将不会意识到访问的是归档文件。一段时间后,文件又重新迁移回光盘。 特点1、直接映射原来是什么就是什么,原封不动照搬过来,对这样的规则,如果数据源字段和目标字段长度或精度不符,需要特别注意看是否真的可以直接映射还是需要做一些简单运算。 2、字段运算数据源的一个或多个字段进行数学运算得到的目标字段,这种规则一般对数值型字段而言。 3、参照转换在转换中通常要用数据源的一个或多个字段作为Key,去一个关联数组中去搜索特定值,而且应该只能得到唯一值。这个关联数组使用Hash算法实现是比较合适也是最常见的,在整个ETL开始之前,它就装入内存,对性能提高的帮助非常大。 4、字符串处理从数据源某个字符串字段中经常可以获取特定信息,例如身份证号。而且,经常会有数值型值以字符串形式体现。对字符串的操作通常有类型转换、字符串截取等。但是由于字符类型字段的随意性也造成了脏数据的隐患,所以在处理这种规则的时候,一定要加上异常处理。 5、空值判断对于空值的处理是数据仓库中一个常见问题,是将它作为脏数据还是作为特定一种维成员?这恐怕还要看应用的情况,也是需要进一步探求的。但是无论怎样,对于可能有NULL值的字段,不要采用“直接映射”的规则类型,必须对空值进行判断,目前我们的建议是将它转换成特定的值。 6、日期转换在数据仓库中日期值一般都会有特定的,不同于日期类型值的表示方法,例如使用8位整型20040801表示日期。而在数据源中,这种字段基本都是日期类型的,所以对于这样的规则,需要一些共通函数来处理将日期转换为8位日期值、6位月份值等。 7、日期运算基于日期,我们通常会计算日差、月差、时长等。一般数据库提供的日期运算函数都是基于日期型的,而在数据仓库中采用特定类型来表示日期的话,必须有一套自己的日期运算函数集。 8、聚集运算对于事实表中的度量字段,他们通常是通过数据源一个或多个字段运用聚集函数得来的,这些聚集函数为SQL标准中,包括sum,count,avg,min,max。 9、既定取值这种规则和以上各种类型规则的差别就在于它不依赖于数据源字段,对目标字段取一个固定的或是依赖系统的值。 通俗地讲,数据迁移 是一种可以把大量不经常访问的数据存放在带库、盘库等离线介质上,只在盘阵上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动 的把这些数据回迁到盘阵中;同样,盘阵中很久未访问的数据被自动迁移到磁带介质上,从而大大降低投入和管理成本。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。