曲演杂坛--HASH的一点理解

HASH，百度百科上做如下定义：

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

如此生硬的定义很难理解，我们来点看的见的，CHECKSUM就是一种典型的HASH操作

--==========================================================SELECT CHECKSUM('SLDKSLKFJDSLKJFDSLAKJF;DSAKLFJDSJASLKF S')--值为244224724SELECT CHECKSUM('中啥打算换阿盛大连水库将盛大阿克苏打算快乐撒旦')--值为1349490807--==============================================================SELECT CHECKSUM(REPLICATE(CAST('中啥打算换阿盛大连水库将盛大阿克苏打算快乐撒旦' AS nvarchar(MAX)),100000)) AS HashKey,DATALENGTH(REPLICATE(CAST('中啥打算换阿盛大连水库将盛大阿克苏打算快乐撒旦' AS nvarchar(MAX)),100000)) AS DataLength--HashKey=438180382--DataLength=4600000

使用CHECKSUM函数，我们可以很容易根据一个任意长度的字符串得到一个整数值，而且CHECKSUM属于确定性函数，无论何时执行，相同的字符串，总是能获得同样的整数值，CHECKSUM所得值不相同的两个字符串一定不相同。由此，我们可以在比较两个长字符串是否相等时，先比较CHECKSUM的值，如果CHECKSUM值不相等则判定两个字符串不相等，如果CHECKSUM值相等则遍历每个字符是否相等。

上述操作看起来似乎比直接比较字符串更麻烦，但是不同字符串的CHECKSUM值相等的情况并不多，因此需要遍历每个字符判断相等的概率会比较低。

除了散列值存储空间更小和更容易比较外，HASH散列值还有另外一个优点：固定长度和类型，如CHECKSUM返回的就是4字节的INT类型，由于类型和存储空间相同，我们可以对散列值做进一步操作，将散列值平均分拆到不同的存储空间上，这样边有了HASH桶的概念，如我们可以将CHECKSUM返回的值做取余操作，为每个余数划分一片区域。

--====================================--准备测试数据SELECT name INTO HB001FROM sys.all_objects--===================================--查看测试数据SELECT name AS SourceValue,CHECKSUM(name) AS HashKey,
ABS(CHECKSUM(name)%1000) AS HashBucket,FROM HB001ORDER BY HashBucket

当我们有上面数据后，如果要查询表中是否有“sp_procedure_params_rowset”,我们便可以先对“sp_procedure_params_rowset”求HashKeyH和HashBucket，先根据HashBucket找到我们要去那片区域查找数据，在根据HashKey和值去匹配这片区域的数据，因此我们需要到HashBucket=2的区域下找，而HashBucket=2的区域下有3条数据，我们只需要比较这三条数据就可以了，避免了对表中数据进行遍历或排序查找。