散列 Hash

一、什么是散列？

散列 Hash是和顺序、链接和索引一样，是存储集合或者线性表的一种方法。

散列的基本思想是：以集合或线性表中的每个元素的关键字K为自变量，通过一个散列函数 h(K) 得到的结果，将这个结果解释为一块连续的存储空间（如数组）的地址（如数组下标），将这个元素存储到这个空间中。

h(K) 称为散列函数或者哈希函数，它实现了关键字到存储地址的映射。h(K)的值 称为散列地址或者哈希地址。存储空间是线性表进行散列存储的空间，所以称之为散列表或者哈希表。

如果出现一个待插入的元素的散列地址已经被占用，使得该元素无法直接存入到此单元中，这种现象成为冲突。

我们把不同关键字通过散列函数后得到相同的散列地址的元素成为同义词。

装载因子 a：指散列表中已存入元素数 n 和散列空间大小 m 的比值。a 越小时，冲突可能性越小，但是空间利用率越小。a 一般控制在0.6~0.9为宜。
散列函数：选择适当的散列函数讲元素均分在各个区域。
解决冲突的方法

解决冲突的方法分为开放定址法和链接法两种。

开放定址法是从发生冲突的单元开始，按照一定的次序，从散列表中找出一个空闲的存储单元，把冲突元素插入到该单元。插入到该单元的元素叫非同义词元素。

从发生冲突的单元开始，依次寻找下一个空闲单元。

探查序列为 d, d+(1^2), d+(2^2), d+(3^2), ...

使用两个散列函数 h1 和 h2，若关键字通过第一个散列函数得出的下标 d 冲突的话，探查的增量为 h2(K)。

把发生冲突的同义词元素用单链表链接起来，散列表则保存他们的表头指针。

开放定址法处理冲突的平均查找长度 > 链接法 > 任何其他查找方法