dram.me

关于Unicode Normalization

最近cperl优化UTF-8 normalization的性能。

那么什么是normalization呢?可以看看Unicode官方的说明。简单说,显示相同的字符在Unicode中可能存在多种编码,而normalization就是统一化的过程。

如果缺失normalization这一过程,在字符串比较、代码变量名一致性等情况下都会存在问题,Programming Perl(p.61)中对此也有说明。