不需要遍历所有文件一一对比,而是使用哈希映射的方式直接对重复文本进行定位比较。从而实现快速去重的效果。
程序所有代码:多线程控制,哈希映射,文本读写,均使用易语言实现。测试1.2G文本稳定。

1.下载源码后,请删除提示的模块(因为没有调用)。
2.删除重复文本,针对的是去除重复的文本行。(以行为单位进行去重复)
请将素数 40000003 改为 40043893 去重复准确率更高。100000文本行错误率为0;
将:“key = B % 40000003”
改为:“key = B % 40043893”
点我下载
(已有 451 次下载)