Python有一个第三方模块pybloom,这个Python包已经实现了布隆过滤器算法;同时pybloom不仅支持BloomFilter,而且对BloomFilter进行了增强——ScalableBloomFilter,长度可动态扩展的布隆过滤器。
所以不需要自己实现,直接拿来使用就可以了。
pybloom包安装:pipinstallpybloom
pybloom完整的示例代码:
最后以上内容,可用于单机版网络爬虫中的URL去重;
但是分布式网络爬虫,共用一份去重数据,保证去重数据一致性,这就需要布隆过滤器另外一个实现版本(基于Redis),敬请期待!
版权所有 © Copyright © 2002-2030 龙辉游戏资讯网站地图