侧边栏壁纸
博主头像
月伴飞鱼 博主等级

行动起来,活在当下

  • 累计撰写 126 篇文章
  • 累计创建 31 个标签
  • 累计收到 1 条评论

目 录CONTENT

文章目录

海量数据处理问题

月伴飞鱼
2025-03-21 / 0 评论 / 1 点赞 / 11 阅读 / 0 字
温馨提示:
部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

假如有一个1G大小的文件,文件里每一行是一个词,每个词的大小不超过16byte,要求返回出现频率最高的100个词。

内存大小限制是10M

由于内存限制,无法直接将大文件的所有词一次性读到内存中。

可以采用分治策略,把一个大文件分解成多个小文件,保证每个文件的大小小于10M。

  • 进而直接将单个小文件读取到内存中进行处理。

第一步

首先遍历大文件,对遍历到的每个词x,执行 hash(x) % 500

将结果为i的词存放到文件f(i)中,遍历结束后,可以得到500个小文件,每个小文件的大小为2M左右。

第二步

接着统计每个小文件中出现频数最高的100个词,可以使用HashMap来实现,其中key为词,value为该词出现的频率。

  • 对于遍历到的词x,如果在map中不存在,则执行 map.put(x, 1)。

  • 若存在,则执行 map.put(x, map.get(x)+1),将该词出现的次数加1。

第三步

在第二步中找出了每个文件出现频率最高的100个词之后,通过维护一个小顶堆来找出所有小文件中出现频率最高的100个词。

  • 遍历第一个文件,把第一个文件中出现频率最高的100个词构建成一个小顶堆。

  • 如果第一个文件中词的个数小于100,可以继续遍历第二个文件,直到构建好有100个结点的小顶堆为止。

  • 继续遍历其他小文件,如果遍历到的词的出现次数大于堆顶上词的出现次数。

    • 可以用新遍历到的词替换堆顶的词,然后重新调整这个堆为小顶堆。

  • 当遍历完所有小文件后,这个小顶堆中的词就是出现频率最高的100个词。

主要思路如下:

  • 采用分治的思想,进行哈希取余。

  • 使用HashMap统计每个小文件单词出现的次数。

  • 使用小顶堆,遍历步骤2中的小文件,找出词频Top100的单词。

找出相同的URL

给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a、b文件共同的url

分治法+哈希取模:

将a、b 两个文件,用相同的哈希函数(把url换成数字的话,哈希函数更容易构造),分解为1000个独立哈希值相同的小文件。

哈希值相同的url必然在序号对应的文件中,因此只要在序号对应的两个文件中进行url的相互匹配即可。

比较每对序号对应的小文件时,可以使用hash_set

公众号.png

1
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin
    1. 支付宝打赏

      qrcode alipay
    2. 微信打赏

      qrcode weixin
博主关闭了所有页面的评论