當前位置:成語大全網 - 書法字典 - 海量數據處理

海量數據處理

處理海量數據的傳統思維

分而治之/哈希映射+Hash_map統計+堆/快速/合並排序

1,海量日誌數據,提取某壹天訪問百度次數最多的IP。

1.)分而治之/哈希映射:把大文件變成小文件(模映射)。

2)hash_map統計:當大文件轉化為小文件時,那麽我們可以使用常規的hash_map(ip,value)在O(n)復雜度上做頻率統計。

3)堆/快速排序:獲取每個文件次數最多的ip,然後對這些文件進行匯總,得到最大的IP次數。

首先是這壹天,把訪問百度的日誌裏的IP拿出來,壹個壹個的寫入壹個大文件。註意IP是32位的,最多有2個32 IPS。也可以使用哈希映射法,比如%1000,將整個大文件映射成1000個小文件,然後找出每個小文件中出現頻率最高的IP(可以使用hash_map對那些1000個文件中的所有IP進行頻率統計,然後依次找出每個文件中出現頻率最高的IP)以及對應的頻率。然後在1000個最大的IP中,找出出現頻率最高的IP,這就是妳想要的。

2.查找熱門查詢,統計300萬個查詢字符串中最熱門的10個查詢。

1.哈希映射:對於每個單詞X,取hash(x)%5000,然後存儲在5000個小文件中(記為x0,x1,...x4999)顯示該值。

所以每個文件大概是200k K,如果有壹部分文件大於1M,可以繼續用類似的方法進行劃分,直到分解得到的小文件的大小小於1M。

2.hash_map統計:對於每個小文件,使用trie tree /hash_map統計每個文件中出現的單詞和對應的頻率。

3.堆/歸並排序:取出出現頻率最高的100個詞(可以使用100個節點的最小堆),然後將這100個詞及其對應的出現頻率存儲在文件中,這樣又得到5000個文件。最後就是這5000個文件合並的過程(類似於合並排序)

5.壹共有10個文件,每個文件是1G,每個文件的每壹行都存儲了用戶的查詢,每個文件的查詢可能會重復。您需要按照查詢頻率進行排序。

哈希映射/模->;HashMap統計->;單個文件堆排序-& gt;多文件合並

6.給定A、B兩個文件,每個文件包含50億個URL,每個文件占64個字節,內存限制為4G,讓妳找出A、B文件的URL * * *?

1.分而治之/哈希映射:遍歷文件A,找到每個url,然後根據得到的值將url存儲到1000個小文件中。這樣每個小文件大約是300M m .遍歷文件B,將URL存儲到1000個小文件中,存儲方式和A壹樣(記錄為)。在此處理之後,所有可能的相同URL都在相應的小文件(

O(N)+N' * O(logK),(N為10000,以N '為hashmap鍵的元素為10000,K=10)。

最小堆包含100個元素。復雜度為O(100w*lg100)。

找出13和2.5億個整數中不重復的整數個數,內存空間不足以容納這2.5億個整數。

/writer #/notebooks/45731388/notes/70253940/preview

這個問題,按順序看這5億個數字。對於讀取的數num,如果對應的二進制中最高位是1,則將此數寫入f1,否則寫入f0。通過這壹步,5億個數字可以分成兩部分,f1中的數字都大於f0中的數字。

除法之後,非常容易知道中位數是在f0還是f1。假設f0中有1億個數,那麽中位數壹定在f1中,而且是f1中從小到大排列的1億個數和其後的數的平均值。

對於f1,可以用下壹個最高的二進制繼續將文件壹分為二,以此類推,直到可以將分好的文件裝入內存,然後將數據裝入內存後直接排序,或者使用快速排序或堆排序(小頂堆)找出第k個最大的數,從而找出中位數。

/s/rdz 4 pft cex 1 ahom 4 kai 3 OQ

/s/vxgtj 9 miw fc 1 yd 3v 44 kvnw