人員流動是一個企業的基本情況,每年到了招聘高峰期,找工作的朋友們都非常的緊張,有些新手甚至莫不著頭腦,無從下手,像大數據這種技術型的面試就更容易讓人緊張了。大數據面試題有哪些?不懂Java那就很麻煩了。當然也有人問大數據是什么?
近年我們經常會用到云,云計算也隨之興起,大數據也吸引了越來越多的關注。大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。大數據非常神奇也非常神秘,想要弄懂大數據,一時半會是很難的。在工作中成長,在工作中學習,那么想做大數據,在面試中會遇到些什么樣的問題呢?來看看吧!
1、你會Java語言嗎?熟悉到什么程度?
2、你喜歡的編程語言是什么?為什么?
3、處理過的的數據量?你是如何處理他們的?處理的結果如何。
2、在處理大數據過程中,如何保證得到期望值?
3、如何讓一個網絡爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的數據庫?
4、點擊流數據應該是實時處理?為什么?哪部分應該實時處理?
6、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系數據庫更好?
7、如何判別mapreduce過程有好的負載均衡?什么是負載均衡?
8、Spark和Hive的區別,以及Spark和Hive的數據傾斜調優問題?
9、Hive和Hbase的區別?
10、MapReduce的思想,以及MapReduce調優問題?
11、你所了解的開源網站?
12、有兩個集群,每個集群有3個節點,使用hive分析相同的數據,sql語句完全一樣,一個集群的分析結果比另外一個慢的多,給出造成這種現象的可能原因?13、Hbase的優化?
14、集群的版本,以及集群的瓶頸問題?
15、CRM項目,怎么跟Spark結合?
16、如何創建一個關鍵字分類?
17、海量日志數據,提取出某日訪問百度次數多的那個IP?
18、Hadoop和Spark處理數據時,出現內存溢出的處理方法?
19、有一個1G大小的一個文件,里面每一是一個詞,詞的大小不超過16字節,內存大小限制大小1M,返回頻率的50個詞。
20、你是如何處理缺少數據的?你是推薦使用什么樣的處理技術,或者說你是用什么樣的技術處理呢?
如果不會Java,面試題就答不會,這樣難道不尷尬嗎?正如加里·金(崇拜/崇拜)說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”大數據時代,沒有Java基礎,如何開啟你的大數據時代?