一、上傳hive0.11解壓后的文件到linux1、用的版本是shark站點提供的,可能是針對shark修改了代碼。2、追加mysql、oracle兩個jdbc驅動包到lib目錄下。二、配置相關文件1、.bash_profile文件exportHIVE_HOME=/home/kituser/bigdata/hive-0.11.0-binexportHIVE_CONF_DIR=$HIVE_HOME/confexportCLASSPATH=$CLASSPATH
系統 2019-08-12 09:27:02 2571
前言Hive是Hadoop一個程序接口,Hive讓數據分析人員快速上手,Hive使用了類SQL的語法,Hive讓JAVA的世界變得簡單而輕巧,Hive讓Hadoop普及到了程序員以外的人。從Hive開始,讓分析師們也能玩轉大數據。1.Hive介紹Hive是建立在Hadoop上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數據的機制。Hive定義了簡單的類SQL查詢語
系統 2019-08-29 22:25:21 2568
Hive是facebook貢獻給apache的開源項目,是建立在Hadoop上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數據的機制。Hive定義了簡單的類SQL查詢語言,稱為QL,它允許熟悉SQL的用戶查詢數據。同時,這個語言也允許熟悉MapReduce開發(fā)者的開發(fā)自定義的mapper和reducer來處理內建的mapper和reducer無法完成的復雜的分析工
系統 2019-08-12 09:27:29 2547
第一步:下載hive打開:http://hive.apache.org/releases.html#Download,在頁面下方可以看到hive與hadoop的版本匹配信息,如下圖:因為我已經安裝的hadoop的版本是1.0.3,所以我選擇下載hive-0.9.0點擊Downloadareleasenow,下載hive-0.9.0.tar.gz第二步:解壓tar-zxvfhive-0.9.0.tar.gz我解壓后的路徑為:/Users/zhangosufe
系統 2019-08-29 22:00:31 2530
由于hive也支持sql,很多人會把hql跟標準sql進行比較,甚至有的時候會直接套用。hive不支持事務也不支持索引,更不支持追加寫,但是對于一般的sql都是能夠支持的。但是對于一些子查詢確實無法支持的,例如select*fromt_ext_1_bkdoubledeletewheref1=(selectmax(f1)fromt_ext_1_bkdoubledelete)這個sql在mysql中是能夠支持的,意思是找到val最大的那一行記錄,然后在hive
系統 2019-08-12 09:27:38 2519
hive并發(fā)調用的運行方式-個人經驗篇-ggjucheng-博客園前言使用hive,我們很多情況下會并發(fā)調用hive程序,將sql任務轉換成mapreuce提交到hadoop集群中,而在本人使用hive的過程中,發(fā)現并發(fā)調用hive有幾個問題,在這個和大家分享下.正文默認安裝hive,hive是使用derby內存數據庫保存hive的元數據,這樣是不可以并發(fā)調用hive的,需要配置為使用mysql保存hive的元數據。運行hive,可以有以下訪問方式:1.h
系統 2019-08-12 01:32:57 2511
1、命令行操作(1)打印查詢頭,需要顯示設置:sethive.cli.print.header=true;(2)加"--",其后的都被認為是注釋,但CLI不解析注釋。帶有注釋的文件只能通過這種方式執(zhí)行:hive-fscript_name(3)-e后跟帶引號的hive指令或者查詢,-S去掉多余的輸出:hive-S-e"select*FROMmytableLIMIT3">/tmp/myquery(4)遍歷所有分區(qū)的查詢將產生一個巨大的MapReduce作業(yè),如
系統 2019-08-12 09:26:57 2498
1.安裝hive2.hive實戰(zhàn)3.hive存儲模型4.深入hql查詢語言5.參考資料及代碼下載<1>.安裝hive下載hive,下載地址http://mirror.bjtu.edu.cn/apache//hive/,解壓該文件:xuqiang@ubuntu:~/hadoop/src/hive$tarzxvfhive-0.7.0-bin.tar.gz設置環(huán)境變量:xuqiang@ubuntu:~/hadoop/src/hive$cdhive-0.7.0-b
系統 2019-08-12 01:33:29 2463
搜索研發(fā)部官方博客?BlogArchive?相似度計算常用方法綜述相似度計算常用方法綜述(2012-7-0509:07:59)標簽:主題相似度,向量空間模型,相似度計算分類:數據挖掘引言相似度計算用于衡量對象之間的相似程度,在數據挖掘、自然語言處理中是一個基礎性計算。其中的關鍵技術主要是兩個部分,對象的特征表示,特征集合之間的相似關系。在信息檢索、網頁判重、推薦系統等,都涉及到對象之間或者對象和對象集合的相似性的計算。而針對不同的應用場景,受限于數據規(guī)模、
系統 2019-08-12 01:32:55 2454
在linux的終端運行:$HIVE_HOME/bin/hive會進入交互模式;$HIVE_HOME/bin/hive-e或者-f是非交互模式1、非交互模式運行HQL語句$HIVE_HOME/bin/hive-e'select*frommovielimit10'會顯示mapreduce的進度,但不會進入hive的交互模式,終于現實查詢結果2、非交互模式運行HQL語句(-S靜音模式)$HIVE_HOME/bin/hive-S-e'select*frommovi
系統 2019-08-12 01:33:12 2450
Hive是將符合SQL語法的字符串解析生成可以在Hadoop上執(zhí)行的MapReduce的工具。使用Hive盡量按照分布式計算的一些特點來設計sql,和傳統關系型數據庫有區(qū)別,所以需要去掉原有關系型數據庫下開發(fā)的一些固有思維?;驹瓌t:1:盡量盡早地過濾數據,減少每個階段的數據量,對于分區(qū)表要加分區(qū),同時只選擇需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10andB.userid<10andA.
系統 2019-08-12 09:26:44 2449
一、控制hive任務中的map數:1.通常情況下,作業(yè)會通過input的目錄產生一個或者多個map任務。主要的決定因素有:input的文件總個數,input的文件大小,集群設置的文件塊大小(目前為128M,可在hive中通過setdfs.block.size;命令查看到,該參數不能自定義修改);2.舉例:a)假設input目錄下有1個文件a,大小為780M,那么hadoop會將該文件a分隔成7個塊(6個128m的塊和1個12m的塊),從而產生7個map數b
系統 2019-08-12 09:27:24 2372
參考:http://blog.csdn.net/qiaochao911/article/details/8613988http://xm-king.iteye.com/blog/1088422HIVE分區(qū),實際上是通過一個路徑來標識的,而不是在物理數據中。比如每天的數據,可能分區(qū)是pt=20121023這樣,那么路徑中它就會變成:/hdfs/path/pt=20121023/data_files。通過路徑來標識的好處是,如果我們需要取特定分區(qū)的數據,只需要
系統 2019-08-12 01:55:14 2358
(1)建student&student1表:(hive托管)createtablestudent(idINT,ageINT,nameSTRING)partitionedby(stat_dateSTRING)clusteredby(id)sortedby(age)into4bucketsrowformatdelimitedfieldsterminatedby',';createtablestudentrc(idINT,ageINT,nameSTRING)pa
系統 2019-08-12 09:27:07 2271
6.1SELECT...FROM語句hive>SELECTname,salaryFROMemployees;--普通查詢hive>SELECTe.name,e.salaryFROMemployeese;--也支持別名查詢當用戶選擇的列是集合數據類型時,Hive會使用JSON語法應用于輸出:hive>SELECTname,subordinatesFROMemployees;顯示JohnDoe["MarySmith","ToddJones"]數組類型的顯示hi
系統 2019-08-12 09:27:05 2213