Professional Documents
Culture Documents
HADOOP應用
HADOOP應用
事情安裝準備
下載 VirtualBox 6.1.16
https://www.virtualbox.org/wiki/Downloads
下載 JAVA 8 jdk-8u271-linux-x64.tar.gz
使用版本 8 太新的版本可能會有問題。
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
下載 HADOOP 2.7.1.tar.gz
https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/
下載 scala-2.11.8.tgz
https://www.scala-lang.org/download/2.11.8.html
下載 spark-2.3.3-bin-hadoop2.7.tgz
https://archive.apache.org/dist/spark/spark-2.3.3/
安裝 JAVA
在安裝 Oracle Java 前,先將系統中的 OpenJava 清除,
開啟 Terminal 輸入指令。
輸入指令進入/home/test/Downloads 資料夾底下。
cd /home/test/Downloads
然後再把下載好的 Java 檔案進行解壓縮複製到/usr/local。
修改 Java 全域環境變數
JAVA_HOME=/usr/local/jdk1.8.0_271
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin
export JAVA_HOME
export PATH
設定 JDK/JRE 的位置給 Ubuntu。
"/usr/local/jdk1.8.0_271/bin/java" 1
"/usr/local/jdk1.8.0_271/bin/javac" 1
"/usr/local/jdk1.8.0_271/bin/javaws" 1
設定 JDK1.8.0_271 為系統默認。
java -version
安裝 SSH
安裝 SSH,為了管理節點,Hadoop 需要 SSH 來做連線,
我們先下指令清除 SSH
ssh localhost
測試完記得先結束 SSH 連線
exit
安裝 HADOOP
進到 /home/test/Downloads 資料夾去解壓縮下載好的 HADOOP 檔案,並移動到
/usr/local 且改資料夾名稱為 Hadoop,修改擁有者為 test。
cd /home/test/Downloads
cd /usr/local
在~/.bashrc 文末增加下列文字,修改變數。
#Set HADOOP_HOME
export HADOOP_HOME=/usr/local/hadoop
#Set JAVA_HOME
export JAVA_HOME=/usr/local/jdk1.8.0_271
export PATH=$PATH:$HADOOP_HOME/bin
然後在下命令執行配置
. ~/.bashrc
設置 JAVA_HOME 的配置,
把文件中原本路徑 ‘export JAVA_HOME=${JAVA_HOME}’ ,
修改為’ export JAVA_HOME=/usr/local/jdk1.8.0_271’ 。
<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
</property>
修改資料夾權限及授權給 test。
然後再修改其可執行權限。
echo $HADOOP_HOME
然後複製文件
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template
$HADOOP_HOME/etc/hadoop/mapred-site.xml
修改 mapred-site.xml 的參數
<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
</description>
</property>
修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml 參數
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/test/hdfs</value>
</property>
建立以上配置指定的目錄並授權目錄給用戶,輸入以下命令:
接著格式化 HDFS
開啟 SSH
ssh localhost
啟動 HADOOP 單節點服務
$HADOOP_HOME/sbin/start-dfs.sh \
&& $HADOOP_HOME/sbin/start-yarn.sh
中間會問你要不要用金鑰連線,請打 ‘YES’。
/usr/local/jdk1.8.0_271/bin/jps
$HADOOP_HOME/sbin/stop-yarn.sh \
&& $HADOOP_HOME/sbin/stop-dfs.sh
在做清除動作。
rm -rf /app/hadoop/tmp/* \
然後再重頭啟動即可。
啟動後就可以看到以下頁面資訊
安裝 Scala
再啟動 Spark 跟 Scala 必須啟動上述的 Hadoop。
將下載好的 scala 解壓縮。
cd /home/test/Downloads
然後修改資料夾名稱為 scala
然後做環境變數設定。
在文末的地方加入下列資訊。
SCALA_HOME=/home/test/scala
export SCALA_HOME
: $SCALA_HOME/bin
然後做文件配置動作,並測試。
source /etc/profile
scala -version
安裝 Spark
將下載好的檔案解壓縮到指定資料夾。
並將資料夾重新命名為 spark。
設置 spark 環境。
在文末的地方加入下列資訊。
SPARK_HOME=/home/test/spark
export SPARK_HOME
:$SPARK_HOME/bin
然後做文件配置動作。
source /etc/profile
進入到 spark/conf/,然後做檔案複製及參數修改。
cd spark/conf/
在文末加入以下:
export JAVA_HOME=/usr/local/jdk1.8.0_271
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SCALA_HOME=/home/test/scala
export SPARK_HOME=/home/test/spark
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native
配置 Slave
vim slaves
位置默認設定為 localhost。
cd spark/sbin/
啓動 start-master.sh 以及 start-slaves.sh
sudo ./start-master.sh
sudo ./start-slaves.sh
這裡再啟動 sudo ./start-slaves.sh 出現了錯誤。
先將服務停止
sudo ./stop-master.sh
sudo ./stop-slaves.sh
先將 root 密碼修改
然後修改/etc/ssh/sshd_config 設定
PermitRootLogin yes
重新啟動 SSH
並且重新啟動
sudo ./start-master.sh
sudo ./start-slaves.sh
Cd ..
Cd bin
在 bin 目錄下輸入指令:
./spark-shell
有以上畫面代表安裝成功。