Ubuntu

Ubuntu 20.04 Hadoop

Apache Hadoop składa się z wielu pakietów oprogramowania typu open source, które współpracują z rozproszonym przechowywaniem i rozproszonym przetwarzaniem dużych zbiorów danych. Hadoop mają cztery główne elementy:

Hadoop Common - różne biblioteki oprogramowania, od których zależy od uruchomienia
Hadoop rozproszony system plików (HDFS) - System plików, który umożliwia wydajną dystrybucję i przechowywanie dużych zbiorów danych w klastrze komputerów
Hadoop MapReduce - używane do przetwarzania danych
Hadoop Yarn - API, który zarządza alokacją zasobów obliczeniowych dla całego klastra

W tym samouczku omówimy kroki, aby zainstalować Hadoop w wersji 3 na Ubuntu 20.04. Będzie to obejmować instalację HDFS (Namenode i DataNode), Yarn i MapReduce na klastrze jednego węzła skonfigurowanego w trybie Pseudo rozproszonym, który jest rozproszoną symulacją na jednym komputerze. Każdy komponent Hadoop (HDFS, Yarn, MapReduce) będzie działał w naszym węźle jako osobny proces Java.

W tym samouczku nauczysz się:

Jak dodać użytkowników do środowiska Hadoop
Jak zainstalować Warunek Java
Jak skonfigurować SSH bez hasła
Jak zainstalować Hadoop i skonfigurować niezbędne powiązane pliki XML
Jak rozpocząć klaster Hadoop
Jak uzyskać dostęp do interfejsu internetowego Namenode i ResourceManager

Apache Hadoop na Ubuntu 20.04 Focal Fossa Wymagania oprogramowania i konwencje linii poleceń Linux

Kategoria	Wymagania, konwencje lub wersja oprogramowania
System	Zainstalowany Ubuntu 20.04 lub zaktualizowane Ubuntu 20.04 Focal Fossa
Oprogramowanie	Apache Hadoop, Java
Inny	Uprzywilejowany dostęp do systemu Linux jako root lub za pośrednictwem `sudo` Komenda.
Konwencje	# - Wymaga, aby podane polecenia Linux są wykonywane z uprawnieniami root bezpośrednio jako użytkownik root lub za pomocą `sudo` Komenda $ - Wymaga, aby podane polecenia Linux zostały wykonane jako zwykły użytkownik niepewny

Utwórz użytkownika dla środowiska Hadoop

Hadoop powinien mieć własne dedykowane konto użytkowników w twoim systemie. Aby utworzyć jeden, otwórz terminal i wpisz następujące polecenie. Zostaniesz również poproszony o utworzenie hasła do konta.

$ sudo adduser hadoop

Utwórz nowego użytkownika Hadoop

Zainstaluj wymaganie wstępne Java

Hadoop opiera się na Javie, więc musisz zainstalować go w swoim systemie, zanim będziesz mógł użyć Hadoop. W chwili pisania tego pisma obecny Hadoop wersja 3.1.3 wymaga Java 8, więc to właśnie będziemy instalować w naszym systemie.

Użyj następujących dwóch poleceń, aby pobrać najnowsze listy pakietów trafny i zainstaluj Java 8:

$ sudo appt aktualizacja $ sudo apt instontuj openjdk-8-jdk openjdk-8-jre

Skonfiguruj SSH bez hasła

Hadoop polega na SSH, aby uzyskać dostęp do swoich węzłów. Będzie łączyć się z maszynami zdalnymi za pośrednictwem SSH, a także lokalnego komputera, jeśli masz na nim działając. Tak więc, chociaż w tym samouczku konfigurujemy Hadoop na naszym lokalnym komputerze, nadal musimy zainstalować SSH. Musimy również skonfigurować bez hasła SSH
Aby Hadoop mógł cicho nawiązać połączenia w tle.

Będziemy potrzebować zarówno serwera OpenSsh, jak i pakietu klientów OpenSSH. Zainstaluj je z tym poleceniem:
```
$ sudo apt install openssh-server openSsh-client 
```
Przed kontynuowaniem najlepiej zalogować się do Hadoop Konto użytkownika, które utworzyliśmy wcześniej. Aby zmienić użytkowników w bieżącym terminalu, użyj następującego polecenia:
```
$ su hadoop 
```
Po zainstalowaniu tych pakietów nadszedł czas na generowanie pary kluczy publicznych i prywatnych z następującym poleceniem. Zauważ, że terminal poprosi cię kilka razy, ale wszystko, co musisz zrobić, to uderzać WCHODZIĆ kontynuować.
```
$ ssh -keygen -t rsa 
```
Generowanie klawiszy RSA dla SSH bez hasła
Następnie skopiuj nowo wygenerowany klucz RSA id_rsa.pub do autoryzowane_keys:
```
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/autoryzowane_keys 
```

Możesz upewnić się, że konfiguracja zakończyła się powodzeniem, sshing do LocalHost. Jeśli jesteś w stanie to zrobić bez monitu o hasło, możesz iść. Sshing do systemu bez monitu o hasło oznacza, że zadziałało

Zainstaluj hadoop i skonfiguruj powiązane pliki XML

Udaj się na stronę Apache, aby pobrać Hadoop. Możesz również użyć tego polecenia, jeśli chcesz pobrać Hadoop w wersji 3.1.3 bezpośrednio binarne:

$ wget https: // pobieranie.Apache.org/hadoop/common/hadoop-3.1.3/Hadoop-3.1.3.smoła.GZ

Wyodrębnij pobieranie do Hadoop Direkt domowy użytkownika z tym poleceniem:

$ tar -xzvf hadoop -3.1.3.smoła.GZ -C /Home /Hadoop

Konfigurowanie zmiennej środowiska

Następujące eksport Polecenia skonfigurują wymagane zmienne środowiskowe Hadoop w naszym systemie. Możesz skopiować i wkleić je do swojego terminala (może być konieczne zmianę wiersza 1, jeśli masz inną wersję Hadoop):

Eksport hadoop_home =/home/hadoop/hadoop-3.1.3 export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin Eksport Hadoop_Opts = "-Djava.biblioteka.ścieżka = $ hadoop_home/lib/Native "

Kopiuj

Źródło .Bashrc plik w bieżącej sesji logowania:

$ źródło ~/.Bashrc

Następnie wprowadzimy pewne zmiany w Hadoop-env.cii plik, który można znaleźć w katalogu instalacyjnym Hadoop pod /etc/hadoop. Użyj Nano lub swojego ulubionego edytora tekstu, aby go otworzyć:

$ nano ~/hadoop-3.1.3/etc/hadoop/hadoop-env.cii

Zmienić Java_home zmienne do miejsca zainstalowania Java. W naszym systemie (i prawdopodobnie też, jeśli prowadzisz Ubuntu 20.04 i do tej pory podążamy razem z nami), zmieniamy tę linię na:

Eksport java_home =/usr/lib/jvm/java-8-openjdk-amd64

Zmień zmienną środowiskową java_home

To będzie jedyna zmiana, którą musimy tutaj wprowadzić. Możesz zapisać zmiany w pliku i zamknąć je.

Zmiany konfiguracji w witrynie rdzeniowym.plik XML

Kolejna zmiana, którą musimy dokonać Site Core.XML plik. Otwórz to za pomocą tego polecenia:

$ nano ~/hadoop-3.1.3/etc/hadoop/rdzeń.XML

Wprowadź następującą konfigurację, która instruuje HDFS, aby uruchomiła się w Port LocalHost 9000 i konfiguruje katalog danych tymczasowych.

 fs.Defaultfs HDFS: // LocalHost: 9000 Hadoop.TMP.dir/home/hadoop/hadooptmpdata

Kopiuj

Site Core.Zmiany plików konfiguracyjnych XML

Zapisz zmiany i zamknij ten plik. Następnie utwórz katalog, w którym dane tymczasowe zostaną przechowywane:

$ mkdir ~/hadooptmpdata

Zmiany konfiguracji w witrynie HDFS.plik XML

Utwórz dwa nowe katalogi dla Hadoop, aby przechowywać informacje o nazwie i datanode.

$ mkdir -p ~/hdfs/namenode ~/hdfs/datanode

Następnie edytuj następujący plik, aby powiedzieć Hadoop, gdzie znaleźć te katalogi:

$ nano ~/hadoop-3.1.3/etc/hadoop/HDFS-Site.XML

Wprowadzić następujące zmiany w Site HDFS.XML Plik, przed zapisaniem i zamknięciem:

 DFS.Replikacja 1 DFS.nazwa.Plik DIR: /// home/hadoop/hdfs/namenode dfs.dane.plik DIR: /// home/hadoop/hdfs/datanode

Kopiuj

Site HDFS.Zmiany plików konfiguracyjnych XML

Zmiany konfiguracyjne w witrynie Mapred.plik XML

Otwórz plik konfiguracyjny MapReduce XML za pomocą następującego polecenia:

$ nano ~/hadoop-3.1.3/etc/Hadoop/Mapred-Site.XML

I dokonaj następujących zmian przed zapisaniem i zamknięciem pliku:

 MapReduce.struktura.Imię Parn

Kopiuj

Mapred.Zmiany plików konfiguracyjnych XML

Zmiany konfiguracji w witrynie przędzy.plik XML

Otwórz plik konfiguracyjny przędzy za pomocą następującego polecenia:

$ nano ~/hadoop-3.1.3/etc/hadoop/przędza.XML

Dodaj następujące wpisy w tym pliku, zanim zapisze zmiany i zamknięcie go:

 MapReduceyarn.Nodemanager.Aux-Services MAPREDUCE_SHUFLE

Kopiuj

Zmiany plików konfiguracji konfiguracji przędzy

Rozpoczynając klaster Hadoop

Przed użyciem klastra po raz pierwszy musimy sformatować nazwę nazewniczą. Możesz to zrobić za pomocą następującego polecenia:

$ hdfs namenode -Format

Formatowanie nazwy nazwy HDFS

Twój terminal wypluje wiele informacji. Tak długo, jak nie widzisz żadnych komunikatów o błędach, możesz założyć, że zadziałało.

Następnie uruchom HDFS za pomocą start-DFS.cii scenariusz:

$ start-dfs.cii

Uruchom start-DFS.Skrypt SH

Teraz rozpocznij usługi przędzy za pośrednictwem Start-Yarn.cii scenariusz:

$ start-yarn.cii

Uruchom start-yarn.Skrypt SH

Aby sprawdzić, czy wszystkie usługi/demony Hadoop zostały uruchomione z powodzeniem, możesz użyć JPS Komenda. To pokaże wszystkie procesy obecnie korzystające z Java, które działają w twoim systemie.

$ JPS

Wykonaj JPS, aby zobaczyć wszystkie procesy zależne od Java i sprawdź uruchomione komponenty Hadoop

Teraz możemy sprawdzić bieżącą wersję Hadoop za pomocą jednego z następujących poleceń:

Wersja $ Hadoop

Lub

Wersja $ HDFS

Weryfikacja instalacji Hadoop i bieżącej wersji

Interfejs wiersza poleceń HDFS

Wiersz poleceń HDFS służy do dostępu do HDFS i tworzenia katalogów lub wydawania innych poleceń w celu manipulowania plikami i katalogami. Użyj następującej składni polecenia, aby utworzyć niektóre katalogi i wymienić je:

$ hdfs dfs -mkdir /test $ hdfs dfs -mkdir /hadooponubuntu $ hdfs dfs -ls /

Interakcja z wierszem poleceń HDFS

Uzyskaj dostęp do nazwy i przędzy z przeglądarki

Możesz uzyskać dostęp zarówno do interfejsu internetowego dla Namenode, jak i Menedżer zasobów przędzy za pośrednictwem dowolnej wybranej przeglądarki, takiej jak Mozilla Firefox lub Google Chrome.

W przypadku interfejsu internetowego Namenode przejdź do http: // hadoop-hostname-or-ip: 50070

Interfejs internetowy Datanode dla Hadoop

Aby uzyskać dostęp do interfejsu internetowego Manager Resource YARN, który wyświetli wszystkie obecnie działające zadania w klastrze Hadoop, przejdź do http: // hadoop-hostname-or-p: 8088

Interfejs internetowy menedżera zasobów przędzy dla Hadoop

Wniosek

W tym artykule widzieliśmy, jak zainstalować Hadoop w jednym klastrze węzłów w Ubuntu 20.04 Focal Fossa. Hadoop zapewnia nam obsługujące rozwiązanie do radzenia sobie z dużymi zbiorami danych, umożliwiając nam korzystanie z klastrów do przechowywania i przetwarzania naszych danych. Ułatwia naszą żywotność podczas pracy z dużymi zestawami danych z elastyczną konfiguracją i wygodnym interfejsem internetowym.

Powiązane samouczki Linux:

Rzeczy do zainstalowania na Ubuntu 20.04
Jak utworzyć klaster Kubernetes
Ubuntu 20.04 WordPress z instalacją Apache
Jak zainstalować Kubernetes na Ubuntu 20.04 Focal Fossa Linux
Jak pracować z WooCommerce Rest API z Pythonem
Zagnieżdżone pętle w skryptach Bash
Rzeczy do zrobienia po zainstalowaniu Ubuntu 20.04 Focal Fossa Linux
Mastering Bash Script Loops
Jak zainstalować Kubernetes na Ubuntu 22.04 JAMMY Jellyfish…
Wprowadzenie do automatyzacji, narzędzi i technik Linuksa

Ubuntu 20.04 Hadoop

Utwórz użytkownika dla środowiska Hadoop

Zainstaluj wymaganie wstępne Java

Skonfiguruj SSH bez hasła

Zainstaluj hadoop i skonfiguruj powiązane pliki XML

Konfigurowanie zmiennej środowiska

Zmiany konfiguracji w witrynie rdzeniowym.plik XML

Zmiany konfiguracji w witrynie HDFS.plik XML

Zmiany konfiguracyjne w witrynie Mapred.plik XML

Zmiany konfiguracji w witrynie przędzy.plik XML

Rozpoczynając klaster Hadoop

Interfejs wiersza poleceń HDFS

Uzyskaj dostęp do nazwy i przędzy z przeglądarki

Wniosek

Powiązane samouczki Linux:

Najlepsze artykuły

Jak zainstalować najnowsze nodeJS i NPM w Linux

W tym przewodniku przyjrzymy się, w jaki sposób można zainstalować Nodejs i NPM w Rhel, Centos, Fedo...

Najlepszy odtwarzacz radia internetowego typu open source dla Linux

Jeśli jesteś szefem radiowym, który korzysta z Linuksa, opcje są najlepszymi kandydatami, którzy z ł...