Jak zainstalować Apache Hadoop na Ubuntu 22.04

Jak zainstalować Apache Hadoop na Ubuntu 22.04

Zrozumienie nieustrukturyzowanych danych i analiza ogromnych ilości danych to dziś inna gra w piłkę. I tak firmy uciekły się do Apache Hadoop i innych powiązanych technologii w celu bardziej efektywnego zarządzania nieustrukturyzowanymi danymi. Nie tylko firmy, ale także osoby fizyczne używają Apache Hadoop do różnych celów, takich jak analiza dużych zestawów danych lub tworzenie strony internetowej, która może przetwarzać zapytania użytkowników. Jednak instalacja Apache Hadoop na Ubuntu może wydawać się trudnym zadaniem dla użytkowników nowych w świecie serwerów Linux. Na szczęście nie musisz być doświadczonym administratorem systemu, aby zainstalować Apache Hadoop na Ubuntu.

Poniższy przewodnik instalacji krok po kroku przejdzie przez cały proces od pobierania oprogramowania do konfigurowania serwera. W tym artykule wyjaśnimy, jak zainstalować Apache Hadoop na Ubuntu 22.System 04 LTS. Można to również użyć do innych wersji Ubuntu.

Krok 1: Zainstaluj zestaw programowy Java

Java jest niezbędnym elementem Apache Hadoop, więc musisz pobrać i zainstalować zestaw programistyczny Java na wszystkich węzłach w sieci, w której Hadoop zostanie zainstalowany. Możesz pobrać JRE lub JDK. Jeśli chcesz tylko uruchomić Hadoop, to JRE jest wystarczający, ale jeśli chcesz utworzyć aplikacje działające na Hadoop, musisz zainstalować JDK. Najnowsza wersja Java, którą obsługuje Hadoop, to Java 8 i 11. Możesz zweryfikować to na stronie Apache i pobrać odpowiednią wersję Java w zależności od systemu operacyjnego.

  1. Domyślne repozytoria Ubuntu zawierają Java 8 i Java 11. Użyj następującego polecenia, aby je zainstalować.
    sudo apt aktualizacja && sudo apt Zainstaluj openjdk-11-jdk  
  2. Po pomyślnym zainstalowaniu sprawdź bieżącą wersję Java:
    Java -version 
    Sprawdź wersję Java
  3. Lokalizacja katalogu Java_Home można znaleźć, uruchamiając następujące polecenie. To będzie wymagane najnowsze w tym artykule.
    dirname $ (dirname $ (readLink -f $ (który java)))) 

    Sprawdź lokalizację java_home

Krok 2: Utwórz użytkownika dla Hadoop

Wszystkie komponenty Hadoop będą działać jako użytkownik, który tworzysz dla Apache Hadoop, a użytkownik będzie również używany do logowania się do interfejsu internetowego Hadoopa. Możesz utworzyć nowe konto użytkownika za pomocą polecenia „sudo” lub możesz utworzyć konto użytkownika z uprawnieniami „root”. Konto użytkownika z uprawnieniami root jest bezpieczniejsze, ale może nie być tak wygodne dla użytkowników, którzy nie są zaznajomieni z wierszem poleceń.

  1. Uruchom następujące polecenie, aby utworzyć nowego użytkownika o nazwie „Hadoop”:
    Sudo Adduser Hadoop  

    Utwórz użytkownika Hadoop

  2. Przełącz się na nowo utworzony użytkownik Hadoop:
    Su - Hadoop  
  3. Teraz skonfiguruj dostęp bez hasła SSH dla nowo utworzonego użytkownika Hadoop. Najpierw wygeneruj klawiaturę SSH:
    SSH -KEYGEN -T RSA  

    Wygeneruj parę kluczy SSH

  4. Skopiuj wygenerowany klucz publiczny do autoryzowanego pliku klucza i ustaw odpowiednie uprawnienia:
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/autoryzowane_keys  CHMOD 640 ~/.ssh/autoryzowane_keys  
  5. Teraz spróbuj ssh do lokalnego hostu.
    SSH Localhost  

    Zostaniesz poproszony o uwierzytelnienie hostów poprzez dodanie kluczy RSA do znanych hostów. Wpisz tak i naciśnij Enter, aby uwierzytelnić Host Local:
    Połącz SSH do LocalHost

Krok 3: Zainstaluj Hadoop na Ubuntu

Po zainstalowaniu Java możesz pobrać Apache Hadoop i wszystkie jego powiązane komponenty, w tym Hive, Pig, Sqoop itp. Najnowszą wersję można znaleźć na oficjalnej stronie pobierania Hadoopa. Pobierz archiwum binarne (nie źródło).

  1. Użyj następującego polecenia, aby pobrać Hadoop 3.3.4:
    wget https: // dlcdn.Apache.org/hadoop/common/hadoop-3.3.4/Hadoop-3.3.4.smoła.GZ  
  2. Po pobraniu pliku możesz go rozpakować do folderu na dysku twardym.
    TAR XZF HADOOP-3.3.4.smoła.GZ  
  3. Zmień nazwę wyodrębnionego folderu, aby usunąć informacje o wersji. Jest to opcjonalny krok, ale jeśli nie chcesz zmienić nazwy, dostosuj pozostałe ścieżki konfiguracyjne.
    MV Hadoop-3.3.4 Hadoop  
  4. Następnie będziesz musiał skonfigurować zmienne środowiskowe Hadoop i Java w systemie. Otwórz ~/.plik bashrc w ulubionym edytorze tekstu:
    nano ~/.Bashrc  

    Dodaj poniższe wiersze do pliku. Można znaleźć lokalizację Java_Home, uruchamiając dirname $ (dirname $ (readLink -f $ (który java)))) polecenie na terminalu.

    Eksport java_home =/usr/lib/jvm/java-11-openjdk-amd64 eksport hadoop_home =/home/hadoop/hadoop export hadoop_install = $ hadoop_home export hadoop_mapred_home = $ hadoop_home export hadoop_common_home = $ hadoop_home hadoop_hd_home = $ hadoop_home = $ hadoop_home export hadoop_common_home = $ hadoop_home Hadoop_home eksport hadoop_common_lib_native_dir = $ hadoop_home/lib/natywna ścieżka eksportu = $ ścieżka: $ hadoop_home/sbin: $ hadoop_home/bin eksport hadoop_opts = "-djava.biblioteka.ścieżka = $ hadoop_home/lib/Native "
    12345678910export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64export HADOOP_HOME=/home/hadoop/hadoopexport HADOOP_INSTALL=$HADOOP_HOMEexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport HADOOP_YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/ Lib/NativeExport Path = $ ścieżka: $ hadoop_home/sbin: $ hadoop_home/binexport hadoop_opts = "-djava.biblioteka.ścieżka = $ hadoop_home/lib/Native "

    Zapisz plik i zamknij go.

  5. Załaduj powyższą konfigurację w bieżącym środowisku.
    Źródło ~/.Bashrc  
  6. Musisz także skonfigurować Java_home W Hadoop-env.cii plik. Edytuj plik zmiennej środowiska Hadoop w edytorze tekstu:
    nano $ hadoop_home/etc/hadoop/hadoop-env.cii  

    Wyszukaj „eksport java_home” i skonfiguruj go z wartością znalezioną w kroku 1. Zobacz poniższy zrzut ekranu:

    Ustaw java_home

    Zapisz plik i zamknij go.

Krok 4: Konfigurowanie Hadoop

Następnie jest skonfigurowanie plików konfiguracyjnych Hadoop dostępnych w katalogu ETC.

  1. Najpierw będziesz musiał stworzyć Namenode I DataNode katalogi w katalogu domu użytkownika Hadoop użytkownika. Uruchom następujące polecenie, aby utworzyć oba katalogi:
    mkdir -p ~/hadoopdata/hdfs/Namenode, Datanode  
  2. Następnie edytuj Site Core.XML PLIK I Aktualizuj nazwę hosta systemu:
    nano $ hadoop_home/etc/hadoop/rdzeń.XML  

    Zmień następującą nazwę zgodnie z nazwą hosta systemu:

    fs.Defaultfs HDFS: // LocalHost: 9000
    123456 fs.Defaultfs HDFS: // LocalHost: 9000

    Zapisz i zamknij plik.

  3. Następnie edytuj Site HDFS.XML plik:
    nano $ hadoop_home/etc/hadoop/hdfs-witryna.XML  

    Zmień ścieżki katalogu Namenode i Datanode, jak pokazano poniżej:

    DFS.Replikacja 1 DFS.nazwa.Dir Plik: /// home/hadoop/hadoopdata/hdfs/namenode dfs.dane.Plik dir: /// home/hadoop/hadoopdata/hdfs/dataanode
    12345678910111213141516 DFS.Replikacja 1 DFS.nazwa.Dir Plik: /// home/hadoop/hadoopdata/hdfs/namenode dfs.dane.Plik dir: /// home/hadoop/hadoopdata/hdfs/dataanode

    Zapisz i zamknij plik.

  4. Następnie edytuj Mapred.XML plik:
    nano $ hadoop_home/etc/hadoop/mapred.XML  

    Dokonaj następujących zmian:

    MapReduce.struktura.Imię Parn
    123456 MapReduce.struktura.Imię Parn

    Zapisz i zamknij plik.

  5. Następnie edytuj strona przędzy.XML plik:
    nano $ hadoop_home/etc/hadoop/przędza.XML  

    Dokonaj następujących zmian:

    przędza.Nodemanager.Aux-Services MAPREDUCE_SHUFLE
    123456 przędza.Nodemanager.Aux-Services MAPREDUCE_SHUFLE

    Zapisz plik i zamknij go.

Krok 5: Rozpocznij klaster Hadoop

Przed rozpoczęciem klastra Hadoop. Będziesz musiał sformatować nazwy jako użytkownik Hadoop.

  • Uruchom następujące polecenie, aby sformatować nazwę hadoop:
    HDFS Namenode -Format  

    Po pomyślnym sformatowaniu katalogu Namenode za pomocą systemu plików HDFS zobaczysz wiadomość „Directory Storage/Home/Hadoop/Hadoopdata/HDFS/Namenode został pomyślnie sformatowany".

    Formatuj nazewniowy

  • Następnie rozpocznij klaster Hadoop z następującym poleceniem.
    start-all.cii  

    Rozpocznij usługi Hadoop

  • Po rozpoczęciu wszystkich usług możesz uzyskać dostęp do Hadoop pod adresem: http: // localhost: 9870

  • A strona aplikacji Hadoop jest dostępna na stronie http: // localhost: 8088

Wniosek

Instalowanie Apache Hadoop na Ubuntu może być trudnym zadaniem dla początkujących, szczególnie jeśli postępują zgodnie z instrukcjami w dokumentacji. Na szczęście ten artykuł zawiera przewodnik krok po kroku, który pomoże ci z łatwością zainstalować Apache Hadoop na Ubuntu. Wszystko, co musisz zrobić, to postępować zgodnie z instrukcjami wymienionymi w tym artykule i możesz być pewien, że instalacja Hadoop będzie uruchomiona w krótkim czasie.