دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش:
نویسندگان: Tom White
سری:
ناشر: Helion
سال نشر: 2015
تعداد صفحات: [667]
زبان: Polish
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 9 Mb
در صورت تبدیل فایل کتاب Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب هادوپ راهنمای کامل تجزیه و تحلیل داده ها و ذخیره سازی نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
Spis treści Przedmowa Wprowadzenie Kwestie porządkowe Co nowego znajdziesz w wydaniu czwartym? Konwencje stosowane w tej książce Korzystanie z przykładowego kodu Podziękowania Część I. Podstawy platformy Hadoop Rozdział 1. Poznaj platformę Hadoop Dane! Przechowywanie i analizowanie danych Przetwarzanie w zapytaniach wszystkich danych Poza przetwarzanie wsadowe Porównanie z innymi systemami Systemy RDBMS Przetwarzanie sieciowe Przetwarzanie z udziałem ochotników Krótka historia platformy Apache Hadoop Zawartość książki Rozdział 2. Model MapReduce Zbiór danych meteorologicznych Format danych Analizowanie danych za pomocą narzędzi uniksowych Analizowanie danych za pomocą Hadoopa Mapowanie i redukcja Model MapReduce w Javie Skalowanie Przepływ danych Funkcje łączące Wykonywanie rozproszonego zadania w modelu MapReduce Narzędzie Streaming Hadoop Ruby Python Rozdział 3. System HDFS Projekt systemu HDFS Pojęcia związane z systemem HDFS Bloki Węzły nazw i węzły danych Zapisywanie bloków w pamięci podręcznej Federacje w systemie HDFS Wysoka dostępność w systemie HDFS Interfejs uruchamiany z wiersza poleceń Podstawowe operacje w systemie plików Systemy plików w Hadoopie Interfejsy Interfejs w Javie Odczyt danych na podstawie adresu URL systemu Hadoop Odczyt danych za pomocą interfejsu API FileSystem Zapis danych Katalogi Zapytania w systemie plików Usuwanie danych Przepływ danych Anatomia odczytu pliku Anatomia procesu zapisu danych do pliku Model zapewniania spójności Równoległe kopiowanie za pomocą programu distcp Zachowywanie równowagi w klastrach z systemem HDFS Rozdział 4. System YARN Struktura działania aplikacji w systemie YARN Żądania zasobów Czas życia aplikacji Budowanie aplikacji systemu YARN System YARN a implementacja MapReduce 1 Szeregowanie w systemie YARN Dostępne programy szeregujące Konfigurowanie programu szeregującego Capacity Konfigurowanie programu szeregującego Fair Szeregowanie z opóźnieniem Podejście Dominant Resource Fairness Dalsza lektura Rozdział 5. Operacje wejścia-wyjścia w platformie Hadoop Integralność danych Integralność danych w systemie HDFS Klasa LocalFileSystem Klasa ChecksumFileSystem Kompresja Kodeki Kompresja i podział danych wejściowych Wykorzystywanie kompresji w modelu MapReduce Serializacja Interfejs Writable Klasy z rodziny Writable Tworzenie niestandardowych implementacji interfejsu Writable Platformy do obsługi serializacji Plikowe struktury danych Klasa SequenceFile Klasa MapFile Inne formaty plików i formaty kolumnowe Część II. Model MapReduce Rozdział 6. Budowanie aplikacji w modelu MapReduce API do obsługi konfiguracji Łączenie zasobów Podstawianie wartości zmiennych Przygotowywanie środowiska programowania Zarządzanie konfiguracją GenericOptionsParser, Tool i ToolRunner Pisanie testów jednostkowych za pomocą biblioteki MRUnit Mapper Reduktor Uruchamianie kodu lokalnie na danych testowych Uruchamianie zadania w lokalnym mechanizmie wykonywania zadań Testowanie sterownika Uruchamianie programów w klastrze Tworzenie pakietu z zadaniem Uruchamianie zadania Sieciowy interfejs użytkownika modelu MapReduce Pobieranie wyników Debugowanie zadania Dzienniki w Hadoopie Zdalne diagnozowanie Dostrajanie zadania Profilowanie operacji Przepływ pracy w modelu MapReduce Rozbijanie problemu na zadania w modelu MapReduce JobControl Apache Oozie Rozdział 7. Jak działa model MapReduce? Wykonywanie zadań w modelu MapReduce Przesyłanie zadania Inicjowanie zadania Przypisywanie operacji do węzłów Wykonywanie operacji Aktualizowanie informacji o postępie i statusu Ukończenie zadania Niepowodzenia Niepowodzenie operacji Niepowodzenie zarządcy aplikacji Niepowodzenie menedżera węzła Niepowodzenie menedżera zasobów Przestawianie i sortowanie Etap mapowania Etap redukcji Dostrajanie konfiguracji Wykonywanie operacji Środowisko wykonywania operacji Wykonywanie spekulacyjne Klasy z rodziny OutputCommitter Rozdział 8. Typy i formaty z modelu MapReduce Typy w modelu MapReduce Domyślne zadanie z modelu MapReduce Formaty wejściowe Wejściowe porcje danych i rekordy Tekstowe dane wejściowe Binarne dane wejściowe Różne dane wejściowe Dane wejściowe (i wyjściowe) z bazy Formaty danych wyjściowych Tekstowe dane wyjściowe Binarne dane wyjściowe Wiele danych wyjściowych Leniwe generowanie danych wyjściowych Dane wyjściowe dla bazy Rozdział 9. Funkcje modelu MapReduce Liczniki Liczniki wbudowane Zdefiniowane przez użytkowników liczniki Javy Zdefiniowane przez użytkownika liczniki narzędzia Streaming Sortowanie Przygotowania Częściowe sortowanie Sortowanie wszystkich danych Sortowanie pomocnicze Złączanie Złączanie po stronie mapowania Złączanie po stronie redukcji Rozdzielanie danych pomocniczych Wykorzystanie konfiguracji zadania Rozproszona pamięć podręczna Klasy biblioteczne modelu MapReduce Część III. Praca z platformą Hadoop Rozdział 10. Budowanie klastra opartego na platformie Hadoop Specyfikacja klastra Określanie wielkości klastra Topologia sieci Przygotowywanie i instalowanie klastra Instalowanie Javy Tworzenie kont użytkowników w Uniksie Instalowanie Hadoopa Konfigurowanie ustawień protokołu SSH Konfigurowanie Hadoopa Formatowanie systemu plików HDFS Uruchamianie i zatrzymywanie demonów Tworzenie katalogów użytkowników Konfiguracja Hadoopa Zarządzanie konfiguracją Ustawienia środowiskowe Ważne właściwości demonów Hadoopa Adresy i porty demonów Hadoopa Inne właściwości Hadoopa Bezpieczeństwo Kerberos i Hadoop Tokeny do delegowania uprawnień Inne usprawnienia w zabezpieczeniach Testy porównawcze klastra opartego na Hadoopie Testy porównawcze w Hadoopie Zadania użytkowników Rozdział 11. Zarządzanie platformą Hadoop System HDFS Trwałe struktury danych Tryb bezpieczny Rejestrowanie dziennika inspekcji Narzędzia Monitorowanie Rejestrowanie informacji w dziennikach Wskaźniki i technologia JMX Konserwacja Standardowe procedury administracyjne Dodawanie i usuwanie węzłów Aktualizacje Część IV. Powiązane projekty Rozdział 12. Avro Typy danych i schematy systemu Avro Serializacja i deserializacja w pamięci Specyficzny interfejs API Pliki danych systemu Avro Współdziałanie języków Interfejs API dla Pythona Narzędzia systemu Avro Określanie schematu Porządek sortowania Avro i model MapReduce Sortowanie za pomocą modelu MapReduce i systemu Avro Używanie systemu Avro w innych językach Rozdział 13. Parquet Model danych Kodowanie struktury zagnieżdżonych danych Format plików Parquet Konfiguracja dla formatu Parquet Zapis i odczyt plików w formacie Parquet Avro, Protocol Buffers i Thrift Format Parquet i model MapReduce Instalowanie platformy Flume Rozdział 14. Flume Przykład Transakcje i niezawodność Porcje zdarzeń Ujścia w systemie HDFS Podział na partycje i interceptory Formaty plików Rozsyłanie danych do wielu kanałów Gwarancje dostarczenia Selektory replikacji i rozsyłania Dystrybucja — warstwy agentów Gwarancje dostarczenia danych Grupy ujść Integrowanie platformy Flume z aplikacjami Katalog komponentów Dalsza lektura Pobieranie Sqoopa Rozdział 15. Sqoop Konektory Sqoopa Przykładowa operacja importu Formaty plików tekstowych i binarnych Wygenerowany kod Inne systemy serializacji Importowanie — dokładne omówienie Kontrolowanie procesu importu Import i spójność Przyrostowy import Importowanie w trybie bezpośrednim Praca z zaimportowanymi danymi Importowane dane i platforma Hive Importowanie dużych obiektów Eksportowanie Eksportowanie — dokładne omówienie Eksport i transakcje Eksport i pliki typu SequenceFile Dalsza lektura Rozdział 16. Pig Instalowanie i uruchamianie platformy Pig Tryby wykonywania Uruchamianie programów platformy Pig Grunt Edytory kodu w języku Pig Latin Przykład Generowanie przykładowych danych Porównanie platformy Pig z bazami danych Język Pig Latin Struktura Instrukcje Wyrażenia Typy Schematy Funkcje Makra Funkcje zdefiniowane przez użytkownika Funkcje UDF służące do filtrowania Obliczeniowa funkcja UDF Funkcje UDF służące do wczytywania danych Operatory używane do przetwarzania danych Wczytywanie i zapisywanie danych Filtrowanie danych Grupowanie i złączanie danych Sortowanie danych Łączenie i dzielenie danych Platforma Pig w praktyce Współbieżność Relacje anonimowe Podstawianie wartości pod parametry Dalsza lektura Rozdział 17. Hive Instalowanie platformy Hive Powłoka platformy Hive Przykład Uruchamianie platformy Hive Konfigurowanie platformy Hive Usługi platformy Hive Magazyn metadanych Porównanie z tradycyjnymi bazami danych Uwzględnianie schematu przy odczycie lub przy zapisie Aktualizacje, transakcje i indeksy Inne silniki obsługujące język SQL w Hadoopie HiveQL Typy danych Operatory i funkcje Tabele Tabele zarządzane i tabele zewnętrzne Partycje i kubełki Formaty przechowywania danych Importowanie danych Modyfikowanie tabel Usuwanie tabel Pobieranie danych Sortowanie i agregacja danych Skrypty modelu MapReduce Złączenia Podzapytania Widoki Funkcje zdefiniowane przez użytkowników Pisanie funkcji UDF Pisanie funkcji UDAF Dalsza lektura Rozdział 18. Crunch Przykład Podstawowe interfejsy API Cruncha Proste operacje Typy Źródłowe i docelowe zbiory danych Funkcje Materializacja Wykonywanie potoku Uruchamianie potoku Zatrzymywanie potoku Inspekcja planu wykonania w Crunchu Algorytmy iteracyjne Tworzenie punktów kontrolnych w potokach Biblioteki w Crunchu Dalsza lektura Rozdział 19. Spark Instalowanie Sparka Przykład Aplikacje, zadania, etapy i operacje w Sparku Niezależna aplikacja w języku Scala Przykład napisany w Javie Przykład napisany w Pythonie Zbiory RDD Tworzenie zbiorów RDD Transformacje i akcje Utrwalanie danych Serializacja Zmienne współużytkowane Zmienne rozsyłane Akumulatory Anatomia przebiegu zadania w Sparku Przesyłanie zadań Tworzenie skierowanego grafu acyklicznego Szeregowanie operacji Wykonywanie operacji Wykonawcy i menedżery klastra Spark i YARN Dalsza lektura Rozdział 20. HBase Podstawy Tło historyczne Omówienie zagadnień Krótki przegląd modelu danych Implementacja Instalacja Przebieg testowy Klienty Java Model MapReduce Interfejsy REST i Thrift Budowanie interaktywnej aplikacji do przesyłania zapytań Projekt schematu Wczytywanie danych Zapytania interaktywne Baza HBase a bazy RDBMS Historia cieszącej się powodzeniem usługi Baza HBase Bazy HBase w praktyce System HDFS Interfejs użytkownika Wskaźniki Liczniki Dalsza lektura Rozdział 21. ZooKeeper Instalowanie i uruchamianie systemu ZooKeeper Przykład Przynależność do grupy w systemie ZooKeeper Tworzenie grupy Dołączanie członków do grupy Wyświetlanie członków grupy Usuwanie grupy Usługa ZooKeeper Model danych Operacje Implementacja Spójność Sesje Stany Budowanie aplikacji z wykorzystaniem ZooKeepera Usługa do zarządzania konfiguracją Odporna na błędy aplikacja ZooKeepera Usługa do zarządzania blokadami Inne rozproszone struktury danych i protokoły ZooKeeper w środowisku produkcyjnym Odporność a wydajność Konfiguracja Dalsza lektura Część V. Studia przypadków Rozdział 22. Integrowanie danych w firmie Cerner Od integracji procesorów do integracji semantycznej Poznaj platformę Crunch Budowanie kompletnego obrazu Integrowanie danych z obszaru opieki zdrowotnej Możliwość łączenia danych w różnych platformach Co dalej? Rozdział 23. Nauka o danych biologicznych — ratowanie życia za pomocą oprogramowania Struktura DNA Kod genetyczny — przekształcanie liter DNA w białka Traktowanie kodu DNA jak kodu źródłowego Projekt poznania ludzkiego genomu i genomy referencyjne Sekwencjonowanie i wyrównywanie DNA ADAM — skalowalna platforma do analizy genomu Programowanie piśmienne za pomocą języka IDL systemu Avro Dostęp do danych kolumnowych w formacie Parquet Prosty przykład — zliczanie k-merów za pomocą Sparka i ADAM-a Od spersonalizowanych reklam do spersonalizowanej medycyny Dołącz do projektu Rozdział 24. Cascading Pola, krotki i potoki Operacje Typy Tap, Scheme i Flow Cascading w praktyce Elastyczność Hadoop i Cascading w serwisie ShareThis Podsumowanie Dodatki Dodatek A. Instalowanie platformy Apache Hadoop Wymagania wstępne Instalacja Konfiguracja Tryb niezależny Tryb pseudorozproszony Tryb rozproszony Dodatek B. Dystrybucja firmy Cloudera Dodatek C. Przygotowywanie danych meteorologicznych od instytucji NCDC Dodatek D. Dawny i nowy interfejs API Javy dla modelu MapReduce Skorowidz