Hadoop 2 Quick Start Guide

Author: Douglas Eadline
Publisher: Addison-Wesley Professional
ISBN: 9780134049991
Release Date: 2015-10-28
Genre: Computers

Get Started Fast with Apache Hadoop® 2, YARN, and Today’s Hadoop Ecosystem With Hadoop 2.x and YARN, Hadoop moves beyond MapReduce to become practical for virtually any type of data processing. Hadoop 2.x and the Data Lake concept represent a radical shift away from conventional approaches to data usage and storage. Hadoop 2.x installations offer unmatched scalability and breakthrough extensibility that supports new and existing Big Data analytics processing methods and models. Hadoop® 2 Quick-Start Guide is the first easy, accessible guide to Apache Hadoop 2.x, YARN, and the modern Hadoop ecosystem. Building on his unsurpassed experience teaching Hadoop and Big Data, author Douglas Eadline covers all the basics you need to know to install and use Hadoop 2 on personal computers or servers, and to navigate the powerful technologies that complement it. Eadline concisely introduces and explains every key Hadoop 2 concept, tool, and service, illustrating each with a simple “beginning-to-end” example and identifying trustworthy, up-to-date resources for learning more. This guide is ideal if you want to learn about Hadoop 2 without getting mired in technical details. Douglas Eadline will bring you up to speed quickly, whether you’re a user, admin, devops specialist, programmer, architect, analyst, or data scientist. Coverage Includes Understanding what Hadoop 2 and YARN do, and how they improve on Hadoop 1 with MapReduce Understanding Hadoop-based Data Lakes versus RDBMS Data Warehouses Installing Hadoop 2 and core services on Linux machines, virtualized sandboxes, or clusters Exploring the Hadoop Distributed File System (HDFS) Understanding the essentials of MapReduce and YARN application programming Simplifying programming and data movement with Apache Pig, Hive, Sqoop, Flume, Oozie, and HBase Observing application progress, controlling jobs, and managing workflows Managing Hadoop efficiently with Apache Ambari–including recipes for HDFS to NFSv3 gateway, HDFS snapshots, and YARN configuration Learning basic Hadoop 2 troubleshooting, and installing Apache Hue and Apache Spark

Big Data Processing With Hadoop

Author: Revathi, T.
Publisher: IGI Global
ISBN: 9781522537915
Release Date: 2018-11-16
Genre: Computers

Due to the increasing availability of affordable internet services, the number of users, and the need for a wider range of multimedia-based applications, internet usage is on the rise. With so many users and such a large amount of data, the requirements of analyzing large data sets leads to the need for further advancements to information processing. Big Data Processing With Hadoop is an essential reference source that discusses possible solutions for millions of users working with a variety of data applications, who expect fast turnaround responses, but encounter issues with processing data at the rate it comes in. Featuring research on topics such as market basket analytics, scheduler load simulator, and writing YARN applications, this book is ideally designed for IoT professionals, students, and engineers seeking coverage on many of the real-world challenges regarding big data.

Cloud Computing for Science and Engineering

Author: Ian Foster
Publisher: MIT Press
ISBN: 9780262037242
Release Date: 2017-09-22
Genre: Computers

The emergence of powerful, always-on cloud utilities has transformed how consumers interact with information technology, enabling video streaming, intelligent personal assistants, and the sharing of content. Businesses, too, have benefited from the cloud, outsourcing much of their information technology to cloud services. Science, however, has not fully exploited the advantages of the cloud. Could scientific discovery be accelerated if mundane chores were automated and outsourced to the cloud? Leading computer scientists Ian Foster and Dennis Gannon argue that it can, and in this book offer a guide to cloud computing for students, scientists, and engineers, with advice and many hands-on examples. The book surveys the technology that underpins the cloud, new approaches to technical problems enabled by the cloud, and the concepts required to integrate cloud services into scientific work. It covers managing data in the cloud, and how to program these services; computing in the cloud, from deploying single virtual machines or containers to supporting basic interactive science experiments to gathering clusters of machines to do data analytics; using the cloud as a platform for automating analysis procedures, machine learning, and analyzing streaming data; building your own cloud with open source software; and cloud security. The book is accompanied by a website, Cloud4SciEng.org, that provides a variety of supplementary material, including exercises, lecture slides, and other resources helpful to readers and instructors.

Software Architecture for Big Data and the Cloud

Author: Ivan Mistrik
Publisher: Morgan Kaufmann
ISBN: 9780128093382
Release Date: 2017-06-12
Genre: Computers

Software Architecture for Big Data and the Cloud is designed to be a single resource that brings together research on how software architectures can solve the challenges imposed by building big data software systems. The challenges of big data on the software architecture can relate to scale, security, integrity, performance, concurrency, parallelism, and dependability, amongst others. Big data handling requires rethinking architectural solutions to meet functional and non-functional requirements related to volume, variety and velocity. The book's editors have varied and complementary backgrounds in requirements and architecture, specifically in software architectures for cloud and big data, as well as expertise in software engineering for cloud and big data. This book brings together work across different disciplines in software engineering, including work expanded from conference tracks and workshops led by the editors. Discusses systematic and disciplined approaches to building software architectures for cloud and big data with state-of-the-art methods and techniques Presents case studies involving enterprise, business, and government service deployment of big data applications Shares guidance on theory, frameworks, methodologies, and architecture for cloud and big data

Practical Data Science with Hadoop and Spark

Author: Ofer Mendelevitch
Publisher: Addison-Wesley Professional
ISBN: 9780134029726
Release Date: 2016-12-08
Genre: Computers

The Complete Guide to Data Science with Hadoop—For Technical Professionals, Businesspeople, and Students Demand is soaring for professionals who can solve real data science problems with Hadoop and Spark. Practical Data Science with Hadoop® and Spark is your complete guide to doing just that. Drawing on immense experience with Hadoop and big data, three leading experts bring together everything you need: high-level concepts, deep-dive techniques, real-world use cases, practical applications, and hands-on tutorials. The authors introduce the essentials of data science and the modern Hadoop ecosystem, explaining how Hadoop and Spark have evolved into an effective platform for solving data science problems at scale. In addition to comprehensive application coverage, the authors also provide useful guidance on the important steps of data ingestion, data munging, and visualization. Once the groundwork is in place, the authors focus on specific applications, including machine learning, predictive modeling for sentiment analysis, clustering for document analysis, anomaly detection, and natural language processing (NLP). This guide provides a strong technical foundation for those who want to do practical data science, and also presents business-driven guidance on how to apply Hadoop and Spark to optimize ROI of data science initiatives. Learn What data science is, how it has evolved, and how to plan a data science career How data volume, variety, and velocity shape data science use cases Hadoop and its ecosystem, including HDFS, MapReduce, YARN, and Spark Data importation with Hive and Spark Data quality, preprocessing, preparation, and modeling Visualization: surfacing insights from huge data sets Machine learning: classification, regression, clustering, and anomaly detection Algorithms and Hadoop tools for predictive modeling Cluster analysis and similarity functions Large-scale anomaly detection NLP: applying data science to human language

Big Data in der Praxis

Author: Jonas Freiknecht
Publisher: Carl Hanser Verlag GmbH Co KG
ISBN: 9783446441774
Release Date: 2014-10-01
Genre: Computers

BIG DATA IN DER PRAXIS // - Für Analysten, BI-Verantwortliche, Data-Scientists, Consultants - Auf der DVD finden Sie: 18 fertige Projekte, die im Buch Schritt für Schritt entwickelt werden; Videotutorials u.a. zur Installation von Hadoop, Hive, HBase (Gesamtdauer: 80 Min.); Testdatensätze für die Wissensdatenbank Dieses Buch bringt Ihnen das Thema Big Data auf sehr praktische Art und Weise nahe. Sie lernen Technologien, Tools und Methoden kennen, entwickeln Beispiel-Lösungen und bekommen aufgezeigt, wie Sie bestehende Systeme vorausschauend auf die mit dem Big Data-Trend einhergehenden Herausforderungen vorbereiten. Dazu werden Sie neben den bekannten Apache-Projekten wie Hadoop, Hive und HBase auch einige weniger bekannte Frameworks wie Apache UIMA oder Apache OpenNLP kennenlernen, um gezielt die Verarbeitung unstrukturierter Daten zu behandeln. Alle hier verwendeten Software-Komponenten stehen im vollen Umfang kostenlos im Internet zur Verfügung. Gemeinsam mit dem Autor werden Sie ganz konkret Schritt für Schritt viele kleinere Projekte aufbauen bis hin zu einer fertigen und funktionstüchtigen Implementierung. Ziel des Buches ist es, Sie auf den Effekt und den Mehrwert der neuen Möglichkeiten aufmerksam zu machen, sodass Sie diese konstruktiv in Ihr Unternehmen tragen können und für sich und Ihre Kollegen somit ein Bewusstsein für den Wert Ihrer Daten schaffen. AUS DEM INHALT // Einführung rund um Big Data // Hadoop installieren, konfigurieren & bedienen // HDFS, Map-Reduce & YARN: Daten speichern und verarbeiten // Hadoop-Ecosystem: Überblick über dessen Komponenten // Einführung in NoSQL // HBase installieren, einrichten & auf Daten zugreifen // Data-Warehousing mit Apache Hive // HiveQL als Abfragesprache, Hive Security, Hive & JDBC // Datenimport aus relationalen Datenbanken mit Sqoop // Big Data-Visualisierung: Diagrammarten, Tipps & Trends // Visualisierungs-Frameworks im Vergleich // D3.js: Entwicklung einiger Beispieldiagramme // Entwicklung einer abschließenden Big Data-Analyse-Lösung // Troubleshooting für die Arbeit mit Hadoop, Hive & HBase

Bildverstehen

Author: Axel Pinz
Publisher: Springer-Verlag
ISBN: 9783709193587
Release Date: 2013-03-13
Genre: Computers

Bildverstehen, Bilder und die ihnen zugrundeliegenden Szenen mit den darin vorkommenden Objekten verstehen und beschreiben, das bedeutet aus der Sicht der Informatik: Sehen mit dem Computer - ‘Computer Vision’. Das Buch behandelt neben wichtigen Merkmalen des menschlichen visuellen Systems auch die nötigen Grundlagen aus digitaler Bildverarbeitung und aus künstlicher Intelligenz. Im Zentrum steht die schrittweise Entwicklung eines neuen Systemmodells für Bildverstehen, anhand dessen verschiedene "Abstraktionsebenen" des maschinellen Sehens, wie Segmentation, Gruppierung auf Aufbau einer Szenenbeschreibung besprochen werden. Das Buch bietet außerdem einen Überblick über gegenwärtige Trends in der Forschung sowie eine sehr aktuelle und ausführliche Bibliographie dieses Fachgebietes. Es liegt hiermit erstmalig eine abgeschlossene, systematische Darstellung dieses noch jungen und in dynamischer Entwicklung begriffenen Fachgebietes vor.

Datenanalyse mit Python

Author: Wes McKinney
Publisher: O'Reilly
ISBN: 9783960102144
Release Date: 2018-10-29
Genre: Computers

Erfahren Sie alles über das Manipulieren, Bereinigen, Verarbeiten und Aufbereiten von Datensätzen mit Python: Aktualisiert auf Python 3.6, zeigt Ihnen dieses konsequent praxisbezogene Buch anhand konkreter Fallbeispiele, wie Sie eine Vielzahl von typischen Datenanalyse-Problemen effektiv lösen. Gleichzeitig lernen Sie die neuesten Versionen von pandas, NumPy, IPython und Jupyter kennen.Geschrieben von Wes McKinney, dem Begründer des pandas-Projekts, bietet Datenanalyse mit Python einen praktischen Einstieg in die Data-Science-Tools von Python. Das Buch eignet sich sowohl für Datenanalysten, für die Python Neuland ist, als auch für Python-Programmierer, die sich in Data Science und Scientific Computing einarbeiten wollen. Daten und zugehöriges Material des Buchs sind auf GitHub verfügbar.Aus dem Inhalt:Nutzen Sie die IPython-Shell und Jupyter Notebook für das explorative ComputingLernen Sie Grundfunktionen und fortgeschrittene Features von NumPy kennenSetzen Sie die Datenanalyse-Tools der pandasBibliothek einVerwenden Sie flexible Werkzeuge zum Laden, Bereinigen, Transformieren, Zusammenführen und Umformen von DatenErstellen Sie interformative Visualisierungen mit matplotlibWenden Sie die GroupBy-Mechanismen von pandas an, um Datensätzen zurechtzuschneiden, umzugestalten und zusammenzufassenAnalysieren und manipulieren Sie verschiedenste Zeitreihen-DatenFür diese aktualisierte 2. Auflage wurde der gesamte Code an Python 3.6 und die neuesten Versionen der pandas-Bibliothek angepasst. Neu in dieser Auflage: Informationen zu fortgeschrittenen pandas-Tools sowie eine kurze Einführung in statsmodels und scikit-learn.

R in a Nutshell

Author: Joseph Adler
Publisher: O'Reilly Germany
ISBN: 9783897216501
Release Date: 2010-12-31
Genre: Computers

Wozu sollte man R lernen? Da gibt es viele Gründe: Weil man damit natürlich ganz andere Möglichkeiten hat als mit einer Tabellenkalkulation wie Excel, aber auch mehr Spielraum als mit gängiger Statistiksoftware wie SPSS und SAS. Anders als bei diesen Programmen hat man nämlich direkten Zugriff auf dieselbe, vollwertige Programmiersprache, mit der die fertigen Analyse- und Visualisierungsmethoden realisiert sind – so lassen sich nahtlos eigene Algorithmen integrieren und komplexe Arbeitsabläufe realisieren. Und nicht zuletzt, weil R offen gegenüber beliebigen Datenquellen ist, von der einfachen Textdatei über binäre Fremdformate bis hin zu den ganz großen relationalen Datenbanken. Zudem ist R Open Source und erobert momentan von der universitären Welt aus die professionelle Statistik. R kann viel. Und Sie können viel mit R machen – wenn Sie wissen, wie es geht. Willkommen in der R-Welt: Installieren Sie R und stöbern Sie in Ihrem gut bestückten Werkzeugkasten: Sie haben eine Konsole und eine grafische Benutzeroberfläche, unzählige vordefinierte Analyse- und Visualisierungsoperationen – und Pakete, Pakete, Pakete. Für quasi jeden statistischen Anwendungsbereich können Sie sich aus dem reichen Schatz der R-Community bedienen. Sprechen Sie R! Sie müssen Syntax und Grammatik von R nicht lernen – wie im Auslandsurlaub kommen Sie auch hier gut mit ein paar aufgeschnappten Brocken aus. Aber es lohnt sich: Wenn Sie wissen, was es mit R-Objekten auf sich hat, wie Sie eigene Funktionen schreiben und Ihre eigenen Pakete schnüren, sind Sie bei der Analyse Ihrer Daten noch flexibler und effektiver. Datenanalyse und Statistik in der Praxis: Anhand unzähliger Beispiele aus Medizin, Wirtschaft, Sport und Bioinformatik lernen Sie, wie Sie Daten aufbereiten, mithilfe der Grafikfunktionen des lattice-Pakets darstellen, statistische Tests durchführen und Modelle anpassen. Danach werden Ihnen Ihre Daten nichts mehr verheimlichen.

J2EE Patterns

Author: Adam Bien
Publisher: Pearson Deutschland GmbH
ISBN: 3827321247
Release Date: 2003
Genre:


UML kurz gut

Author: Dan Pilone
Publisher: O'Reilly Germany
ISBN: 3897212633
Release Date: 2004
Genre:


Analytische Informationssysteme

Author: Peter Gluchowski
Publisher: Springer-Verlag
ISBN: 9783662477632
Release Date: 2015-12-04
Genre: Business & Economics

Informationssysteme für die analytischen Aufgaben von Fach- und Führungskräften treten verstärkt in den Vordergrund. Dieses etablierte Buch diskutiert und evaluiert Begriffe und Konzepte wie Business Intelligence und Big Data. Die aktualisierte und erweiterte fünfte Auflage liefert einen aktuellen Überblick zu Technologien, Produkten und Trends im Bereich analytischer Informationssysteme. Beiträge aus Wirtschaft und Wissenschaft geben einen umfassenden Überblick und eignen sich als fundierte Entscheidungsgrundlage beim Aufbau und Einsatz derartiger Technologien.

Smart Data Analytics

Author: Andreas Wierse
Publisher: Walter de Gruyter GmbH & Co KG
ISBN: 9783110461916
Release Date: 2017-06-26
Genre: Technology & Engineering

Wenn in Datenbergen wertvolle Geheimnisse schlummern, aus denen Profit erzielt werden soll, dann geht es um Big Data. Doch wie schöpft man aus »großen Daten« echte Werte, wenn man nicht gerade Google ist? Um aus Unternehmens-, Maschinen- oder Sensordaten einen Ertrag zu erzielen, reicht Big Data-Technologie allein nicht aus. Entscheidend sind die übergeordneten Innovations prozesse: die smarte Analyse von Big Data. Erst durch den kompetenten Einsatz der richtigen Werkzeuge und Techniken werden aus Big Data tatsächlich Smart Data. Das Praxishandbuch Smart Data Analytics gibt einen Überblick über die Technologie, die bei der Analyse von großen und heterogenen Datenmengen – inklusive Echtzeitdaten – zum Einsatz kommt. Elf Praxisbeispiele zeigen die konkrete Anwendung in kleinen und mittelständischen Unternehmen. So erfahren Sie, wie Sie Ihr Smart Data Analytics-Projekt in Ihrem eigenen Unternehmen vorbereiten und umsetzen können. Das Buch erläutert neben den organisatorischen Aspekten auch die rechtlichen Rahmenbedingungen. Und es zeigt, wie Sie sowohl den Nutzen bewerten können, der aus den Daten gezogen werden soll, als auch den Aufwand, den Sie dafür betreiben müssen. Denn Smart Data steht für mehr als nur die Untersuchung großer Datenmengen: Smart Data Analytics ist der Schlüssel zu einem smarten Umgang mit Ihren Unternehmensdaten und hilft, bislang unentdecktes Potenzial zu entdecken. Dr. Andreas Wierse studierte Mathematik und promovierte in den Ingenieurwissenschaften im Bereich Visualisierung, seit 2011 unterstützt er mittelständische Unternehmen rund um Big und Smart Data Technologie. Dr. Till Riedel lehrt als Informatiker am KIT und koordiniert im Smart Data Solution Center Baden-Württemberg und Smart Data Innovation Lab Forschung und Innovation auf industriellen Datenschätzen.