Practical Text Mining with Perl

Author: Roger Bilisoly
Publisher: John Wiley & Sons
ISBN: 9781118210505
Release Date: 2011-09-20
Genre: Computers

Provides readers with the methods, algorithms, and means to perform text mining tasks This book is devoted to the fundamentals of text mining using Perl, an open-source programming tool that is freely available via the Internet (www.perl.org). It covers mining ideas from several perspectives--statistics, data mining, linguistics, and information retrieval--and provides readers with the means to successfully complete text mining tasks on their own. The book begins with an introduction to regular expressions, a text pattern methodology, and quantitative text summaries, all of which are fundamental tools of analyzing text. Then, it builds upon this foundation to explore: Probability and texts, including the bag-of-words model Information retrieval techniques such as the TF-IDF similarity measure Concordance lines and corpus linguistics Multivariate techniques such as correlation, principal components analysis, and clustering Perl modules, German, and permutation tests Each chapter is devoted to a single key topic, and the author carefully and thoughtfully introduces mathematical concepts as they arise, allowing readers to learn as they go without having to refer to additional books. The inclusion of numerous exercises and worked-out examples further complements the book's student-friendly format. Practical Text Mining with Perl is ideal as a textbook for undergraduate and graduate courses in text mining and as a reference for a variety of professionals who are interested in extracting information from text documents.

Data Mining and Learning Analytics

Author: Samira ElAtia
Publisher: John Wiley & Sons
ISBN: 9781118998212
Release Date: 2016-09-20
Genre: Computers

Addresses the impacts of data mining on education and reviews applications in educational research teaching, and learning This book discusses the insights, challenges, issues, expectations, and practical implementation of data mining (DM) within educational mandates. Initial series of chapters offer a general overview of DM, Learning Analytics (LA), and data collection models in the context of educational research, while also defining and discussing data mining’s four guiding principles— prediction, clustering, rule association, and outlier detection. The next series of chapters showcase the pedagogical applications of Educational Data Mining (EDM) and feature case studies drawn from Business, Humanities, Health Sciences, Linguistics, and Physical Sciences education that serve to highlight the successes and some of the limitations of data mining research applications in educational settings. The remaining chapters focus exclusively on EDM’s emerging role in helping to advance educational research—from identifying at-risk students and closing socioeconomic gaps in achievement to aiding in teacher evaluation and facilitating peer conferencing. This book features contributions from international experts in a variety of fields. Includes case studies where data mining techniques have been effectively applied to advance teaching and learning Addresses applications of data mining in educational research, including: social networking and education; policy and legislation in the classroom; and identification of at-risk students Explores Massive Open Online Courses (MOOCs) to study the effectiveness of online networks in promoting learning and understanding the communication patterns among users and students Features supplementary resources including a primer on foundational aspects of educational mining and learning analytics Data Mining and Learning Analytics: Applications in Educational Research is written for both scientists in EDM and educators interested in using and integrating DM and LA to improve education and advance educational research.

Data Mining and Predictive Analytics

Author: Daniel T. Larose
Publisher: John Wiley & Sons
ISBN: 9781118868706
Release Date: 2015-03-16
Genre: Computers

Learn methods of data analysis and their application to real-world data sets This updated second edition serves as an introduction to data mining methods and models, including association rules, clustering, neural networks, logistic regression, and multivariate analysis. The authors apply a unified “white box” approach to data mining methods and models. This approach is designed to walk readers through the operations and nuances of the various methods, using small data sets, so readers can gain an insight into the inner workings of the method under review. Chapters provide readers with hands-on analysis problems, representing an opportunity for readers to apply their newly-acquired data mining expertise to solving real problems using large, real-world data sets. Data Mining and Predictive Analytics, Second Edition: Offers comprehensive coverage of association rules, clustering, neural networks, logistic regression, multivariate analysis, and R statistical programming language Features over 750 chapter exercises, allowing readers to assess their understanding of the new material Provides a detailed case study that brings together the lessons learned in the book Includes access to the companion website, www.dataminingconsultant.com, with exclusive password-protected instructor content Data Mining and Predictive Analytics, Second Edition will appeal to computer science and statistic students, as well as students in MBA programs, and chief executives.

Automated Data Collection with R

Author: Simon Munzert
Publisher: John Wiley & Sons
ISBN: 9781118834800
Release Date: 2014-12-18
Genre: Computers

A hands on guide to web scraping and text mining for both beginners and experienced users of R Introduces fundamental concepts of the main architecture of the web and databases and covers HTTP, HTML, XML, JSON, SQL. Provides basic techniques to query web documents and data sets (XPath and regular expressions). An extensive set of exercises are presented to guide the reader through each technique. Explores both supervised and unsupervised techniques as well as advanced techniques such as data scraping and text management. Case studies are featured throughout along with examples for each technique presented. R code and solutions to exercises featured in the book are provided on a supporting website.

R in a Nutshell

Author: Joseph Adler
Publisher: O'Reilly Germany
ISBN: 9783897216501
Release Date: 2010-12-31
Genre: Computers

Wozu sollte man R lernen? Da gibt es viele Gründe: Weil man damit natürlich ganz andere Möglichkeiten hat als mit einer Tabellenkalkulation wie Excel, aber auch mehr Spielraum als mit gängiger Statistiksoftware wie SPSS und SAS. Anders als bei diesen Programmen hat man nämlich direkten Zugriff auf dieselbe, vollwertige Programmiersprache, mit der die fertigen Analyse- und Visualisierungsmethoden realisiert sind – so lassen sich nahtlos eigene Algorithmen integrieren und komplexe Arbeitsabläufe realisieren. Und nicht zuletzt, weil R offen gegenüber beliebigen Datenquellen ist, von der einfachen Textdatei über binäre Fremdformate bis hin zu den ganz großen relationalen Datenbanken. Zudem ist R Open Source und erobert momentan von der universitären Welt aus die professionelle Statistik. R kann viel. Und Sie können viel mit R machen – wenn Sie wissen, wie es geht. Willkommen in der R-Welt: Installieren Sie R und stöbern Sie in Ihrem gut bestückten Werkzeugkasten: Sie haben eine Konsole und eine grafische Benutzeroberfläche, unzählige vordefinierte Analyse- und Visualisierungsoperationen – und Pakete, Pakete, Pakete. Für quasi jeden statistischen Anwendungsbereich können Sie sich aus dem reichen Schatz der R-Community bedienen. Sprechen Sie R! Sie müssen Syntax und Grammatik von R nicht lernen – wie im Auslandsurlaub kommen Sie auch hier gut mit ein paar aufgeschnappten Brocken aus. Aber es lohnt sich: Wenn Sie wissen, was es mit R-Objekten auf sich hat, wie Sie eigene Funktionen schreiben und Ihre eigenen Pakete schnüren, sind Sie bei der Analyse Ihrer Daten noch flexibler und effektiver. Datenanalyse und Statistik in der Praxis: Anhand unzähliger Beispiele aus Medizin, Wirtschaft, Sport und Bioinformatik lernen Sie, wie Sie Daten aufbereiten, mithilfe der Grafikfunktionen des lattice-Pakets darstellen, statistische Tests durchführen und Modelle anpassen. Danach werden Ihnen Ihre Daten nichts mehr verheimlichen.

Datenanalyse mit Python

Author: Wes McKinney
Publisher: O'Reilly
ISBN: 9783960102144
Release Date: 2018-10-29
Genre: Computers

Erfahren Sie alles über das Manipulieren, Bereinigen, Verarbeiten und Aufbereiten von Datensätzen mit Python: Aktualisiert auf Python 3.6, zeigt Ihnen dieses konsequent praxisbezogene Buch anhand konkreter Fallbeispiele, wie Sie eine Vielzahl von typischen Datenanalyse-Problemen effektiv lösen. Gleichzeitig lernen Sie die neuesten Versionen von pandas, NumPy, IPython und Jupyter kennen.Geschrieben von Wes McKinney, dem Begründer des pandas-Projekts, bietet Datenanalyse mit Python einen praktischen Einstieg in die Data-Science-Tools von Python. Das Buch eignet sich sowohl für Datenanalysten, für die Python Neuland ist, als auch für Python-Programmierer, die sich in Data Science und Scientific Computing einarbeiten wollen. Daten und zugehöriges Material des Buchs sind auf GitHub verfügbar.Aus dem Inhalt:Nutzen Sie die IPython-Shell und Jupyter Notebook für das explorative ComputingLernen Sie Grundfunktionen und fortgeschrittene Features von NumPy kennenSetzen Sie die Datenanalyse-Tools der pandasBibliothek einVerwenden Sie flexible Werkzeuge zum Laden, Bereinigen, Transformieren, Zusammenführen und Umformen von DatenErstellen Sie interformative Visualisierungen mit matplotlibWenden Sie die GroupBy-Mechanismen von pandas an, um Datensätzen zurechtzuschneiden, umzugestalten und zusammenzufassenAnalysieren und manipulieren Sie verschiedenste Zeitreihen-DatenFür diese aktualisierte 2. Auflage wurde der gesamte Code an Python 3.6 und die neuesten Versionen der pandas-Bibliothek angepasst. Neu in dieser Auflage: Informationen zu fortgeschrittenen pandas-Tools sowie eine kurze Einführung in statsmodels und scikit-learn.

Formale Sprachen

Author: Arto K. Salomaa
Publisher: Springer-Verlag
ISBN: 9783642670817
Release Date: 2013-03-12
Genre: Computers


Hau rein

Author: Gary Vaynerchuk
Publisher: books4success
ISBN: 9783941493612
Release Date: 2010-09-20
Genre: Self-Help

Haben Sie ein Hobby, mit dem Sie sich den ganzen Tag beschäftigen könnten? Eine Leidenschaft, die Sie nachts wach hält? Jetzt ist der perfekte Zeitpunkt, um mit dieser Leidenschaft Geld zu verdienen. In "Hau rein!" zeigt Ihnen Gary Vaynerchuk, wie Sie das Internet nutzen können, um aus Ihren Träumen ein lukratives Geschäftsmodell zu machen. Gary hatte Jahre damit zugebracht, auf die klassische Werbetour aus seinem Familienbetrieb einen nationalen Marktführer zu machen. Dann kam der Tag, der sein Leben veränderte. Er nahm eine Videokamera und machte sich mittels Social Networking ohne großen finanziellen Aufwand selbst zur erfolgreichen Marke. Am Ende dieses Buchs werden Sie Schritt für Schritt gelernt haben, wie Sie soziale Netzwerke nutzen können, um Ihre Träume als Unternehmer wahr werden zu lassen. "Hau rein!" ist das ultimative aktuelle Handbuch für Geschäftsleute und solche, die es werden wollen.

Erweiterte Datenanalyse mit SPSS

Author: Achim Bühl
Publisher: Springer-Verlag
ISBN: 9783322896032
Release Date: 2013-07-02
Genre: Computers

Das Buch beschreibt Methoden der Statistik und des Data Mining, die zu SPSS, der weltweit verbreitetsten Software zur statistischen Datenanalyse, in Form weiterer Module und Programme angeboten werden: Entscheidungsbaumanalyse (das Programm Answer Tree), mehrere Varianten der Korrespondenzanalyse, kategoriale Regression und multidimensionale Skalierung (Categories), Conjoint-Analyse (Conjoint), Pfadanalyse (Amos), Zeitreihenanalysen (Trends) sowie exakte Varianten für nichtparametrische Tests und Kreuztabellenstatistiken bei kleinen Fallzahlen (Exact Tests). Die Erstellung präsentationsreifer Tabellen (Tables) und weiterer Reportmöglichkeiten runden das Buch ab. Die Einführung in die Verfahren erfolgt anhand passender Beispiele, wobei auf komplizierte mathematische Herleitungen verzichtet wird. Alle Datenbeispiele sind auf einer CD beigegeben, so dass sie selbst nachvollzogen bzw. modifiziert werden können.

Bioinformatics

Author: Andreas D. Baxevanis
Publisher: John Wiley & Sons
ISBN: 9780471461012
Release Date: 2004-03-24
Genre: Computers

"In this book, Andy Baxevanis and Francis Ouellette . . . have undertaken the difficult task of organizing the knowledge in this field in a logical progression and presenting it in a digestible form. And they have done an excellent job. This fine text will make a major impact on biological research and, in turn, on progress in biomedicine. We are all in their debt." —Eric Lander from the Foreword Reviews from the First Edition "...provides a broad overview of the basic tools for sequence analysis ... For biologists approaching this subject for the first time, it will be a very useful handbook to keep on the shelf after the first reading, close to the computer." —Nature Structural Biology "...should be in the personal library of any biologist who uses the Internet for the analysis of DNA and protein sequence data." —Science "...a wonderful primer designed to navigate the novice through the intricacies of in scripto analysis ... The accomplished gene searcher will also find this book a useful addition to their library ... an excellent reference to the principles of bioinformatics." —Trends in Biochemical Sciences This new edition of the highly successful Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins provides a sound foundation of basic concepts, with practical discussions and comparisons of both computational tools and databases relevant to biological research. Equipping biologists with the modern tools necessary to solve practical problems in sequence data analysis, the Second Edition covers the broad spectrum of topics in bioinformatics, ranging from Internet concepts to predictive algorithms used on sequence, structure, and expression data. With chapters written by experts in the field, this up-to-date reference thoroughly covers vital concepts and is appropriate for both the novice and the experienced practitioner. Written in clear, simple language, the book is accessible to users without an advanced mathematical or computer science background. This new edition includes: All new end-of-chapter Web resources, bibliographies, and problem sets Accompanying Web site containing the answers to the problems, as well as links to relevant Web resources New coverage of comparative genomics, large-scale genome analysis, sequence assembly, and expressed sequence tags A glossary of commonly used terms in bioinformatics and genomics Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Second Edition is essential reading for researchers, instructors, and students of all levels in molecular biology and bioinformatics, as well as for investigators involved in genomics, positional cloning, clinical research, and computational biology.

Die Berechnung der Zukunft

Author: Nate Silver
Publisher: Heyne Verlag
ISBN: 9783641112707
Release Date: 2013-09-02
Genre: Business & Economics

Zuverlässige Vorhersagen sind doch möglich! Nate Silver ist der heimliche Gewinner der amerikanischen Präsidentschaftswahlen 2012: ein begnadeter Statistiker, als »Prognose-Popstar« und »Wundernerd« weltberühmt geworden. Er hat die Wahlergebnisse aller 50 amerikanischen Bundesstaaten absolut exakt vorausgesagt – doch damit nicht genug: Jetzt zeigt Nate Silver, wie seine Prognosen in Zukunft Terroranschläge, Umweltkatastrophen und Finanzkrisen verhindern sollen. Gelingt ihm die Abschaffung des Zufalls? Warum werden Wettervorhersagen immer besser, während die Terrorattacken vom 11.09.2001 niemand kommen sah? Warum erkennen Ökonomen eine globale Finanzkrise nicht einmal dann, wenn diese bereits begonnen hat? Das Problem ist nicht der Mangel an Informationen, sondern dass wir die verfügbaren Daten nicht richtig deuten. Zuverlässige Prognosen aber würden uns helfen, Zufälle und Ungewissheiten abzuwehren und unser Schicksal selbst zu bestimmen. Nate Silver zeigt, dass und wie das geht. Erstmals wendet er seine Wahrscheinlichkeitsrechnung nicht nur auf Wahlprognosen an, sondern auf die großen Probleme unserer Zeit: die Finanzmärkte, Ratingagenturen, Epidemien, Erdbeben, den Klimawandel, den Terrorismus. In all diesen Fällen gibt es zahlreiche Prognosen von Experten, die er überprüft – und erklärt, warum sie meist falsch sind. Gleichzeitig schildert er, wie es gelingen kann, im Rauschen der Daten die wesentlichen Informationen herauszufiltern. Ein unterhaltsamer und spannender Augenöffner!