دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش: [2. wesentlich überarbeitete Auflage] نویسندگان: Chris Biemann, Gerhard Heyer, Uwe Quasthoff سری: ISBN (شابک) : 9783658359683, 9783658359690 ناشر: Springer Vieweg سال نشر: 2022 تعداد صفحات: 385 [396] زبان: German فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) حجم فایل: 14 Mb
در صورت تبدیل فایل کتاب Wissensrohstoff Text به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب متن خام دانش نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
بیشتر دانش جهان در متون دیجیتالی در دسترس توصیف شده است. این متون منبع مهمی از دانش هستند، اما چگونه می توان این دانش را استخراج کرد؟ در این ویرایش جدید و به روز شده و توسعه یافته اولین کتاب درسی آلمانی در مورد این موضوع، یاد بگیرید که چگونه می توان متن دیجیتال را تهیه، پردازش و در برنامه های کاربردی با استفاده از متن کاوی استفاده کرد.
Der größte Teil des Weltwissens ist in digital verfügbaren Texten beschrieben. Diese Texte stellen einen bedeutsamen Wissensrohstoff dar, doch wie kann dieses Wissen extrahiert werden? Lernen Sie in dieser aktualisierten und erweiterten Neuauflage des ersten deutschen Lehrbuches zu diesem Thema, wie digitaler Text mit Hilfe von Text Mining aufbereitet, verarbeitet und in Anwendungen genutzt werden kann.
Vorwort Inhaltsverzeichnis 1 Text und Text Mining Zusammenfassung 1.1 Text Mining 1.1.1 Text ist Wissensrohstoff 1.1.2 Text Mining und Text-Mining-Werkzeuge 1.1.3 Text-Mining-Umgebungen 1.1.4 Was leistet Text Mining? 1.2 Text und Big Data 1.3 Aufbau und Struktur von Text 1.3.1 Arten von Text und ihre Merkmale 1.3.2 Zeichen, Types und Wörter 1.3.3 Nachricht, Information 1.3.4 Information und Wissen 1.3.5 Beispieltexte und Textressourcen 1.4 Redundanz in Texten 1.4.1 Arten von Redundanz 1.4.1.1 Nahe Wiederholung von Wörtern im Text 1.4.1.2 Wiederholung von Wortteilen 1.4.1.3 Wiederholung in der Struktur: Eigennamen 1.4.1.4 Kongruenz 1.4.1.5 Feste Wendungen 1.4.1.6 Explizite Wiederholung typischer Zusammenhänge in verschiedenen Sätzen oder Texten 1.4.2 Wirkung von Redundanz 1.4.2.1 Wiederholte Wörter: Wichtige Namen oder Schlagwörter 1.4.2.2 Wiederholte Substrings im Text: Klassifikation von Texten und Wörtern 1.5 Linguistische Strukturen 1.5.1 Texte und linguistische Ebenen 1.5.2 Warum erfordert die Verarbeitung natürlicher Sprache linguistisches Wissen? 1.5.3 Zwei Ansätze für die Repräsentation und Verarbeitung linguistischen Wissens Literatur 2 Linguistische Repräsentationen Zusammenfassung 2.1 Theoretische Grundlage: Strukturalismus 2.1.1 Was ist die Grundidee des Strukturalismus? 2.1.2 Kontexte 2.2 Morphologie 2.2.1 Grundbegriffe 2.2.2 Verarbeitungsparadigmen für die Morphologie 2.3 Syntaktische Repräsentationen 2.3.1 Begriffsbestimmung: Was sind syntaktische Strukturen? 2.3.2 Konstituenten-Syntax 2.3.3 Dependenzen 2.3.4 Probabilistisches Parsen 2.4 Semantische Repräsentationen 2.4.1 Grundbegriffe und Definition 2.4.2 Semantische Relationen 2.5 Fachtexte und Terminologie 2.5.1 Fachtexte 2.5.2 Terminologie 2.6 Die Rolle von Ausnahmen in der Sprache 2.6.1 Falsche Schreibweisen 2.6.2 Seltene Ausnahmen 2.6.3 Auswirkungen dieser Sonderfälle Literatur 3 Maschinelle Verarbeitung von Text Zusammenfassung 3.1 Verarbeitungsparadigmen für Text 3.1.1 Regelbasierte Verarbeitung 3.1.2 Überwachte Statistische Verarbeitung 3.1.3 Neuronale Verarbeitung 3.2 Die Linguistische Pipeline 3.2.1 Pipeline-Modell 3.2.2 Einlesen und Vorverarbeitung 3.2.3 Segmentierung 3.2.4 Morphologische und Syntaktische Verarbeitung 3.2.4.1 Grundformreduktion und Stammformreduktion 3.2.4.2 Tagging mit Wortarten 3.2.4.3 Chunking 3.2.4.4 Syntaxparsing 3.2.5 Semantische Verarbeitung 3.2.5.1 Eigennamenerkennung 3.2.5.2 Entity Linking 3.2.5.3 Koreferenzauflösung 3.2.5.4 Wortbedeutungsdisambiguierung 3.2.6 Anwendungsorientierte Verarbeitung 3.2.6.1 Pipeline für Terminologieextraktion 3.2.6.2 Pipeline für Entitätenzentriertes Retrieval und Facettierte Suche 3.2.6.3 Pipeline für Sentimentanalyse 3.2.6.4 Pipeline für Open Information Extraction 3.3 Skalierung auf große Datenmengen 3.3.1 Datenparallelität 3.3.2 Zusammenhang von Korpusgröße und Qualität 3.3.2.1 Der More-Data-Effect 3.3.2.2 Quantitatives Wachstum von Resultatmengen 3.3.2.3 Qualitative Verbesserung von Resultatmengen Literatur 4 Sprachdaten: Lexika und Korpora Zusammenfassung 4.1 Korpusauswahl 4.1.1 Generische Korpora 4.1.2 Selbst erstelltes Korpus 4.1.3 Dokumente oder Sätze? Nur wohlgeformte Sätze? 4.1.4 Repräsentativität und Ausgewogenheit der Zusammensetzung oder zufällige Auswahl? 4.1.5 Parallele Korpora 4.2 Satzkorpuserstellung auf Webdaten 4.2.1 Crawling 4.2.2 Beschränkung auf HTML-Dokumente 4.2.3 Text aus HTML-Dokumenten extrahieren 4.2.4 Qualitätssicherung 4.2.4.1 Sprachseparierung auf Dokumentenebene 4.2.4.2 Sprachüberprüfung auf Satzebene 4.2.4.3 Umgang mit Dubletten und Quasidubletten 4.2.4.4 Musterbasierte Entfernung nicht-wohlgeformter Sätze 4.2.5 Evaluierung und Ranking von Sätzen 4.2.5.1 Ranking mittels GDEX 4.2.5.2 Typische Sätze 4.3 Speicherformate 4.4 Indexierung 4.4.1 Indexstrukturen 4.4.1.1 Klassisch: Einzelwort-Index, evtl. mit zusätzlichen Wortgruppen 4.4.1.2 Klassisch: Einzelwort-Index mit genauer Position 4.4.1.3 Spezielle Datenstrukturen für Textsuche: PAT Trees und die Anwendung in der NoSketch-Engine 4.4.1.4 Ranking der Suchergebnisse 4.4.2 Verschiedene Typen von Suchanfragen 4.4.2.1 Beispielsätze für Wörter, Wortgruppen oder Kookkurrenzen 4.4.2.2 Beispielsätze für Grundformen 4.4.2.3 Kombination mehrerer Suchkriterien 4.4.2.4 Extraktion von Wortlisten mit bestimmten Eigenschaften 4.4.2.5 Extraktion von Relationen 4.4.2.6 Suche unter Verwendung von Satzsignaturen 4.5 Manuell erstellte lexikalische Ressourcen 4.5.1 Klassische Wörterbücher 4.5.2 Verzeichnisse 4.5.2.1 Verzeichnisse von Personen 4.5.2.2 Verzeichnisse von Vornamen und Nachnamen 4.5.2.3 Geographische Eigennamen 4.5.3 Relationen zwischen Mengen von Wörtern 4.5.3.1 Synsets 4.5.3.2 Erweiterung von Wortnetzen: Semantische Ähnlichkeit mit Word Embeddings 4.6 Automatische Erweiterung lexikalischer Ressourcen 4.6.1 Klassische Wörterbuchangaben 4.6.1.1 Lemmatisierung: Vollform zu Grundform 4.6.1.2 Flexionsklasse zu Grundform 4.6.1.3 Wortart zu Grundform: POS-Tagging und NER 4.6.1.4 Grammatisches Geschlecht zu Nomen 4.6.1.5 Kompositazerlegung 4.6.2 Statistische Angaben 4.6.2.1 Worthäufigkeiten 4.6.2.2 Wortpaare: Kookkurrenzen 4.6.2.3 Sentiment 4.6.2.4 Sachgebietsangaben Literatur 5 Sprachstatistik Zusammenfassung 5.1 Statistische Messungen und ihre Zuverlässigkeit 5.1.1 Aufgaben aus der Sprachstatistik 5.1.2 Messgrößen der Sprachstatistik 5.1.3 Präsentation der Ergebnisse 5.1.4 Messungen und Messwerte 5.1.4.1 Beschreibung und Nachvollziehbarkeit der Messung 5.1.4.2 Abhängigkeit von der Wortdefinition am Beispiel der Type-Token-Ratio 5.1.4.3 Abhängigkeit von der Korpusgröße 5.1.4.4 Zählen mit oder ohne Wiederholungen: Mittlere Wortlänge 5.1.5 Abhängigkeit von der Zusammensetzung des Korpus 5.1.5.1 Abhängigkeit vom Text-Genre 5.1.5.2 Fehlen gesprochener Sprache 5.1.6 Abhängigkeit von Optionen bei der der Korpuserstellung 5.1.6.1 Verzerrte Ergebnisse durch mangelnde Qualität der Rohdaten 5.1.6.2 Fragwürdige Optionen 5.1.6.3 Umgang mit seltenen Ereignissen 5.2 Zipfsches Gesetz 5.2.1 Zusammenhang zwischen Rang, Häufigkeit und Wortlänge 5.2.2 Vorhersagen und Anwendungen 5.3 Kookkurrenzen 5.3.1 Struktur von signifikanten Kookkurrenzen 5.3.2 Maße für die statistische Signifikanz einer Kookkurrenz 5.3.3 Plausibilität der Ergebnisse 5.3.4 Andere Signifikanzmaße 5.3.5 Signifikante Kookkurrenzen – Beispiele und Anwendungen 5.3.6 Erste Anwendungen für signifikante Kookkurrenzen 5.3.6.1 Fremdsprachliche Daten im Text 5.3.6.2 Mundart 5.3.7 Signifikante Kookkurrenzen und Polysemie 5.3.8 Semantische Relationen zwischen signifikanten Kookkurrenzen 5.3.9 Visualisierung von signifikanten Kookkurrenzen 5.4 Distributionelle Semantik 5.5 Sprachmodelle 5.6 Dense Vector Embeddings 5.6.1 Statische Word Embeddings 5.6.2 Statische Word Embeddings: Wortähnlichkeit und Analogie 5.6.3 Kontextualisierte Word Embeddings 5.6.4 Embeddings für Sätze und Texte 5.6.5 Evaluation von Embeddings 5.7 Wortbedeutungsinduktion 5.8 Qualitätsmaße für Korpora 5.8.1 Statistische Abweichungen von der erwarteten Verteilung 5.8.2 Verwendung von Vergleichskorpora 5.8.3 Musterbasierte Abweichungen 5.9 Statistischer Korpusvergleich 5.9.1 Voraussetzungen und Ziele 5.9.2 Wortvergleiche 5.9.2.1 Log-likelihood-Ratio 5.9.2.2 tf·idf (term frequency/inverse document frequency) 5.9.2.3 Statistische Hypothesentests und Burrows Zeta 5.9.3 Kontextvergleiche 5.9.3.1 Embeddingbasierte Verfahren 5.9.3.2 Kookkurrenzstatistik Anchor 56 Literatur 6 Maschinelles Lernen für Sprachverarbeitung Zusammenfassung 6.1 Merkmalsextraktion 6.2 Clustering 6.3 Beispiele für Clustering 6.3.1 Hierarchisches Clustern von Wortarten 6.3.2 Wortbedeutungsinduktion mit Graph Clustering 6.3.3 Eventerkennung mit inkrementellem Clustering 6.3.4 Dokumentclustering mit k-Means 6.4 Topic-Modelle 6.4.1 Dokumente enthalten Themenstränge (Topics) 6.4.2 Modellierung von Topics 6.4.3 Evaluation und Best Practices 6.5 Evaluation von Clustering 6.6 Klassifikation 6.6.1 Definition und Arten von Klassifikation 6.6.2 Aufteilung der Beispieldaten 6.6.3 Beispiele für Klassifikationsalgorithmen 6.6.3.1 Naïve Bayes 6.6.3.2 Entscheidungsbäume 6.6.3.3 Neuronale Netzwerke für die Klassifikation 6.7 Annotation: Erstellung von Trainingsdaten 6.7.1 Durchführen von Annotationsprojekten 6.7.2 Annotationsebenen und Tools zur manuellen Annotation 6.7.3 Datensatzerstellung mit Crowdsourcing 6.8 Sequenzklassifikation 6.9 Evaluation von Klassifikation 6.9.1 Mengenorientierte Evaluationsmaße 6.9.2 Andere Evaluationsmaße im Text Mining 6.10 Neuronale Methoden: End-to-End, Transfer Learning 6.10.1 End-to-End-Lernen 6.10.2 Transferlernen Literatur 7 Beispielanwendungen Zusammenfassung 7.1 Terminologieextraktion 7.1.1 Arbeitsablauf der Terminologieextraktion 7.1.2 Verfahren der Terminologieextraktion 7.2 Facettierte Suche mit Eigennamen 7.2.1 Tagesnetzwerk: Visuelle Nachrichtenzusammenfassung 7.2.2 Storyfinder: Eigene Lesehistorie 7.2.3 Investigativtool New/s/leak 7.2.4 Zusammenfassung 7.3 Sentimentanalyse 7.3.1 Begriffsbestimmung, Einsatzbereiche, Herausforderungen 7.3.2 Lösungsansätze und Aufgaben 7.4 Trendanalysen und News Monitoring 7.4.1 Trends und schwache Signale 7.4.2 News Monitoring 7.4.3 Wörter des Tages 7.5 Neologismen 7.5.1 Neologismenwörterbücher 7.5.2 Hochfrequente Neologismen 2010–2020 7.6 Kontextvolatilität 7.6.1 Kurze Zusammenfassung des Verfahrens 7.6.2 Beispielanwendung Anchor 24 Literatur Glossar Stichwortverzeichnis