ورود به حساب

نام کاربری گذرواژه

گذرواژه را فراموش کردید؟ کلیک کنید

حساب کاربری ندارید؟ ساخت حساب

ساخت حساب کاربری

نام نام کاربری ایمیل شماره موبایل گذرواژه

برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید


09117307688
09117179751

در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید

دسترسی نامحدود

برای کاربرانی که ثبت نام کرده اند

ضمانت بازگشت وجه

درصورت عدم همخوانی توضیحات با کتاب

پشتیبانی

از ساعت 7 صبح تا 10 شب

دانلود کتاب Wissensrohstoff Text

دانلود کتاب متن خام دانش

Wissensrohstoff Text

مشخصات کتاب

Wissensrohstoff Text

ویرایش: [2. wesentlich überarbeitete Auflage] 
نویسندگان: , ,   
سری:  
ISBN (شابک) : 9783658359683, 9783658359690 
ناشر: Springer Vieweg 
سال نشر: 2022 
تعداد صفحات: 385
[396] 
زبان: German 
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) 
حجم فایل: 14 Mb 

قیمت کتاب (تومان) : 31,000



ثبت امتیاز به این کتاب

میانگین امتیاز به این کتاب :
       تعداد امتیاز دهندگان : 9


در صورت تبدیل فایل کتاب Wissensrohstoff Text به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.

توجه داشته باشید کتاب متن خام دانش نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.


توضیحاتی در مورد کتاب متن خام دانش

بیشتر دانش جهان در متون دیجیتالی در دسترس توصیف شده است. این متون منبع مهمی از دانش هستند، اما چگونه می توان این دانش را استخراج کرد؟ در این ویرایش جدید و به روز شده و توسعه یافته اولین کتاب درسی آلمانی در مورد این موضوع، یاد بگیرید که چگونه می توان متن دیجیتال را تهیه، پردازش و در برنامه های کاربردی با استفاده از متن کاوی استفاده کرد.


توضیحاتی درمورد کتاب به خارجی

Der größte Teil des Weltwissens ist in digital verfügbaren Texten beschrieben. Diese Texte stellen einen bedeutsamen Wissensrohstoff dar, doch wie kann dieses Wissen extrahiert werden? Lernen Sie in dieser aktualisierten und erweiterten Neuauflage des ersten deutschen Lehrbuches zu diesem Thema, wie digitaler Text mit Hilfe von Text Mining aufbereitet, verarbeitet und in Anwendungen genutzt werden kann.



فهرست مطالب

Vorwort
Inhaltsverzeichnis
1 Text und Text Mining
	Zusammenfassung
	1.1	Text Mining
		1.1.1	Text ist Wissensrohstoff
		1.1.2	Text Mining und Text-Mining-Werkzeuge
		1.1.3	Text-Mining-Umgebungen
		1.1.4	Was leistet Text Mining?
	1.2	Text und Big Data
	1.3	Aufbau und Struktur von Text
		1.3.1	Arten von Text und ihre Merkmale
		1.3.2	Zeichen, Types und Wörter
		1.3.3	Nachricht, Information
		1.3.4	Information und Wissen
		1.3.5	Beispieltexte und Textressourcen
	1.4	Redundanz in Texten
		1.4.1	Arten von Redundanz
			1.4.1.1 Nahe Wiederholung von Wörtern im Text
			1.4.1.2 Wiederholung von Wortteilen
			1.4.1.3 Wiederholung in der Struktur: Eigennamen
			1.4.1.4 Kongruenz
			1.4.1.5 Feste Wendungen
			1.4.1.6 Explizite Wiederholung typischer Zusammenhänge in verschiedenen Sätzen oder Texten
		1.4.2	Wirkung von Redundanz
			1.4.2.1 Wiederholte Wörter: Wichtige Namen oder Schlagwörter
			1.4.2.2 Wiederholte Substrings im Text: Klassifikation von Texten und Wörtern
	1.5	Linguistische Strukturen
		1.5.1	Texte und linguistische Ebenen
		1.5.2	Warum erfordert die Verarbeitung natürlicher Sprache linguistisches Wissen?
		1.5.3	Zwei Ansätze für die Repräsentation und Verarbeitung linguistischen Wissens
	Literatur
2 Linguistische Repräsentationen
	Zusammenfassung
	2.1	Theoretische Grundlage: Strukturalismus
		2.1.1	Was ist die Grundidee des Strukturalismus?
		2.1.2	Kontexte
	2.2	Morphologie
		2.2.1	Grundbegriffe
		2.2.2	Verarbeitungsparadigmen für die Morphologie
	2.3	Syntaktische Repräsentationen
		2.3.1	Begriffsbestimmung: Was sind syntaktische Strukturen?
		2.3.2	Konstituenten-Syntax
		2.3.3	Dependenzen
		2.3.4	Probabilistisches Parsen
	2.4	Semantische Repräsentationen
		2.4.1	Grundbegriffe und Definition
		2.4.2	Semantische Relationen
	2.5	Fachtexte und Terminologie
		2.5.1	Fachtexte
		2.5.2	Terminologie
	2.6	Die Rolle von Ausnahmen in der Sprache
		2.6.1	Falsche Schreibweisen
		2.6.2	Seltene Ausnahmen
		2.6.3	Auswirkungen dieser Sonderfälle
	Literatur
3 Maschinelle Verarbeitung von Text
	Zusammenfassung
	3.1	Verarbeitungsparadigmen für Text
		3.1.1	Regelbasierte Verarbeitung
		3.1.2	Überwachte Statistische Verarbeitung
		3.1.3	Neuronale Verarbeitung
	3.2	Die Linguistische Pipeline
		3.2.1	Pipeline-Modell
		3.2.2	Einlesen und Vorverarbeitung
		3.2.3	Segmentierung
		3.2.4	Morphologische und Syntaktische Verarbeitung
			3.2.4.1 Grundformreduktion und Stammformreduktion
			3.2.4.2 Tagging mit Wortarten
			3.2.4.3 Chunking
			3.2.4.4 Syntaxparsing
		3.2.5	Semantische Verarbeitung
			3.2.5.1 Eigennamenerkennung
			3.2.5.2 Entity Linking
			3.2.5.3 Koreferenzauflösung
			3.2.5.4 Wortbedeutungsdisambiguierung
		3.2.6	Anwendungsorientierte Verarbeitung
			3.2.6.1 Pipeline für Terminologieextraktion
			3.2.6.2 Pipeline für Entitätenzentriertes Retrieval und Facettierte Suche
			3.2.6.3 Pipeline für Sentimentanalyse
			3.2.6.4 Pipeline für Open Information Extraction
	3.3	Skalierung auf große Datenmengen
		3.3.1	Datenparallelität
		3.3.2	Zusammenhang von Korpusgröße und Qualität
			3.3.2.1 Der More-Data-Effect
			3.3.2.2 Quantitatives Wachstum von Resultatmengen
			3.3.2.3 Qualitative Verbesserung von Resultatmengen
	Literatur
4 Sprachdaten: Lexika und Korpora
	Zusammenfassung
	4.1	Korpusauswahl
		4.1.1	Generische Korpora
		4.1.2	Selbst erstelltes Korpus
		4.1.3	Dokumente oder Sätze? Nur wohlgeformte Sätze?
		4.1.4	Repräsentativität und Ausgewogenheit der Zusammensetzung oder zufällige Auswahl?
		4.1.5	Parallele Korpora
	4.2	Satzkorpuserstellung auf Webdaten
		4.2.1	Crawling
		4.2.2	Beschränkung auf HTML-Dokumente
		4.2.3	Text aus HTML-Dokumenten extrahieren
		4.2.4	Qualitätssicherung
			4.2.4.1 Sprachseparierung auf Dokumentenebene
			4.2.4.2 Sprachüberprüfung auf Satzebene
			4.2.4.3 Umgang mit Dubletten und Quasidubletten
			4.2.4.4 Musterbasierte Entfernung nicht-wohlgeformter Sätze
		4.2.5	Evaluierung und Ranking von Sätzen
			4.2.5.1 Ranking mittels GDEX
			4.2.5.2 Typische Sätze
	4.3	Speicherformate
	4.4	Indexierung
		4.4.1	Indexstrukturen
			4.4.1.1 Klassisch: Einzelwort-Index, evtl. mit zusätzlichen Wortgruppen
			4.4.1.2 Klassisch: Einzelwort-Index mit genauer Position
			4.4.1.3 Spezielle Datenstrukturen für Textsuche: PAT Trees und die Anwendung in der NoSketch-Engine
			4.4.1.4 Ranking der Suchergebnisse
		4.4.2	Verschiedene Typen von Suchanfragen
			4.4.2.1 Beispielsätze für Wörter, Wortgruppen oder Kookkurrenzen
			4.4.2.2 Beispielsätze für Grundformen
			4.4.2.3 Kombination mehrerer Suchkriterien
			4.4.2.4 Extraktion von Wortlisten mit bestimmten Eigenschaften
			4.4.2.5 Extraktion von Relationen
			4.4.2.6 Suche unter Verwendung von Satzsignaturen
	4.5	Manuell erstellte lexikalische Ressourcen
		4.5.1	Klassische Wörterbücher
		4.5.2	Verzeichnisse
			4.5.2.1 Verzeichnisse von Personen
			4.5.2.2 Verzeichnisse von Vornamen und Nachnamen
			4.5.2.3 Geographische Eigennamen
		4.5.3	Relationen zwischen Mengen von Wörtern
			4.5.3.1 Synsets
			4.5.3.2 Erweiterung von Wortnetzen: Semantische Ähnlichkeit mit Word Embeddings
	4.6	Automatische Erweiterung lexikalischer Ressourcen
		4.6.1	Klassische Wörterbuchangaben
			4.6.1.1 Lemmatisierung: Vollform zu Grundform
			4.6.1.2 Flexionsklasse zu Grundform
			4.6.1.3 Wortart zu Grundform: POS-Tagging und NER
			4.6.1.4 Grammatisches Geschlecht zu Nomen
			4.6.1.5 Kompositazerlegung
		4.6.2	Statistische Angaben
			4.6.2.1 Worthäufigkeiten
			4.6.2.2 Wortpaare: Kookkurrenzen
			4.6.2.3 Sentiment
			4.6.2.4 Sachgebietsangaben
	Literatur
5 Sprachstatistik
	Zusammenfassung
	5.1	Statistische Messungen und ihre Zuverlässigkeit
		5.1.1	Aufgaben aus der Sprachstatistik
		5.1.2	Messgrößen der Sprachstatistik
		5.1.3	Präsentation der Ergebnisse
		5.1.4	Messungen und Messwerte
			5.1.4.1 Beschreibung und Nachvollziehbarkeit der Messung
			5.1.4.2 Abhängigkeit von der Wortdefinition am Beispiel der Type-Token-Ratio
			5.1.4.3 Abhängigkeit von der Korpusgröße
			5.1.4.4 Zählen mit oder ohne Wiederholungen: Mittlere Wortlänge
		5.1.5	Abhängigkeit von der Zusammensetzung des Korpus
			5.1.5.1 Abhängigkeit vom Text-Genre
			5.1.5.2 Fehlen gesprochener Sprache
		5.1.6	Abhängigkeit von Optionen bei der der Korpuserstellung
			5.1.6.1 Verzerrte Ergebnisse durch mangelnde Qualität der Rohdaten
			5.1.6.2 Fragwürdige Optionen
			5.1.6.3 Umgang mit seltenen Ereignissen
	5.2	Zipfsches Gesetz
		5.2.1	Zusammenhang zwischen Rang, Häufigkeit und Wortlänge
		5.2.2	Vorhersagen und Anwendungen
	5.3	Kookkurrenzen
		5.3.1	Struktur von signifikanten Kookkurrenzen
		5.3.2	Maße für die statistische Signifikanz einer Kookkurrenz
		5.3.3	Plausibilität der Ergebnisse
		5.3.4	Andere Signifikanzmaße
		5.3.5	Signifikante Kookkurrenzen – Beispiele und Anwendungen
		5.3.6	Erste Anwendungen für signifikante Kookkurrenzen
			5.3.6.1 Fremdsprachliche Daten im Text
			5.3.6.2 Mundart
		5.3.7	Signifikante Kookkurrenzen und Polysemie
		5.3.8	Semantische Relationen zwischen signifikanten Kookkurrenzen
		5.3.9	Visualisierung von signifikanten Kookkurrenzen
	5.4	Distributionelle Semantik
	5.5	Sprachmodelle
	5.6	Dense Vector Embeddings
		5.6.1	Statische Word Embeddings
		5.6.2	Statische Word Embeddings: Wortähnlichkeit und Analogie
		5.6.3	Kontextualisierte Word Embeddings
		5.6.4	Embeddings für Sätze und Texte
		5.6.5	Evaluation von Embeddings
	5.7	Wortbedeutungsinduktion
	5.8	Qualitätsmaße für Korpora
		5.8.1	Statistische Abweichungen von der erwarteten Verteilung
		5.8.2	Verwendung von Vergleichskorpora
		5.8.3	Musterbasierte Abweichungen
	5.9	Statistischer Korpusvergleich
		5.9.1	Voraussetzungen und Ziele
		5.9.2	Wortvergleiche
			5.9.2.1 Log-likelihood-Ratio
			5.9.2.2 tf·idf (term frequency/inverse document frequency)
			5.9.2.3 Statistische Hypothesentests und Burrows Zeta
		5.9.3	Kontextvergleiche
			5.9.3.1 Embeddingbasierte Verfahren
			5.9.3.2 Kookkurrenzstatistik
	Anchor 56
	Literatur
6 Maschinelles Lernen für Sprachverarbeitung
	Zusammenfassung
	6.1	Merkmalsextraktion
	6.2	Clustering
	6.3	Beispiele für Clustering
		6.3.1	Hierarchisches Clustern von Wortarten
		6.3.2	Wortbedeutungsinduktion mit Graph Clustering
		6.3.3	Eventerkennung mit inkrementellem Clustering
		6.3.4	Dokumentclustering mit k-Means
	6.4	Topic-Modelle
		6.4.1	Dokumente enthalten Themenstränge (Topics)
		6.4.2	Modellierung von Topics
		6.4.3	Evaluation und Best Practices
	6.5	Evaluation von Clustering
	6.6	Klassifikation
		6.6.1	Definition und Arten von Klassifikation
		6.6.2	Aufteilung der Beispieldaten
		6.6.3	Beispiele für Klassifikationsalgorithmen
			6.6.3.1 Naïve Bayes
			6.6.3.2 Entscheidungsbäume
			6.6.3.3 Neuronale Netzwerke für die Klassifikation
	6.7	Annotation: Erstellung von Trainingsdaten
		6.7.1	Durchführen von Annotationsprojekten
		6.7.2	Annotationsebenen und Tools zur manuellen Annotation
		6.7.3	Datensatzerstellung mit Crowdsourcing
	6.8	Sequenzklassifikation
	6.9	Evaluation von Klassifikation
		6.9.1	Mengenorientierte Evaluationsmaße
		6.9.2	Andere Evaluationsmaße im Text Mining
	6.10	Neuronale Methoden: End-to-End, Transfer Learning
		6.10.1	End-to-End-Lernen
		6.10.2	Transferlernen
	Literatur
7 Beispielanwendungen
	Zusammenfassung
	7.1	Terminologieextraktion
		7.1.1	Arbeitsablauf der Terminologieextraktion
		7.1.2	Verfahren der Terminologieextraktion
	7.2	Facettierte Suche mit Eigennamen
		7.2.1	Tagesnetzwerk: Visuelle Nachrichtenzusammenfassung
		7.2.2	Storyfinder: Eigene Lesehistorie
		7.2.3	Investigativtool New/s/leak
		7.2.4	Zusammenfassung
	7.3	Sentimentanalyse
		7.3.1	Begriffsbestimmung, Einsatzbereiche, Herausforderungen
		7.3.2	Lösungsansätze und Aufgaben
	7.4	Trendanalysen und News Monitoring
		7.4.1	Trends und schwache Signale
		7.4.2	News Monitoring
		7.4.3	Wörter des Tages
	7.5	Neologismen
		7.5.1	Neologismenwörterbücher
		7.5.2	Hochfrequente Neologismen 2010–2020
	7.6	Kontextvolatilität
		7.6.1	Kurze Zusammenfassung des Verfahrens
		7.6.2	Beispielanwendung
	Anchor 24
	Literatur
Glossar
Stichwortverzeichnis




نظرات کاربران