ورود به حساب

نام کاربری گذرواژه

گذرواژه را فراموش کردید؟ کلیک کنید

حساب کاربری ندارید؟ ساخت حساب

ساخت حساب کاربری

نام نام کاربری ایمیل شماره موبایل گذرواژه

برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید


09117307688
09117179751

در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید

دسترسی نامحدود

برای کاربرانی که ثبت نام کرده اند

ضمانت بازگشت وجه

درصورت عدم همخوانی توضیحات با کتاب

پشتیبانی

از ساعت 7 صبح تا 10 شب

دانلود کتاب Multimodal Learning Toward Micro-video Understanding

دانلود کتاب آموزش چند حالته به سوی درک میکرو ویدیویی

Multimodal Learning Toward Micro-video Understanding

مشخصات کتاب

Multimodal Learning Toward Micro-video Understanding

ویرایش:  
نویسندگان: , ,   
سری: Synthesis Lectures on Image, Video, and Multimedia Processing 
ISBN (شابک) : 1681736284, 9781681736280 
ناشر: Morgan & Claypool 
سال نشر: 2019 
تعداد صفحات: 188 
زبان: English 
فرمت فایل : PDF (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود) 
حجم فایل: 48 مگابایت 

قیمت کتاب (تومان) : 31,000



ثبت امتیاز به این کتاب

میانگین امتیاز به این کتاب :
       تعداد امتیاز دهندگان : 10


در صورت تبدیل فایل کتاب Multimodal Learning Toward Micro-video Understanding به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.

توجه داشته باشید کتاب آموزش چند حالته به سوی درک میکرو ویدیویی نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.


توضیحاتی در مورد کتاب آموزش چند حالته به سوی درک میکرو ویدیویی



ویدئوهای میکرو، شکل جدیدی از محتوای تولید شده توسط کاربر، به طور گسترده در بسترهای اجتماعی مختلف مانند Vine، Kuaishou، و TikTok پخش شده است.

متفاوت از ویدیوهای طولانی سنتی، میکروفیلم ها معمولاً توسط دستگاه های تلفن همراه هوشمند در هر مکان در عرض چند ثانیه ضبط می شوند. به دلیل مختصر بودن و هزینه پهنای باند کم، میکرو ویدئوها در حال افزایش اشتیاق کاربران هستند. شکوفا شدن میکرو ویدئوها، دری را به روی امکان بسیاری از برنامه های کاربردی، از ذخیره محتوای شبکه گرفته تا تبلیغات آنلاین، باز می کند. بنابراین، بسیار مطلوب است که یک طرح مؤثر برای درک ریز ویدئویی با مرتبه بالا ایجاد شود.

درک میکروویدئو به دلیل چالش‌های زیر بی‌اهمیت است: (1) نحوه نشان دادن ویدئوهای میکرو که فقط یک یا چند مضمون یا مفهوم سطح بالا را منتقل می کنند. (2) چگونه می توان از ساختار سلسله مراتبی دسته های مکان برای هدایت تجزیه و تحلیل میکرو ویدئو استفاده کرد. (3) چگونه می توان تأثیر کیفیت پایین ناشی از محیط های پیچیده اطراف و لرزش دوربین را کاهش داد. (4) نحوه مدل‌سازی داده‌های متوالی چندوجهی، یعنی روش‌های متنی، صوتی، بصری و اجتماعی برای افزایش درک میکرو ویدئو. و (5) نحوه ساخت مجموعه داده های معیار در مقیاس بزرگ برای تجزیه و تحلیل. این چالش‌ها تا به امروز تا حد زیادی ناشناخته بوده‌اند.

در این کتاب، ما بر روی پرداختن به چالش‌های ارائه‌شده در بالا با ارائه برخی از تئوری‌های پیشرفته یادگیری چندوجهی تمرکز می‌کنیم. برای نشان دادن اثربخشی این مدل‌ها، ما آن‌ها را برای سه کار عملی درک میکرو ویدئو به کار می‌بریم: پیش‌بینی محبوبیت، تخمین طبقه‌بندی مکان، و مسیریابی میکرو ویدئو. به ویژه، ما ابتدا سه مجموعه داده میکرو ویدئویی در مقیاس بزرگ را برای این وظایف عملی می‌سازیم. سپس یک چارچوب یادگیری انتقالی چندوجهی برای پیش‌بینی محبوبیت میکرو ویدیو ارائه می‌کنیم. علاوه بر این، ما چندین رویکرد یادگیری مشارکتی چندوجهی و یک طرح یادگیری انتقال چندوجهی را برای تخمین طبقه‌بندی محل برگزاری میکرو ویدئو معرفی می‌کنیم. در همین حال، ما یک رویکرد یادگیری متوالی چندوجهی را برای توصیه‌های میکرو ویدئویی ایجاد می‌کنیم. در نهایت، کتاب را به پایان می‌رسانیم و جهت‌های تحقیقاتی آینده در یادگیری چندوجهی به سمت درک میکرو ویدئویی را مشخص می‌کنیم.


توضیحاتی درمورد کتاب به خارجی

Micro-videos, a new form of user-generated content, have been spreading widely across various social platforms, such as Vine, Kuaishou, and TikTok.

Different from traditional long videos, micro-videos are usually recorded by smart mobile devices at any place within a few seconds. Due to their brevity and low bandwidth cost, micro-videos are gaining increasing user enthusiasm. The blossoming of micro-videos opens the door to the possibility of many promising applications, ranging from network content caching to online advertising. Thus, it is highly desirable to develop an effective scheme for high-order micro-video understanding.

Micro-video understanding is, however, non-trivial due to the following challenges: (1) how to represent micro-videos that only convey one or few high-level themes or concepts; (2) how to utilize the hierarchical structure of venue categories to guide micro-video analysis; (3) how to alleviate the influence of low quality caused by complex surrounding environments and camera shake; (4) how to model multimodal sequential data, i.e. textual, acoustic, visual, and social modalities to enhance micro-video understanding; and (5) how to construct large-scale benchmark datasets for analysis. These challenges have been largely unexplored to date.

In this book, we focus on addressing the challenges presented above by proposing some state-of-the-art multimodal learning theories. To demonstrate the effectiveness of these models, we apply them to three practical tasks of micro-video understanding: popularity prediction, venue category estimation, and micro-video routing. Particularly, we first build three large-scale real-world micro-video datasets for these practical tasks. We then present a multimodal transductive learning framework for micro-video popularity prediction. Furthermore, we introduce several multimodal cooperative learning approaches and a multimodal transfer learning scheme for micro-video venue category estimation. Meanwhile, we develop a multimodal sequential learning approach for micro-video recommendation. Finally, we conclude the book and figure out the future research directions in multimodal learning toward micro-video understanding.



فهرست مطالب

Preface
Acknowledgments
Introduction
	Micro-Video Proliferation
	Practical Tasks
		Micro-Video Popularity Prediction
		Micro-Video Venue Categorization
		Micro-Video Routing
	Research Challenges
	Our Solutions
	Book Structure
Data Collection
	Dataset I for Popularity Prediction
	Dataset II for Venue Category Estimation
	Dataset III for Micro-Video Routing
	Summary
Multimodal Transductive Learning for Micro-Video Popularity Prediction
	Background
	Research Problems
	Feature Extraction
		Observations
		Social Modality
		Visual Modality
		Acoustic Modality
		Textual Modality
	Related Work
		Popularity Prediction
		Multi-View Learning
		Low-Rank Subspace Learning
	Notations and Preliminaries
	Multimodal Transductive Learning
		Objective Formulation
		Optimization
		Experiments and Results
	Multi-Modal Transductive Low-Rank Learning
		Objective Formulation
		Optimization
		Experiments and Results
	Summary
Multimodal Cooperative Learning for Micro-Video Venue Categorization
	Background
	Research Problems
	Related Work
		Multimedia Venue Estimation
		Multi-Modal Multi-Task Learning
		Dictionary Learning
	Multimodal Consistent Learning
		Optimization
		Task Relatedness Estimation
		Complexity Analysis
		Experiments
	Multimodal Complementary Learning
		Multi-Modal Dictionary Learning
		Tree-Guided Multi-Modal Dictionary Learning
		Optimization
		Online Learning
		Experiments
	Multimodal Cooperative Learning
		Multimodal Early Fusion
		Cooperative Networks
		Attention Networks
		Experiments
	Summary
Multimodal Transfer Learning in Micro-Video Analysis
	Background
	Research Problems
	Related Work
	External Sound Dataset
	Deep Multi-Modal Transfer Learning
		Sound Knowledge Transfer
		Multi-Modal Fusion
		Deep Network for Venue Estimation
		Training
	Experiments
		Experimental Settings
		Acoustic Representation (RQ1)
		Performance Comparison (RQ2)
		External Knowledge Effect (RQ3)
		Visualization
		Study of DARE Model (RQ4)
	Summary
Multimodal Sequential Learning for Micro-Video Recommendation
	Background
	Research Problems
	Related Work
	Multimodal Sequential Learning
		The Temporal Graph-Based LSTM Layer
		The Multi-Level Interest Modeling Layer
		The Prediction Layer
	Experiments
		Experimental Settings
		Baselines
		Overall Comparison
		Component-Wise Evaluation of ALPINE
		Justification of the Temporal Graph
		Attention Visualization
	Summary
Research Frontiers
	Micro-Video Annotation
	Micro-Video Captioning
	Micro-Video Thumbnail Selection
	Semantic Ontology Construction
	Pornographic Content Identification
Bibliography
Authors' Biographies
Blank Page




نظرات کاربران