دسترسی نامحدود
برای کاربرانی که ثبت نام کرده اند
برای ارتباط با ما می توانید از طریق شماره موبایل زیر از طریق تماس و پیامک با ما در ارتباط باشید
در صورت عدم پاسخ گویی از طریق پیامک با پشتیبان در ارتباط باشید
برای کاربرانی که ثبت نام کرده اند
درصورت عدم همخوانی توضیحات با کتاب
از ساعت 7 صبح تا 10 شب
ویرایش:
نویسندگان: Ryan Mitchell
سری:
ISBN (شابک) : 9788575227305, 8575227300
ناشر: Novatec Editora
سال نشر: 2019
تعداد صفحات: 328
زبان: Portuguese
فرمت فایل : EPUB (درصورت درخواست کاربر به PDF، EPUB یا AZW3 تبدیل می شود)
حجم فایل: 4 Mb
در صورت تبدیل فایل کتاب Web Scraping com Python – 2ª edição: Coletando mais dados da web moderna به فرمت های PDF، EPUB، AZW3، MOBI و یا DJVU می توانید به پشتیبان اطلاع دهید تا فایل مورد نظر را تبدیل نمایند.
توجه داشته باشید کتاب Web Scraping با پایتون – ویرایش دوم: جمع آوری داده های بیشتر از وب مدرن نسخه زبان اصلی می باشد و کتاب ترجمه شده به فارسی نمی باشد. وبسایت اینترنشنال لایبرری ارائه دهنده کتاب های زبان اصلی می باشد و هیچ گونه کتاب ترجمه شده یا نوشته شده به فارسی را ارائه نمی دهد.
Prefácio parte I Construindo scrapers capítulo 1 Seu primeiro web scraper Conectando Introdução ao BeautifulSoup Instalando o BeautifulSoup Executando o BeautifulSoup Conectando-se de forma confiável e tratando exceções capítulo 2 Parsing de HTML avançado Nem sempre um martelo é necessário Outras utilidades do BeautifulSoup find() e find_all() com o BeautifulSoup Outros objetos do BeautifulSoup Navegando em árvores Expressões regulares Expressões regulares e o BeautifulSoup Acessando atributos Expressões lambda capítulo 3 Escrevendo web crawlers Percorrendo um único domínio Rastreando um site completo Coletando dados de um site completo Rastreando pela internet capítulo 4 Modelos de web crawling Planejando e definindo objetos Lidando com diferentes layouts de sites Estruturando os crawlers Rastreando sites por meio de pesquisa Rastreando sites por meio de links Rastreando vários tipos de página Pensando nos modelos de web crawlers capítulo 5 Scrapy Instalando o Scrapy Escrevendo um scraper simples Spidering com regras Criando itens Apresentando itens Pipeline de itens Fazendo log com o Scrapy Outros recursos capítulo 6 Armazenando dados Arquivos de mídia Armazenando dados no formato CSV MySQL Instalando o MySQL Alguns comandos básicos Integração com Python Técnicas de banco de dados e boas práticas “Six Degrees” no MySQL Email parte II Coleta de dados avançada capítulo 7 Lendo documentos Codificação de documentos Texto Codificação de texto e a internet global CSV Lendo arquivos CSV PDF Microsoft Word e .docx capítulo 8 Limpando dados sujos Código para limpeza de dados Normalização de dados Limpeza dos dados após a coleta OpenRefine capítulo 9 Lendo e escrevendo em idiomas naturais Resumindo dados Modelos de Markov Six Degrees of Wikipedia: conclusão Natural Language Toolkit Instalação e configuração Análise estatística com o NLTK Análise lexicográfica com o NLTK Recursos adicionais capítulo 10 Rastreando formulários e logins Biblioteca Python Requests Submetendo um formulário básico Botões de rádio, caixas de seleção e outras entradas Submetendo arquivos e imagens Lidando com logins e cookies Autenticação de acesso básica do HTTP Outros problemas de formulário capítulo 11 Scraping de JavaScript Introdução rápida ao JavaScript Bibliotecas JavaScript comuns Ajax e HTML dinâmico Executando JavaScript em Python com o Selenium Webdrivers adicionais do Selenium Lidando com redirecionamentos Última observação sobre o JavaScript capítulo 12 Rastreando por meio de APIs Introdução rápida às APIs Métodos HTTP e APIs Mais sobre respostas de APIsº Parsing de JSON APIs não documentadas Encontrando APIs não documentadas Documentando APIs não documentadas Encontrando e documentando APIs de modo automático Combinando APIs com outras fontes de dados Mais sobre APIs capítulo 13 Processamento de imagens e reconhecimento de texto Visão geral das bibliotecas Pillow Tesseract NumPy Processando textos bem formatados Ajustes automáticos nas imagens Coletando texto de imagens em sites Lendo CAPTCHAs e treinando o Tesseract Treinando o Tesseract Lendo CAPTCHAs e enviando soluções capítulo 14 Evitando armadilhas no scraping Uma observação sobre ética Parecendo um ser humano Ajuste seus cabeçalhos Lidando com cookies em JavaScript Tempo é tudo Recursos de segurança comuns em formulários Valores de campos de entrado ocultos Evitando honeypots Lista de verificação para parecer um ser humano capítulo 15 Testando seu site com scrapers Introdução aos testes O que são testes de unidade? Módulo unittest de Python Testando a Wikipédia Testando com o Selenium Interagindo com o site unittest ou Selenium? capítulo 16 Web Crawling em paralelo Processos versus threads Crawling com várias threads Condições de concorrência e filas Módulo threading Rastreamento com multiprocesso Rastreamento da Wikipédia com multiprocesso Comunicação entre processos Rastreamento com multiprocesso – outra abordagem capítulo 17 Fazendo scraping remotamente Por que usar servidores remotos? Evitando o bloqueio de endereços IP Portabilidade e extensibilidade Tor PySocks Hospedagem remota Executando de uma conta que hospeda sites Executando a partir da nuvem Recursos adicionais capítulo 18 Aspectos legais e éticos do web scraping Marcas registradas, direitos autorais, patentes, oh, céus! Lei de direitos autorais Invasão de bens móveis Lei de Fraude e Abuso de Computadores robots.txt e Termos de Serviço Três web scrapers eBay versus Bidder’s Edge e transgressão a bens móveis Estados Unidos versus Auernheimer e a Lei de Fraude e Abuso de Computadores Field versus Google: direitos autorais e robots.txt Seguindo em frente