Semalt õpetus sellest, kuidas Wikipediast kuulsamaid veebisaite kraapida

Dünaamilised veebisaidid kasutavad kraapimistegevuse reguleerimiseks ja juhtimiseks faile robots.txt. Neid saite kaitsevad veebi kraapimise terminid ja eeskirjad, mis takistavad blogijaid ja turundajaid oma saite kraapimas. Algajatele on veebi kraapimine protsess, mille käigus kogutakse veebisaitidelt ja veebilehtedelt andmeid ja salvestatakse need siis loetavas vormingus.

Dünaamilistelt veebisaitidelt kasulike andmete hankimine võib olla tülikas ülesanne. Andmete eraldamise protsessi lihtsustamiseks kasutavad veebimeistrid roboteid, et saada võimalikult kiiresti vajalik teave. Dünaamilised saidid koosnevad luba- ja keelamisdirektiividest, mis ütlevad robotitele, kus kraapimine on lubatud ja kus mitte.

Vikipeedia kuulsaimate saitide kraapimine

See õpetus hõlmab juhtumianalüüsi, mille viis läbi Brendan Bailey saite kraapides Internetist. Brendan hakkas kõigepealt kokku panema Vikipeedia kõige tugevamate saitide nimekirja. Brendani peamine eesmärk oli tuvastada veebisaidi andmete kaevandamiseks avatud veebilehed robot.txt reeglite alusel. Kui soovite mõnda saiti kraapida, kaaluge autoriõiguse rikkumise vältimiseks veebisaidi teenusetingimuste külastamist.

Dünaamiliste saitide kraapimise reeglid

Veebiandmete ekstraheerimise tööriistade abil on saidi kraapimine vaid kliki küsimus. Allpool kirjeldatakse üksikasjalikku analüüsi selle kohta, kuidas Brendan Bailey Wikipedia saite klassifitseeris, ja tema kasutatud kriteeriume:

Segatud

Brendani juhtumianalüüsi kohaselt saab kõige populaarsemad veebisaidid rühmitada segunemiseks. Sektordiagrammil esindavad mitmesuguste reeglitega veebisaite 69%. Google'i robots.txt on suurepärane näide segatud robots.txt kohta.

Täielik Luba

Täielik luba seevastu tähistab 8%. Selles kontekstis tähendab täielik lubamine, et saidi fail robots.txt annab automatiseeritud programmidele juurdepääsu kogu saidi kraapimiseks. SoundCloud on parim näide. Muud täielike lubade saitide näited hõlmavad järgmist:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

Pole määratud

Veebisaidid, millel on "Pole seatud", moodustasid diagrammis esitatud koguarvust 11%. Pole seatud tähendab kahte järgmist asja: saitidel puudub fail robots.txt või puuduvad saidid "User-Agent" reeglid. Näited veebisaitidest, kus robots.txt-fail on "Pole seadistatud", on järgmised:

  • Live.com
  • Jd.com
  • Cnzz.com

Täielik keelamine

Täielikud keelavad saidid keelavad automatiseeritud programmidel oma saite kraapida. Lingitud on suurepärane näide täieliku keelamise saitidest. Muud näited täielikest keelamissaitidest on järgmised:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

Veebi kraapimine on parim lahendus andmete eraldamiseks. Mõne dünaamilise veebisaidi kraapimine võib teid aga suurte raskuste alla sattuda. See õpetus aitab teil faili robots.txt kohta rohkem mõista ja hoiab ära tulevikus tekkida võivaid probleeme.

mass gmail