Tutorial van Semalt over het schrapen van de meest bekende websites van Wikipedia

Dynamische websites gebruiken robots.txt-bestanden om scrapactiviteiten te reguleren en te controleren. Deze sites worden beschermd door webscraping- voorwaarden en -beleid om te voorkomen dat bloggers en marketeers hun sites scrapen. Voor beginners is webscraping een proces waarbij gegevens van websites en webpagina's worden verzameld en vervolgens in leesbare formaten worden opgeslagen.

Het ophalen van nuttige gegevens van dynamische websites kan een omslachtige taak zijn. Om het proces van data-extractie te vereenvoudigen, gebruiken webmasters robots om zo snel mogelijk de benodigde informatie te krijgen. Dynamische sites bevatten richtlijnen voor 'toestaan' en 'niet toestaan' die robots vertellen waar schrapen is toegestaan en waar niet.

De beroemdste sites van Wikipedia verwijderen

Deze tutorial behandelt een casestudy die is uitgevoerd door Brendan Bailey op scrapingsites van internet. Brendan begon met het verzamelen van een lijst met de krachtigste sites van Wikipedia. Brendan's primaire doel was om websites te identificeren die openstaan voor extractie van webgegevens op basis van robot.txt-regels. Als u een site gaat schrapen, overweeg dan om de servicevoorwaarden van de website te bezoeken om schending van auteursrechten te voorkomen.

Regels voor het verwijderen van dynamische sites

Met tools voor het extraheren van webgegevens is het schrapen van een site slechts een kwestie van klikken. De gedetailleerde analyse van hoe Brendan Bailey de Wikipedia-sites classificeerde en de criteria die hij gebruikte, worden hieronder beschreven:

Gemengd

Volgens de case study van Brendan kunnen de meest populaire websites worden gegroepeerd als Mixed. In het cirkeldiagram vertegenwoordigen websites met een combinatie van regels 69%. De robots.txt van Google is een uitstekend voorbeeld van gemengde robots.txt.

Voltooi Allow

Compleet Allow daarentegen markeert 8%. In deze context betekent Volledig toestaan dat het site-robots.txt-bestand geautomatiseerde programma's toegang geeft om de hele site te schrapen. SoundCloud is het beste voorbeeld om te nemen. Andere voorbeelden van Complete Allow-sites zijn:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

Niet ingesteld

Websites met "Niet ingesteld" waren goed voor 11% van het totale aantal dat in de grafiek wordt weergegeven. Niet ingesteld betekent de volgende twee dingen: de sites hebben geen robots.txt-bestand of de sites hebben geen regels voor 'User-Agent'. Voorbeelden van websites waar het robots.txt-bestand "Niet ingesteld" is, zijn:

  • Live.com
  • Jd.com
  • Cnzz.com

Voltooi Disallow

Compleet Disallow-sites verbieden geautomatiseerde programma's om hun sites te schrapen. Linked In is een uitstekend voorbeeld van Complete Disallow-sites. Andere voorbeelden van Complete Disallow Sites zijn onder meer:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

Webscraping is de beste oplossing om gegevens te extraheren. Het schrappen van sommige dynamische websites kan u echter in grote problemen brengen. Deze zelfstudie helpt u meer te weten te komen over het robots.txt-bestand en problemen te voorkomen die zich in de toekomst kunnen voordoen.