Водич за Semalt за проширување на гребење за Chrome

За секој бизнис да преживее и на крајот да расте, неопходно е да остане пред своите конкуренти и разни ризици. Донесувањето одлуки засновано врз аналитички податоци е сигурен начин да се заборават овие проблеми. Таквите податоци може да се добијат преку стружење на податоците. Овде влегува лесна екстензија за гребење за Chrome: тоа не само што ќе го олесни процесот на собирање на податоци, туку ќе овозможи и да се направи стружење во движење без комплицирани поставувања.

Како да користите стругалка

    1. Првата работа што треба да ја направите е да ја инсталирате наставката, па насочете се кон веб-продавницата за хром, барајте „стругалка“ и кликнете на додавање на Chrome.

    2. Одете на веб-страницата од која имате намера да избивате податоци од, означете го записот за кој сте заинтересирани со истакнување на истите. Десен клик на неа и изберете "scrape similar" на менито што се појавува.

    3. Со тоа ќе се започне посебен прозорец за стругалка за гребење. Овде, ќе видите список на избришани податоци .

    4. За да ја зачувате содржината, кликнете на "зачувај во Google Docs", ова автоматски ќе ги извезува податоците во табела со Google.

Проширено стружење

Во случај да планирате да направите повеќе податоци, можете да го користите напредниот пристап. Забележете, ќе биде многу полесно да работите со алатката ако имате некое знаење за HTML. Да претпоставиме дека сакавте да ги избришете податоците од извор што има архива заснована на податоци за временски серии. Во таков случај, ако го пробате методот опишан погоре, ќе ги добиете нечистите податоци.

За да го решите овој проблем, можете да користите HTML и XML јазик за пребарување познат како XPath. Што прави? XPath препознава податоци во врска со различните елементи содржани во секоја селекција. Следното е упатство за тоа како да се справат со тоа:

1. Одете во конзолата Scraper, на горната лево треба да забележите копче "XPath", кликнете на неа и продолжете да ја склопувате почетната табела.

2. Треба да го напишете XPath за вистинскиот елемент. Тековната XPath што ја вклучува целата информација ќе биде прикажана во формат како овој "// div [3] / div [3] / div [2] / div". Елементите <div> ќе бидат препознаени во документот HTML од страна на компјутерот.

3. За да ги одделите признатите податоци, треба да користите колони за гребење. За да го сторите тоа, треба да барате различни типови на информации што ги имате на располагање. Во зависност од податоците што ги пребарувате, може да имате наслови. Овие наслови се присутни веднаш до секој збир на податоци. Тие се придружени со ознака, во овој случај, ознака <b>.

4. Користејќи го елементот за инспекција лоцирајте и додајте ја ознаката <b> на вашиот XPath. Сега можете да ја означите оваа прва колона како „колона со наслови“, бидејќи ќе ги наведе насловите. Продолжете да креирате различни XPaths за секоја колона што ви треба.

5. Кликнете на гребење и наставката автоматски ќе ги собере податоците и ќе ги организира во различните колони што сте ги поставиле.

mass gmail