Večernji List - najnovije vijesti iz Hrvatske, svijeta, sporta, showbiza i lifestyle
Naslovnica Tech/Sci Tehnologija

Kako obogatiti skup podataka podacima s weba pomoću web scrapinga?

Koncept web scrapinga temelji se na korištenju metoda web crawlinga, automatiziranog sustavnog pretraživanja weba postigunog praćenjem poveznica web stranica pomoću web crawlera.
30. lipnja 2020. u 09:34 0 komentara 148 prikaza
Megatrend
Foto: Megatrend/Ilustracija
Pogledajte galeriju 1/2

Područje automatiziranog sustavnog pretraživanja weba svakim danom dobiva sve veću važnost jer količina na webu dostupnih informacija raste te informacije postaju sve vrjednije. Više informacija i bolje informacije od iznimne su važnosti za donošenje poslovnih odluka, zbog čega je korisno znati kako (automatizirano) doći do većih količina informacija na Internetu te kako izvući i obraditi tražene informacije.

Dvije glavne definicije u ovom području su web scraping i web crawling. Web scraping jest sistematizirana ekstrakcija sadržaja (tekstualnog ili medijskog) s web stranica, postignuta korištenjem alata zvanih web scraperi.

Koncept web scrapinga temelji se na korištenju metoda web crawlinga, automatiziranog sustavnog pretraživanja weba postigunog praćenjem poveznica web stranica pomoću web crawlera. Procesi web scrapinga i web crawlinga čine kontinuirani ciklus: crawlingom dolazimo do HTML dokumenata iza web stranica, iz kojih izvlačimo željeni sadržaj i poveznice na ostale web stranice pomoću scrapinga, te dalje vršimo crawling po prikupljenim poveznicama.

Megatrend | Autor : Megatrend/Ilustracija Foto: Megatrend/Ilustracija

Slika 1. Kontinuirani ciklus izmjene web scrapinga i web crawlinga Zašto web scraping? Poduzećima web scraping pomaže na mnogo načina. Najčešće je riječ o kompetitivnim analizama cijena, dobivanju uvida kako se pozicionirati na tržištu ispred konkurencije, te istraživanju tržišnih scenarija (trendova) prije plasiranja usluge ili proizvoda na tržište.

Osim toga, dodatni agregirani podaci s weba uvijek dobro dođu i u raznim područjima umjetne inteligencije. Obrada prirodnog jezika i IBM Watson Obrada prirodnog jezika (eng. Natural Language Processing – NLP) jedno je od područja kojemu web scraping najviše doprinosi. NLP je zajedničko potpodručje jezikoslovlja i umjetne inteligencije kojemu je zadatak dati kompjutorima vještinu čitanja i razumijevanja ljudskih jezika. Ovdje kao vodeću svjetsku platformu za rješavanje NLP problema i integraciju NLP-a u vlastite poslovne procese valja istaknuti IBM Watson. IBM Watson kao skup alata popularan je zbog jednostavnosti njihove primjene u vlastitom poslovnom okruženju. Natural Language Understanding, Tone Analyzer, Assistant i Studio samo su neki od IBM Watson alata za razne primjene umjetne inteligencije na tekstualnim podacima, a dodatna prednost platforme dolazi iz mogućnosti njihovog kombiniranja.

IBM Watson Studio je jedan od IBM Watson alata koji se koristi za iskorištavanje benefita umjetne inteligencije, točnije strojnog učenja na vlastitom skupu podataka. Ipak, veća količina i bolje informacije od velike su važnosti za procese strojnog učenja. Stoga valja posegnuti za dodatnim podacima iz web prostora. IBM Watson Studio (a ni IBM Watson platforma) nema servis namijenjen web scrapingu (što je i logično, s obzirom na raznolikost procesa web scrapinga), ali ima nešto mnogo fleksibilnije – podršku za Jupyter Notebook, interaktivnu opensource web aplikaciju za kreiranje i dijeljenje dokumenata koji mogu sadržavati kod, tekst i razne vizualizacije.

Podržava preko 40 programskih jezika, uključujući Python, najpopularniju opciju za web scraping. Tako dobivamo dodirnu točku web scrapinga s IBM Watson platformom i pomoću jednostavnih Python skripti možemo obogatiti kolekciju data asseta u alatu IBM Watson Studio, kako bi ih iskoristili za razne procese strojnog učenja i dobili vrijedne uvide.

Ako želite saznati više o web scrapingu i kako ono može pomoći Vama, slobodno se obratite stručnjacima tvrtke Megatrend poslovna rješenja na tel. +385 1 4091 300 ili na poslovna.rjesenja@megatrend.com.

KORONAVIRUS
Znanost još nije pobijedila virus: Što se zna, a što se pogrešno pretpostavljalo o COVID-19
Huawei Watch GT 2e
Pametni trening
Pametni sat za profesionalne sportaše i rekreativce koji koristi i naš Ironman
Napišite prvi komentar!

Za komentiranje je potrebna prijava/registracija. Ako nemate korisnički račun, izaberite jedan od dva ponuđena načina i registrirajte se u par brzih koraka.