Ziel ist es aus den Suchmaschinen Google, Yahoo und Bing Ad-Anzeigen zu bestimmten Suchwörtern zu crawlen. Zweck ist z. B. der Vergleich der angezeigten Domain und der Domain auf die letztendlich der Redirect passiert. Leider geben die APIs der genannten Suchmaschinen diese nicht her, oder ich finde es nicht in den API Doks. Kurze Tests mit den APIs haben bei den Results die Ads nicht mitgeliefert.
Hat in dem Bereich jemand Erfahrung oder eine Idee, wie das programmatisch am sinnvollsten zu lösen ist? Ein Webcrawler in Java mit Proxyrotation etc. ist schon vorhanden, weitere ETL Prozesse werden ebenfalls in Java umgesetzt.
Der Crawler an sich ist schon vorhanden, ebenfalls kann ich auch schon komplett die Ads von Google extrahieren. Nur gibt es bei entsprechender Anzahl an Querys eine Sperre von Google. Darum wäre es sinnvoller über die API zu lösen. Daher die Frage ob jemand bzgl. der API (auch für die anderen Suchmaschinen) Infos hat, die ich noch nicht gefunden habe. Oder wie andere dieses Ziel vielleicht geschickter umgesetzt haben.