Truvo Gouden Gids 2009

Hoi,

iemand enig idee hoe je de Truvo Gouden Gids 2009 kunt exporteren?

Is daar iemand reeds in geslaagd?

Thanks

Een paar van je opties werden al eerder
http://www.foondump.nl/forum/viewtopic.php?p=3058#3058
in dit forum besproken - had je al gezien, waarschijnlijk.

Nog een andere mogelijkheid, die PDF’s
http://www.foondump.nl/forum/viewtopic.php?p=2919#2919]extractie
van vermeldingen uit de PDF-bewijsexemplaren voor adverteerders in de Gouden Gids, werd pas nog opnieuw beschreven door iemand die zo de gegevens uit [url=http://goudengids.truvo.be/content/proof_copy_funct/initializeAction.do?lang=dutch[/url] van Truvo BE zei te halen. Waarschijnlijk werkt die methode niet helemaal op de beschreven manier, want de specifieke opdracht uit dat script:

pdftotext G10-1-0226.pdf

… komt terug met de foutmelding:

Error: Copying of text from this document is not allowed.

De hergebruik-permissies
http://www.cs.cmu.edu/~dst/Adobe/Gallery/anon21jul01-pdf-encryption.txt
van die bestanden zijn namelijk opzettelijk beperkt door de uitgever. Die moet je dus of met het ‘owner’-wachtwoord in de commandline-optie van pdftotext of voor die tijd als batch op een of andere manier weten te resetten.

Sowieso lopen de met dat recept verkregen vermeldingen in elkaar over vanwege de oorspronkelijke opmaak in kolommen:

[code]MALPERTUUS

67 Kattestr 9300-Aalst … Mansion (The) 21 Stationstr 9300-Aalst … 053 70 39 50

053 21 50 90[/code]
Het onderste telefoonnummer hoort nog bij “Malpertuus” op dezelfde regel te staan en “Mansion (The) … 053 70 39 50” staat in de originele PDF juist wel op de volgende regel. Het in die posting weergegeven Perl-script gaat voorts wat primitief om met de verkregen ruwe tekst door die gewoon maar te sorteren teneinde bij de regels met een e-mailadres uit te komen.

Nog geen sinecure dus om daar een lijst vermeldingen van te maken. Met een ander hulpprogrogramma kan als hier
http://www.foondump.nl/forum/viewtopic.php?p=901#901
beschreven een nog iets werkbaardere tekst geproduceerd worden:

218.3 49.9 8.7 54.6 0 AdBl: MALPERTUUS 276.4 49.9 4.5 49.7 0 AdRo: 67 Kattestr 9300-Aalst 327.1 49.9 4.5 15.0 0 AdRo: ........... 343.0 49.9 8.5 39.7 0 AdBl: 053 21 50 90
Hoorde later dat het exporteren van de Belgische 2008-DVD uiteindelijk wel gelukt was - min of meer zo:

[quote]Truvo GoudenGids 4.0 2008 BELGIE

… in het verleden kon je de Nederlandse Goudengids met succes ‘screenscrapen’. Er waren 26 regio’s, softwarematig liet je dan de een na de andere regio voorzetten, waarna een speciaal daarvoor gemaakte routine het detailscherm van de bovenste regel kopieerde, dan een robot-pijl-naar-beneden-opdracht naar het scherm zond en vervolgens daar de details weer van kopieerde, enzovoort.

… vereist het wel wat kennis van hoe Windows zijn windows aanspreekt en hoe daar tussenbeide te komen.

Foondump/Forum - 11 maart 2008
http://www.foondump.nl/forum/viewtopic.php?p=3056#3056
[/quote]
Voor zo’n aanpak wil je het liefst een zo groot mogelijk aantal vermeldingen in één keer kunnen selecteren. Op de 2008-DVD kon je in het zoekprogramma van de Gouden Gids bij “Waar?” bijvoorbeeld steeds alleen het eerste cijfer geven van de postcode waarop gezocht moet worden, dat gaf de volgende aantallen vermeldingen:

1 114394 2 95388 3 69339 4 55312 5 24008 6 33949 7 37427 8 76928 9 82125
… in totaal 588870 vermeldingen (voor 2008 dus).

Deed je alternatief “Uitgebreid zoeken” en dan “… zone op de kaart” dan kreeg je net niet hetzelfde totaal omdat in ieder geval mij niet lukte om het uiterste zuid-oostelijke deel van België ook in de selectie te krijgen.

Na het zoeken op postcode of met een ‘zone’ selecteer je met ‘ctrl-shift-end’ alle vermeldingen in de resultatenlijst waarna je met de rechtermuisknop óf kan printen óf naar het “Persoonlijke Gids”-scherm kan gaan. In dat laatstgenoemde scherm staan de gegevens van een vermelding netjes gescheiden in hun eigen ‘textbox’ klaar om gekopieerd te worden en met ‘esc’ of ‘enter’ kan door alle geselecteerde vermeldingen gelopen worden.

Omdat je de vermeldingen op dat moment alleen kopieert en ze niet daadwerkelijk naar die “Persoonlijke Gids” overgebracht worden omzeil je zo ook de 500-limiet van de DVD.

Voor de grotere aantallen vermeldingen waar het hier om gaat kan je die toetsaanslagen laten doen door een zogeheten “Macro”-programma, bijvoorbeeld downloaden
http://www.ranorex.com/]‘Ranorex’
, gespecialiseerde software voor het testen van weer andere software. Vrij prijzig maar er is ook een 30-dagen-evaluatie-versie van te [url=http://www.ranorex.com/download.html[/url]. Alles wat aan ‘subclassing’ e.d. nodig is om een andere applicatie, in ons voorbeeld dus het zoekprogramma van de Belgische Gouden Gids, ‘remote’ te besturen brengt Ranorex zelf mee.

Zien is geloven: je doet het zoeken in de Gouden Gids één keer voor aan de ‘Recorder’ van ‘Ranorex Studio’, daarna worden je handelingen via ‘Play’ omgezet in .Net-code die je daarna nog kan aanpassen - bijvoorbeeld om de verkregen data in een ‘loop’ naar een bestand te kunnen wegschrijven.

Zelf met die software een klein testje gedaan, in een paar minuten schreef Ranorex voor Aalst 4735 vermeldingen naar een csv-bestand:

[quote]Regelnummer;Naam;Rechtsvorm;BTW-nummer;Activiteit;Postcode;Gemeente;Straat;Nummer;Contactpersoon;Functie;Telefoon;Fax;GSM;E-mail;Website
1;Ars Vivendi;;;7210 Schoonheidsinstituten;9300;Aalst;Keizersplein;58;;;053 78 17 19;;;pol.boelens@siemens.com;http://www.ars-vivendi.be
2;Carlton Salons BVBA;;;;6160 Feesten - Aannemers, …;9300;Aalst;Zonnestraat;32-34;;;053214663;053788738;053775885;;info@salonscarlton.be;http://www.salonscarlton.be
3;Lei BVBA;;;;7210 Schoonheidsinstituten, …;9300;Aalst;Keizersplein;49;;;053784666;053783791;;info@lei.be;http://www.lei.be[/quote]
Blijkt dat bijvoorbeeld meerdere telefoonnummers in één veld vanwege Truvo bij het invoeren worden gescheiden met “;” dus gebruik maar een ander csv-scheidingsteken. “Rechtsvorm”, “BTW-nummer”, “Contactpersoon” en “Functie” bleven in ieder geval voor Aalst steeds leeg. De resultatenlijst van de Gouden Gids heeft hier en daar een “Map”-symbool voor regels met meer dan één adres dus moet je Ranorex zover zien te krijgen dat het voor het selecteren door de lijst loopt en daarop klikt om ook die extra vermeldingen zichtbaar te maken.

Een alternatieve methode is de resultatenlijst printen naar een namaakprinter en je vermeldingen daar af te vangen. Via de ‘Generic / Text Only’-driver van Windows ziet dat er na afloop zo uit:

[code]Malpertuus 053 21 50 90
Kattestraat 63
9300 Aalst
6335 Brood- & banketbakkerijen
Andere activiteiten 7550 Tea-rooms

DVD-ROM - 2008
De Gouden Gids op DVD-ROM - © Truvo
Database stratenplans en routing © Tele Atlas
Software © Bureau van Dijk Electronic Publishing[/code]
Vergelijk de namaak-printer-output met de regel die op weg naar de Persoonlijke Gids onderschept werd:

Malpertuus;;;6335 Brood- & banketbakkerijen, ...;9300;Aalst;Kattestraat;63;;;053215090;;;;

Met bijvoorbeeld RedMon
http://pages.cs.wisc.edu/~ghost/redmon/

  • Redirection Port Monitor - is softwarematig wat meer mogelijk aan de ‘printer’-kant.