Semi-automatic Geocoding for Prersistent Web pages Full text

Charikleia Lontou
School of Electrical and Computer Engineering, NTUA
2008
Διπλωματική Εργασία
Περίληψη. Η παρούσα διπλωματική εργασία αναπτύσσει την μεθοδολογία της ημι-αυτόματης γεωκωδικοποίησης ιστοσελίδων που μακροπρόθεσμα το περιεχόμενο τους δεν αλλάζει, δηλαδή την απόδοση γεωγραφικών συντεταγμένων στις γεωγραφικές οντότητες που υπάρχουν στο κείμενο τους χρησιμοποιώντας έναν συνδυασμό αυτόματης και βασιζόμενη στον άνθρωπο γεωκωδικοποίησης. Οι αλγόριθμοι που χρησιμοποιούνται για το geoparsing και την γεωκωδικοποίηση έχουν εξαιρετικά αποτελέσματα όταν εφαρμόζονται για τον προσδιορισμό αριθμών τηλεφώνων και διευθύνσεων, όμως σε πιο γενικευμένα δεδομένα, οι αλγόριθμοι αυτοί εμφανίζουν ένα σημαντικό ποσοστό λάθους τόσο στο να βρίσκουν οντότητες που δεν θα έπρεπε (Ελ. Βενιζέλος είναι πρόσωπο), όσο και να μην βρίσκουν άλλες που θα έπρεπε(Ελ. Βενιζέλος- το διεθνές αεροδρόμιο της Αθήνας). Η παρούσα διπλωματική εργασία χρησιμοποιεί την ανθρώπινη παρέμβαση ώστε να βελτιώσει τα αποτελέσματα της αυτόματης γεωκωδικοποίησης. Για τον σκοπό αυτό αναπτύχθηκε ένα Web browser extension το οποίο α) επιτρέπει την χειρωνακτική γεωκωδικοποίηση λέξεων ή φράσεων και β) την βελτίωση των αποτελεσμάτων, συμπεριλαμβανομένης και της διαγραφής των λανθασμένων αποτελεσμάτων. Αυτή η προτεινόμενη προσέγγιση είναι ιδιαίτερα χρήσιμη για ιστοσελίδες όπως η Βικιπαιδεία, δηλ., σελίδες που έχουν μια ορισμένη αξία στην κοινότητα, ιδιαίτερα προσεγμένες και που το περιεχόμενο τους αλλάζει σχετικά αργά. Εδώ, η γεωκωδικοποίηση μπορεί να αποτελέσει μέρος της δημιουργίας μιας ιστοσελίδας. Τα αποτελέσματα από την γεωκωδικοποίηση αποθηκεύονται σε μια βάση δεδομένων, δηλ., αποθηκεύονται το URL της ιστοσελίδας, η θέση της λέξης ή της φράσης και οι αντίστοιχες συντεταγμένες και τέλος η μέρα της γεωκωδικοποίησης, δηλ., η έκδοση της ιστοσελίδας. Τα αποτελέσματα απεικονίζονται υπογραμμίζοντας τις αντίστοιχες λέξεις ή φράσεις και αντιστοιχίζοντας τους χάρτες που τις περιγράφουν. Στην περίπτωση μας χρησιμοποιήθηκαν οι χάρτες της Google. Στο τεχνικό μέρος, χρησιμοποιήθηκαν ένα αυτόματο εργαλείο γεωκωδικοποίησης, που αναπτύχθηκε από τον σπουδαστή Αλβέρτο-Δαυίδ, Α. Άντζελ, ο Apache Web server καθώς και ένα browser extension σε γλώσσα JavaScript και τέλος η γλώσσα java για την θεμελίωση της επικοινωνίας.