linux-l: Telefon-Cd

Till Christian Siering till at munin.in-berlin.de
Mo Jun 22 23:53:18 CEST 1998


On Sun, 21 Jun 1998, Andreas Kotes wrote:

> On Sun, 21 Jun 1998, phR wrote:
> 
> >  > leider habe ich den anfang des threads nicht mitbekommen - gehts hier um
> >  > die "kostenlosen" berliner telefonbuch cd ? ich hatte mir auch schonmal
> >  > darueber den kopf zerbrochen und bin zu dem entschluss gekommen das man
> >  > die daten eigentlich in eine _richtige_ db uebertragen muesste, und dann
> >  > ist auch die frage nach der sprache obsolet. 
> > 
> > Es geht um die Telefonbuch-CD.
> > Du DARFST die Daten nicht in eine andere Datenbank uebetragen,
> > zumindest steht sowas in den Lizenzvereinbarungen:
> > "...zweckfremde Nutzung ist unzulaessig, insbesondere [...] als
> > Unterlage fuer die Zusammenstellung von Teilnehmerverzeichnissen jeder 
> > Art". Meiner Meinung nach erfuellte das Erstellen einer eigenen
> > Datenbank diesen Tatbestand.
> stuemmt nahezu, wenns veroeffentlicht wuerde, was aber nicht noetig ist.
> man koennte das konvertierungsprogramm und die oberflaeche rausgeben.

Denke ich auch. Die Anwendung des Konvertierungsprogrammes ist
wahrscheinlich nicht erlaubt - das Schreiben des
Konvertierungsprogrammes aber schon. Trotzdem sollte man hier sehr
vorsichtig sein.

> >  > meine erkenntnisse zum verwendeten format hab ich mal unter:
> >  > http://www.rz.fhtw-berlin.de/oschoen/tmp/tbuch.html abgelegt, ich hoffe es
> >  > kann weiter helfen.
> > Das hoffe ich auch :) Ich werd's mir mal ansehen.
> hab ich auch mal, so weit bin ich auch schon gekommen, ist auch der
> richtige weg .. was jetzt eigentlich noch fehlen wuerde waere ein
> aufschluesselung der indizies, damit man den krempel nicht linear lesen
> muss .. zusaetzlich waere natuerlich ne aufschluesselung der stadtplan-
> etc. files nett, aber nicht zwingend notwendig.

Das Teilnehmerverzeichnis reicht doch fuers erste. Die Seite unter oben
genannter URL habe ich mir leider noch nicht angeguckt.
 
> wenn die daten da sind kanns coden losgehen, sprache waere wurst, perl
> waere C vorzuziehen (source wird zwangsreleased, zuegig isses auch,
> oberflaeche laesst sich modularisieren, regex sind klasse, usw usw usw)

Meine bisherige Vorgehensweise zielt nicht auf die Entschluesselung der
auf der CD verwendeten Indizierung ab. Bisher arbeite ich mit einer
Kette von Filtern. Auf diese Weise lassen sich die Eintraege soweit
lesen, dass man Ausgaben der Form:

...
<tr>A + A 
Haarstudio, 14167, Teltower Damm 46
8 15 18 840308151884
<tr>A.A.A.A. Aaables Tolmien Umzge Berlin GmbH
, 10245, Stralauer Allee 1-16
29 34 15-00302934150
<tr>A.A.A.A.E.
 Merchandise Corp. GmbH
Telefax 40 53 34 2003040533400
<tr>...

erhaelt. Die Ausgabe des Filterprozesses koennte man speichern und mit
glimpseindex eine Indexdatei erstellen. Mit glimpse kann man dann einzelne
Eintraege suchen (die Suchanfrage ist dann in Form eines regulaeren
Ausdruckes formuliert). Die Zeit fuer eine Suchanfrage ist dann zwar
bestimmt nicht ueberwaeltigend aber vielleicht kann man damit leben.
Irgendwie keine optimale Loesung aber besser als gar nichts.

Die Erstellung einer Indexdatei ueber die Rohdaten auf der CD
(glimpseindex kann auch Binaerdateien indizieren) und anschliessendes
Filtern der Suchergebnisse habe ich noch nicht ausprobiert. Diese Loesung
ist aber bestimmt die Bessere, da das Kopieren der Daten von der CD und
damit die Erstellung eines eigenen Teilnehmerverzeichnisses vermieden
wird.


Greetings, Till

--- [rtl] ---
For more information on Real-Time Linux see:
http://rtlinux.cs.nmt.edu/





Mehr Informationen über die Mailingliste linux-l