linux-l: Telefon-Cd

Andreas Kotes count at linux.de
Di Jun 23 12:41:53 CEST 1998


On Mon, 22 Jun 1998, Till Christian Siering wrote:

> > >  > leider habe ich den anfang des threads nicht mitbekommen - gehts hier um
> > >  > die "kostenlosen" berliner telefonbuch cd ? ich hatte mir auch schonmal
> > >  > darueber den kopf zerbrochen und bin zu dem entschluss gekommen das man
> > >  > die daten eigentlich in eine _richtige_ db uebertragen muesste, und dann
> > >  > ist auch die frage nach der sprache obsolet. 
> > > 
> > > Es geht um die Telefonbuch-CD.
> > > Du DARFST die Daten nicht in eine andere Datenbank uebetragen,
> > > zumindest steht sowas in den Lizenzvereinbarungen:
> > > "...zweckfremde Nutzung ist unzulaessig, insbesondere [...] als
> > > Unterlage fuer die Zusammenstellung von Teilnehmerverzeichnissen jeder 
> > > Art". Meiner Meinung nach erfuellte das Erstellen einer eigenen
> > > Datenbank diesen Tatbestand.
> > stuemmt nahezu, wenns veroeffentlicht wuerde, was aber nicht noetig ist.
> > man koennte das konvertierungsprogramm und die oberflaeche rausgeben.
> Denke ich auch. Die Anwendung des Konvertierungsprogrammes ist
> wahrscheinlich nicht erlaubt - das Schreiben des
> Konvertierungsprogrammes aber schon. Trotzdem sollte man hier sehr
> vorsichtig sein.
Auch die Benutzung ist erlaubt denk ich mal, solang du das nur selbst fuer
dich und ueberhaupt tust ... Ich wuerde aber immernoch darauf pochen
wollen das mal jemand der sowas schon oefter gemacht hat die Indexfiles
auseinandernimmt damit wir ausser einem Programm-/Libraryfile nichts
brauchen, schon gar nicht die Daten doppelt in einem anderen Format ...
Ich denke man muesste zusaetzlich fuer die Rufnummernaufloesung ein
Indexfile machen weil mit grosser Wahrscheinlichkeit dafuer keins da
ist... Ich hab die CD grad irgendwo auf meinem Schreibtisch verbuddelt und
auch nicht wirklich Zeit mich durch Binaerdateien zu wuehlen ... Jemand
anders vielleicht? Sinnig waer es mal einen Scanner ueber das Datenfile
laufen zu lassen der die Offsets der Datenbloecke in Verbindung mit den
Buchstaben macht... Danach koennte man mal die anderen Files nach diesen
Offset durchsuchen.

> > wenn die daten da sind kanns coden losgehen, sprache waere wurst, perl
> > waere C vorzuziehen (source wird zwangsreleased, zuegig isses auch,
> > oberflaeche laesst sich modularisieren, regex sind klasse, usw usw usw)
> 
> Meine bisherige Vorgehensweise zielt nicht auf die Entschluesselung der
> auf der CD verwendeten Indizierung ab. Bisher arbeite ich mit einer
> Kette von Filtern. Auf diese Weise lassen sich die Eintraege soweit
> lesen, dass man Ausgaben der Form:
> 
> ...
> <tr>A + A 
> Haarstudio, 14167, Teltower Damm 46
> 8 15 18 840308151884
> <tr>A.A.A.A. Aaables Tolmien Umzge Berlin GmbH
> , 10245, Stralauer Allee 1-16
> 29 34 15-00302934150
> <tr>A.A.A.A.E.
>  Merchandise Corp. GmbH
> Telefax 40 53 34 2003040533400
> <tr>...
> 
> erhaelt. Die Ausgabe des Filterprozesses koennte man speichern und mit
> glimpseindex eine Indexdatei erstellen. Mit glimpse kann man dann einzelne
> Eintraege suchen (die Suchanfrage ist dann in Form eines regulaeren
> Ausdruckes formuliert). Die Zeit fuer eine Suchanfrage ist dann zwar
> bestimmt nicht ueberwaeltigend aber vielleicht kann man damit leben.
> Irgendwie keine optimale Loesung aber besser als gar nichts.
Absolut nicht optimal, es werden sehr viele externe Programme involviert,
man hat irgendwelche Datenfiles irgendwo rumliegen, glimpse hat man nicht
unbedingt installiert, usw usw ...

> Die Erstellung einer Indexdatei ueber die Rohdaten auf der CD
> (glimpseindex kann auch Binaerdateien indizieren) und anschliessendes
> Filtern der Suchergebnisse habe ich noch nicht ausprobiert. Diese Loesung
> ist aber bestimmt die Bessere, da das Kopieren der Daten von der CD und
> damit die Erstellung eines eigenen Teilnehmerverzeichnisses vermieden
> wird.
gutes Argument, aber wenn das Format der Indexfiles bekannt waer koennte
man auf viel Aufwand und externe Files verzichten. Mir schwebt da eine
C-library for die man dann mit SWIG (wie gesagt) fuer alles moegliche
wandeln koennte so das beliebigen Applikationen unter commandline, X,
Web, sonstwas absolut nix mehr im Wege stehen ... Alles andere macht zwar
das was es soll, hat aber reichlich Overhead .. 'schmeissen Sie sich 120
MB irgendwelche Daten auf die Platte damit Sie die Daten die auf der CD
sowieso drauf sind nochmal da haben und nutzen koennen' oder 'installieren
Sie sich eine Suchmaschine und ein Programm das das was Ihnen die
Suchmaschine liefert vernuenftig ausgibt' sind irgendwie nicht so
prickelnd. Die Indizies und die Daten sind DA.

Gruss

  der Count






Mehr Informationen über die Mailingliste linux-l