Content Import via XML und die interne Suche

Das Board für alle Fragen und Diskussionen, die keinen direkten Bezug zu CMS made simple haben
Post Reply
nhaack

Content Import via XML und die interne Suche

Post by nhaack »

Hallo zusammen,

bei einem eigenen Projekt möchte ich Content aus XML in meine Site einbauen. Hier gibt es verschiedene Ansätze.

Ich habe einen einfaches Plug-in geschrieben, welches mir den gewünschten Content-Knoten im Front-End als Smarty ausgibt. Der Zugriff funktioniert soweit einwandfrei.

Dabei wird im Backend beim Bearbeiten der Einzelseite der XML Name angegeben, das im Template verbaute Plug-in lädt den gewünschten Inhalt aus der XML Datei - Smarty baut ihn in die Page ein.

Allerdings taucht der Inhalt nicht in der Suche (das Standard Such-Modul) auf. Ist ja klar, der Inhalt liegt nicht in der DB.

Der Import soll aus einem Verzeichnis ausgeführt werden, da die Artikel regelmäßige Updates erfahren und ich keine Lust hab', jedes mal hochgerechnete 10 volle Arbeitstage mit manueller Einfplege zu verbringen (monatlich) - initiale Pflege etwa 3000 Artikel. So kann ich die per XML erhaltenen Artikel einfach in ein Verzeichnis schreiben, die Platzhalter im CMS anlegen und voilá!

Ihr erkennt das Problem?

Ich hatte auch darüber nachgedacht, ein Plug-in zum Importieren von XML nach CMS Content Tables zu schreiben.  Aber bevor ich mich an dieses Unterfangen warte - weiß jemand wie ich die fertig kompilierten Seiten mit der Suche indiziert bekomme?

Hat jemand ansonsten eine andere Idee für den Import von Artikel?

Beste Grüße
Nils

EDIT:
-----------
Ein import in die Site-Interne Suche wäre vollkommen ausreichend. Gibt es sonst eine Möglichkeit die Suche dazu zu bewegen, nicht die Content-Blöcke zu parsen sondern die fertigen Seiten?

Alternativ könnte man wohl auch eine externe Suche einbinden, z.B. die Google Suche.


mhh...
Last edited by nhaack on Tue Apr 28, 2009 9:53 pm, edited 1 time in total.
jeff1980
Forum Members
Forum Members
Posts: 210
Joined: Mon Apr 30, 2007 1:46 pm

Re: Content Import via XML und die interne Suche

Post by jeff1980 »

Hi,

die Idee des PlugIns finde ich echt gut - gerade wenn man von anderen CMSes umzieht, und diese evtl. sogar einen Export anbieten (oder man sich die Daten aus der Datenbank in XML exportieren kann).
Das nur schon mal vorab.

Zur Programmierung kann ich leider nicht viel sagen, da ich da nicht wirklich fit genug bin.

Was die interne Suche angeht, habe ich aber ein paar Erfahrungen gemacht. Ich betreue ja diese riesige Gedichteseite (www.festtagsgedichte.de), die mittlerweile über 2500 Texte (Inhaltsseiten) umfasst. Schon zu Beginn (als wir noch unter 1000 waren) lief die Neuindizierung der internen Suche immer in einen Timeout, so dass nicht alle Begriffe indiziert wurden. Wir sind deshalb auf die Google-Suche umgestiegen.
Ich habe die Seite vor kurzem mal lokal unter Xampp installiert und dort spaßeshalber noch mal versucht, die interne Suche zu aktivieren und alle Seiten neu zu indizieren - hat auch geklappt - nach ca. 30 Minuten!!!
Bei einem zweiten Projekt (www.der-schwache-glaube.de) hatte ich ähnliche Probleme. Hier gibt es zwar nicht viele Texte, aber die Texte sind enorm lang. Zudem liegt die Seite bei 1und1. Auch dort schaffte es die interne Suche nicht, den kompletten Inhalt zu indizieren - Timeout. Hier habe ich es nun so gelöst, dass ich die Seite ebenfalls lokal installiert habe und die indizierten Begriffe selbst von der lokalen Datenbank in die bei 1und1 importiert habe.

D.h. wenn Du mit 3000 Texten arbeitest, gehe ich mal davon aus, dass die interne Suche das nicht packen wird.

Sollte ich Dich falsch verstanden haben, ignoriere bitte diesen Post  :).

Viele Grüße
Jan
nhaack

Re: Content Import via XML und die interne Suche

Post by nhaack »

Hallo Jeff,

danke für das Erfahrungs Feedback. Das mit dem Timeout habe ich schon fast befürchtet. Bereits bei knapp etwa 50 Seiten dauert es gefühlt ziemlich lange - wenn man das hochrechnet, kann ich mir die 30 Minuten gut vorstellen. Die Site wird allerdings später auf einem recht potenten Root-Server liegen (nicht so wie jetzt), nichts desto trotz ein guter Hinweis.

Vielleicht geht es ja per Root-Server schneller. Womit aber immer noch Frage bleibt, wie ich die extra Daten in die Suche gepumpt bekomme.

Jetzt müsste mal schauen, wie ich das mit der Google Suche realiseren kann. die BOSS Engine von Yahoo soll auch ziemlich gut sein... damit habe ich mich allerdings noch garnicht beschäftigt. Die Site ist allerdings ein wenig besonders. So triggert die Suche zusätzlich einen Tag-Index und noch eine Geo-Suche. Deswegen würde ich die interne Suche fast bevorzugen.

Hat jemand sonst noch Ideen zur Site suche?

Beste Grüße & Danke
Nils
cyberman

Re: Content Import via XML und die interne Suche

Post by cyberman »

nhaack wrote: Hat jemand sonst noch Ideen zur Site suche?
Nimm doch Pisearch - ist 'ne Live-Suche und nicht index-basiert. Das, was der Besucher sehen kann, wird auch durchsucht (auch aus Dateien importierte Inhalte).
nhaack wrote: Ich habe einen einfaches Plug-in geschrieben, welches mir den gewünschten Content-Knoten im Front-End als Smarty ausgibt.
Cool, wollte schon immer via CMSms .odt-Dateien direkt anzeigen lassen können - hatte das vor längerem bei Typo3 gesehen (Plugin bitsoffice).
nhaack

Re: Content Import via XML und die interne Suche

Post by nhaack »

Hi Cyberman,

danke für den Tipp mit PiSearch. Werde mir diese Suche mal genauer angucken. Weist du wie PiSearch auf "virtuelle" Seiten reagiert? Also Seiten die als solche nicht im CMSMS vorkommen sondern z.B. über URL Rewriting erzeugt werden? Z.B. habe ich unter jeder XML Import Seite noch eine unbestimmte Anzahl an Unterseiten.

z.B.:

http://www.example.com/cmsms-page/xml-i ... rameter-1/

Werden solche auch erfasst?

An anderer Stelle sitzen Mash-Up Seiten die sogar Prameter in mehreren Ebenen verwenden. Z.B.:

http://www.example.com/cmsms-page/param ... ramater-2/

Hier kommt nichts aus dem System ausser der Page deren Inhalte aber rein durch die Parameter und externe APIs erzeugt werden.

Ich weiß, ich könnte jetzt mit dem Ding rumspielen, aber zurzeit fehlt mir dazu einfach ein wenig die Zeit im  Moment. Vielleicht hast du hier mehr Erfahrung.

Cool, wollte schon immer via CMSms .odt-Dateien direkt anzeigen lassen können - hatte das vor längerem bei Typo3 gesehen (Plugin bitsoffice).
Ich weiß nicht ob du meine API Plug-ins kennst. Aber sie funktionieren ja alle mit XML. Eigentlich ist XML Daten-Anzeige per Plug-in ziemlich easy. Ich arbeite an einem XML Importer Modul, in dem z.B. REST API Calls direkt und frei erstellt werden und dann das XML auf Variablen gemapt werden kann. Das würde dann natürlich auch mit .odt Dateien Funktionieren. Bis dahin ist es aber noch ein weiter weg. Danach kann man aber theoretisch mit einem Modul auf alle REST XML APIs dieser Welt zugreifen :D

Beste grüße und danke für den Tipp mit Pisearch
Nils
Post Reply

Return to “Stammtisch”