Skip to content

Information Retrieval

Alexej von Jawlensky, "Portrait of a Girl", 1909

Evaluating the site search of Swiss corporate websites

Applied methods & measures

UX research methods: heuristic evaluation

Communicating findings using: presentations, written reports

Goal: This project evaluated the full-text search of Swiss corporate websites.

Approach: A heuristic evaluation scheme was collaboratively developed by all of the project participants. Several jurors used this schema to assess the quality of 54 websites of companies and public service organizations using 74 dimensions per website. The observations were aggregated using Excel. Findings were publicly presented and communicated in written studies (see publications).

Role of Joachim Pfister: Contributed to the development of the assessment scheme, carried out parts of the assessment, and data aggregation. Furthermore, he contributed to compiling the final, published report.

UX research challenges successfully addressed

  • Results of the initial study led to an extended, second study in Germany.
  • Results were used in business-oriented presentations by the industrial research partners to indicate room for improvement for the assessed companies.
  • Braschler, Martin; Herget, Josef; Pfister, Joachim; Schäuble, Peter; Steinbach, Markus; Stuker, Jürg (2007): Kommunikation im Internet: Die Suchfunktion im Praxistest. In: IWP - Information Wissenschaft & Praxis 58 (2007) 3. pp. 159-168.
Abstract EN: Communication on the Internet: evaluating site search engines in practice

Companies and public authorities in Switzerland use their websites to communicate with interested users. This coincides with users being overwhelmed with information. Therefore, it is not surprising that search functions are amongst the most popular services on the Internet.

The environment for search engines on business websites ("vertical" site search engines) is a fundamentally different one than for other "horizontal" Internet search engines. Vertical site search engines do not focus on broadly indexing many sites, instead, they focus on engaging the users in a successful dialog. This study reports on a comprehensive evaluation of search engines of Swiss business websites. Paramount for this evaluation are the user's needs for communication and not a list of technical capabilities.

A total of 74 individual items were assessed (predominately manually), which were grouped in four main criteria: search index, comparison of requests and documents, user interaction, and search results. An assessment scheme was created following the scientifically-established evaluation traditions in the academic domain of ​​“information retrieval ”. 54 site search engines of Swiss companies and authorities were evaluated.

Results show a huge potential for improvements. No ranking and now awards were intended. Site search engines were classified in good, medium or bad per each criteria. The analysis also surfaced, that no single website succeed in all criteria.

Many findings are directly related to a search engine's communicative function: many search engines could not meet the requirements for completeness and up-to-datedness of the index which are foundational for good search results. Oftentimes, information is displayed with incorrect titles or dates. Last but not least, many site search engines failed in the core discipline of "information retrieval" returning information based on "queries" made by the users.

Abstract DE: Kommunikation im Internet: Die Suchfunktion im Praxistest.

Unternehmen und Behörden in der Schweiz verwenden ihre Websites vermehrt zur Kommunikation mit interessierten Nutzern. Diese Entwicklung fällt zusammen mit einem Umfeld, indem die Nutzer mit einer steigenden Informationsflut konfrontiert sind. Es ist daher nicht erstaunlich, dass Suchdienste zu den beliebtesten Anwendungen überhaupt auf dem Internet gehören.

Die Ausgangslage für Suchfunktionen auf Unternehmens-Websites („vertikale“ Site-Suchen) stellt sich dabei grundlegend anders dar als bei „horizontalen“ Internet-Suchdiensten. Nicht die möglichst breite Erschliessung von Information vieler verschiedener Websites, sondern der erfolgreiche Dialog mit den Nutzern steht im Vordergrund. Die vorliegende Studie versucht eine umfangreiche Evaluation der Suchfunktionen von Schweizer UnternehmensWebsites. Nicht eine Liste von technischen Funktionalitäten, sondern die Bedürfnisse der Nutzer in ihrer Kommunikation mit der Website standen im Vordergrund.

Es wurden insgesamt 74 Einzeltests grossenteils manuell durchgeführt, die in vier Hauptkriterien gruppiert wurden: Suchindex, Vergleich von Anfragen und Dokumenten, Benutzerinteraktion und Suchergebnisse. Ein wissenschaftlich fundiertes Raster wurde erstellt, in der Tradition der Evaluationen des zugehörigen akademischen Gebietes des „Information Retrieval“. Die Site-Suchen von 54 Schweizer Unternehmen und Behörden wurden der Evaluation unterzogen.

Die Resultate zeigen grosses Potential für Verbesserungen. Dabei wurden kein Ranking der Websites und keine Verleihung von Awards vorgesehen. Vielmehr wurde eine Einteilung in gute, mittlere und schlechte Websites für die einzelnen Kriterien ermöglicht. Die Analyse zeigt denn auch, dass keine Website für alle Kriterien sich jeweils unter den Besten klassieren konnte.

Viele Erkenntnisse betreffen direkt die Kommunikationsfunktion der Website: so konnten viele Suchfunktionen den Anforderungen hinsichtlich Vollständigkeit und Aktualität der Datenbasis, den notwendigen Voraussetzungen für gute Suchergebnisse, nicht genügen. Informationen werden oft nur mit inkorrekten Titeln oder Datumsinformationen zugänglich gemacht. Und nicht zuletzt schnitten viele Websites bei der klassischen Aufgabe des „Information Retrieval“, wo mittels „Informationsanfragen“ durch Nutzer gezielt Information zusammengestellt werden, ungenügend ab.

  • Braschler, Martin; Herget, Josef; Pfister, Joachim; Schäuble, Peter; Steinbach, Markus; Stuker, Jürg (2006): Evaluation der Suchfunktion von Schweizer Unternehmens-Websites. In: Herget, Josef; Hierl, Sonja. (Eds.): Churer Schriften zur Informationswissenschaft – Schrift 12, 2006. (full text available online)

Evaluating automated clustering for patent retrieval (Master's thesis)

Applied methods & measures

UX research methods: questionnaires, statistics, evaluation of UI designs

Communicating findings using: presentation, written reports

Goal: This Master's thesis project researched if automatically grouping documents into clusters made sense to a set of jurors. Conducting an information retrieval study from end-to-end was the main focus of this activity - not only the evaluation aspect.

Approach: The study involved data preprocessing (extracting and converting from the patent database, removal of stop words, stemming, applying a term-weighting scheme, creating the term-document matrices), the application of the IR tools (3 different clustering algorithms), and assessing the output with human assessor. For evaluating the results graphically, a user interface was developed and distributed to the participants alongside a paper-based questionnaire assessing the subjective, perceived quality of the clusters, the number of clusters (per search query) and open-ended feedback.

Role of Joachim Pfister: Data pre-processing, running the clustering experiments, developing the evaluation concept and software needed, recruiting participants, analysis of the juror's data, writing reports and presenting findings.

UX research challenges successfully addressed

  • Immersing participants (who were students and not familiar with patent retrieval) into the task of patent retrieval.
  • Taking a user-centred focus for making the assessment of clustered documents as painless as possible by creating a tool for doing the evaluation:
    • visual representation of the clusters and the documents belonging into them,
    • enable the jurors to quickly navigate and assess the clusters by using their keyboard, and
    • ability to automatically save the evaluation data to prevent data loss.
  • Pfister, Joachim (2006): Clustering von Patent-Dokumenten am Beispiel der Datenbanken des Fachinformationszentrums Karlsruhe. In: Mandl, Thomas.; Womser-Hacker, Christa. (Eds.): Effektive Information Retrieval Verfahren in Theorie und Praxis. Ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005). July 20, 2005. Hildesheim, Germany. Universitätsverlag, Constance, Germany. pp. 129-146.

    Abstract DE: Clustering von Patent-Dokumenten am Beispiel der Datenbanken des Fachinformationszentrums Karlsruhe.

    In diesem Artikel, der im Anwendungsbereich der Patentrecherche und Patentinformation angesiedelt ist, soll das automatische Gruppieren von Patentdokumenten - das so genannte Clustering - als ein Werkzeug zur Aufbereitung der Ergebnismenge einer Datenbankanfrage untersucht werden. Der Schwerpunkt liegt dabei auf der Evaluierung von drei Clustering-Verfahren mittels Nutzerbewertungen.

    Abstract EN: Clustering of patent documents exemplified with databases of the Leibniz-institute for information infrastructure

    This paper relates to patent search and patent information retrieval where clustering is used as a tool to group the result set of a database query, i.e. automatically form groups of patent documents. Emphasis is put on the evaluation of three different clustering algorithms, used in the context of patent retrieval. Within this evaluation, user judgements are used to compare the three algorithms and to derive a recommendation for a specific algorithm on that basis.

  • Pfister, Joachim (2004): Analyse und Einsatzpotentiale von Clustering-Verfahren zum Retrieval von Patent-Dokumenten. Magisterarbeit. Universität Hildesheim. urn:nbn:de:gbv:hil2-opus-1224

    Abstract EN: Analysis and Potential Usage of Clustering Algorithms in Patent Document Retrieval (Master's thesis)

    The constantly growing amount of information stored in databases fosters the need for new tools, assisting the user during his or her database search. This Master’s thesis relates to patent search and patent information retrieval where clustering is used as a tool to group the result set of a database query, i.e. automatically form groups of patent documents. The subjects described are principal issues of cluster analysis such as types of attributes, similarity or distance measures, different types of clustering algorithms as well as their advantages and disadvantages for clustering documents. Furthermore, the special requirements of the application area are illustrated and the existing use of clustering techniques is depicted. The thesis’ practical section deals with the evaluation of three different clustering algorithms, used in the context of patent retrieval. Within this evaluation, user judgements are used to compare the three algorithms and to derive a recommendation for a specific algorithm on that basis.

    Abstract DE: Analyse und Einsatzpotentiale von Clustering-Verfahren zum Retrieval von Patent-Dokumenten (Magisterarbeit)

    Um dem stetigen Zuwachs der elektronisch in Datenbanken abgespeicherten Informationen wirkungsvoll zu begegnen, werden neue Werkzeuge gesucht, die den Nutzer bei Datenbankrecherchen unterstützen. In dieser Arbeit, die im Anwendungsbereich der Patentrecherche und Patentinformation angesiedelt ist, soll das automatische Gruppieren von Patentdokumenten - das so genannte Clustering - als ein Werkzeug zur Aufbereitung der Ergebnismenge einer Datenbankanfrage untersucht werden. Es werden zum einen Grundlagen der Cluster-Analyse, wie z.B. Attributtypen und Ähnlichkeits- bzw. Distanzmaße, zum anderen verschiedene Clustering-Verfahren sowie deren Vor- und Nachteile zum Clustern von Dokumenten beschrieben. Weiterhin werden Besonderheiten des Anwendungsbereichs aufgezeigt und bereits bestehende Einsatzmöglichkeiten von Clustering-Verfahren dargestellt. Im praktischen Teil dieser Arbeit werden im Anwendungsbereich Patentrecherche drei Clustering-Verfahren mittels Nutzerbewertungen miteinander verglichen, um tendenzielle Aussagen über die Eignung eines bestimmten Verfahrens abzuleiten.