Your User-Agent-String:
CCBot/1.0 (+http://www.commoncrawl.org/bot.html)

Agentarius:
CCBot Category:Search Engine
Group: CCBot Edit
String count:1
Rating:3.00
Comments:1

Welcome...

...at Agentarius, the new database for User-Agents.

This website is to provide collecting and sharing informationen about User-Agents.

User-Agents are programs, wich are able to request data from webservers over the HTTP protocol. They identify themselves towards the webserver with a so called User-Agent-String. On the right side you see what Agentarius can tell about your User-Agent.

read more...

Many webmaster are interested who's requesting their pages and to keep unwanted "guests" out. At this point the analysis of the User-Agent-String is one way to identify the request, particularly with regard to many crawlers which ignores the classci ROBOTS.TXT completely.

The analysis is due to today's huge number of internet-capable programs very difficult and it is just manageable with as centralized database, wich has listed and classified these strings as much as possible.

Agentarius is such an approach and is focusing first of all the cooperation of a community. Every interested Web-Master is invited either to become a member, to obtain the possibility to access the database via an API, or setting a so called Button-Ping to make sure the pool of listed User-Agent-Strings is growing automatically.

Beside some automatic classifications, the recorded strings will be classified und rated by the community. Every string will be assigned to a group (program), (e.g. Firefox 2.0) and these groups then again to a category like Browser for example.
Every group could be joined with additional information like the web-site of the software's manufacturer or an icon. But most important are the comments and ratings of the community members, because with these informations others can get an impression of the User-Agent.

Agentarius is actually offering features as follows:

  • Grouping of User-Agent-Strings
  • Categorization of User-Agent-Groups
  • Commentation of User-Agent-Groups
  • Rating of User-Agent-Groups
  • Access data via several API's
  • Search function
  • Statistics (in development)

The more people are joining the community, the faster Agentarius will be a strong resource for access-analysis of web sites.
So ... participate!

 
Friday, 05.09.2008

Ubiquity-Command for Agentarius Ubiquity-Command for Agentarius

A new star in the world of Firefox Add-On's is born: Ubiquity. It's kind a commandline for the Firefox Browser, to make surfing the web much easier. Information at your fingertips...

It's very easy to programming Ubiquity Commands, because it's all Javascript, and so ... Agentarius has now it's own command: agentarius-info. Just mark the user agent string on a website, press STRG-SPACE and type "agentarius-info". Ubiquity will make a request to Agentarius and tell you wich group the string belongs to. Very handy to add new user agent strings to the database.

If you already installed Ubiquity you see its message bar when you enter the main page of Agentarius to subscribe the Agentarius-Info-Command.

More information on Ubiquity and the installation of the prototype see Mozilla Labs - Introducing Ubiquity

Have fun


Thursday, 12.06.2008

API: Neue Methode zur Abfrage mehrerer User-Agent-Strings API: Neue Methode zur Abfrage mehrerer User-Agent-Strings

Die beiden Webservice-Schnittstellen (SOAP und XML-RPC) besitzen eine neue Methode, mit der es möglich ist, mehrere User-Agent-String auf einmal prüfen zu lassen. Ideal für Webmaster, die erst seit Kurzem Agentarius nutzen und die alten Daten ebenfalls geprüft haben möchten.

Die neue Methode GetUserInfoMulti akzeptiert als Eingabe, je nach Service-Typ, entweder ein Array (XML-RPC) oder eine generische Liste (SOAP) einer definierten Datenstruktur und liefert den gleichen Rückgabewert wie die bereits existierenden Methoden, allerdings wiederum entweder als Array oder als Dataset mit mehreren Datensätzen.

Sunday, 08.06.2008

Neue XML-RPC-Schnittstelle Neue XML-RPC-Schnittstelle

Neben dem SOAP-Web-Service, der auf einfachste Art und Weise von .NET-Anwendungen genutzt werden kann, verfügt Agentarius nun auch über eine XML-RPC-Schnittstelle, die das Handling zum Beispiel für PHP- oder JAVA-Programmierer wesentlich vereinfacht.

XML-RPC (Extensible Markup Language Remote Procedure Call) basiert auf simplen Datenstrukturen und gilt als Vorläufer von SOAP. Die Daten werden, mit XML als Transportmedium, über das HTTP-Protokoll übertragen. Zahlreiche Tutorials verdeutlichen die Implementierung des Protokolls in eigene Anwendungen.

Eine ausführlich Beschreibung der verfügbaren Methoden und Austauschstrukturen gibt im Bereich Service (API).

Wednesday, 28.05.2008

API: Neuer Parameter IP-Adresse API: Neuer Parameter IP-Adresse

Sehr häufig tarnen sich bestimmte Crawler mit User-Agent-Strings von harmlosen Programmen wie Browsern oder ähnlichem. Eine vernünftige Zuordnung ist in solchen Fällen natürlich nicht möglich, außer man hat eine IP-Adresse, die man vergleichen kann.

Aus diesem Grunde hat die API nun einen neuen Parameter namens ip, in dem die IP-Adresse des Requests übergeben werden kann. Sie wird gespeichert und dem User-Agent-String zugeordnet, wenn es sich um einen nicht-menschlichen Zugriff handelt, d.h. es werden keine IP-Adressen von Browser-Zugriffen oder Ähnlichem in die Datenbank aufgenommen, sondern nur die von Bots und Crawlern.

Die Übergabe der IP-Adresse des Requests nicht zwingend erforderlich, aber es wäre schön wenn alle mitmachen und so eine solide Basis für entsprechende Auswertungen zustande kommt.

Für alle Benutzer des .NET-Web-Services gibt es die neue WebMethod GetUserAgentInfo2, die die alte Methode GetUserAgentInfo ersetzt und ebenfalls einen neuen Parameter namens IPAddress besitzt.

Das System befindet sich noch im Aufbau und der neue Parameter und die Speicherung der IP-Adresse ist der erste Schritt und Grundlage für alle weiteren Entwicklungen. Im nächsten Schritt werden die IP-Adressen der Crawler über die Oberfläche abruf- und durchsuchbar sein. Später ist geplant die IP-Adresse zur weiteren Qualifizierung der API zu verwenden, in dem ein Request auf Grundlage des User-Agents und der IP-Adresse durchleuchtet wird.

Sunday, 06.04.2008

Automatische Erkennung von User-Agents Automatische Erkennung von User-Agents

Seit gestern ist die automatische Erkennung von neuen User-Agents online!

Wurde in der Vergangenheit beim Abrufen eines User-Agent-Strings über die API der String in der Datenbank nicht gefunden, so landete er in der Rubrik "Unbekannte/neue Agents" zur manuellen Klassifizierung.

Ein Großteil der so neu eingehenden User-Agents, vor allem von Browsern, läuft nun durch ein System von regulären Ausdrücken (RegEx), um die Gruppe automatisch zu bestimmen. Die Datenbasis dieses Systems ist nicht allzu groß, um die Abfrage nicht unnötig in die Länge zu ziehen, aber sie deckt zumindest 70-80% der immer wieder vorkommenden Gruppen ab und vermindert die Menge der manuell zu klassifizierenden User-Agent-Strings immens.

Tuesday, 04.12.2007

Button-Ping für Deine Homepage Button-Ping für Deine Homepage

Es vergeht kein Tag an dem kein neues Web-fähiges Programm auf den Markt kommt oder für ein etabliertes eine neue Version erscheint. Dies wirkt sich auch auf neue bzw. veränderte User-Agent-Strings aus.

Um die Agentarius-Datenbank möglichst aktuell zu halten, ist es wichtig diese Zeichenfolgen einzusammeln, um sie dann klassifizieren zu können. Daran kann sich nun jeder, unabhängig davon, ob er Mitglied bei Agentarius werden möchte beteiligen: über den Button-Ping für die eigene Homepage!

Im Grunde ist es nur eine kleine Grafikdatei in Form eines Buttons bzw. Banners, welche jeder interessierte Webmaster über ein kleines Stück HTML-Code in die eigenen Seiten einbindet. Ruft nun ein Browser oder ein Bot nun die Seite ab, wird auch die Grafik vom Agentarius-Server angefordert. Bei diesem sog. Request wird der User-Agent-String des Programms erfasst und in die Datenbank eingetragen. Persönliche Informationen über die aufgerufene Seite et cetera werden nicht erfasst. Es geht nur um den Zugriff auf die Bilddatei. Alles andere ist anonym.

Je mehr Homepage-Eigner mitmachen, desto schneller wächst der Datenbestand und der Nutzen des Systems.

P.S. Wer Ideen für weitere Banner hat, wende sich vertrauensvoll an kristof@agentarius.net

Monday, 15.10.2007

Agentarius ist online Agentarius ist online

Es hat einige Zeit gedauert, aber nun ist Agentarius online!

Das Projekt ist eines meiner Freizeit-Projekte, in dem ich unter anderem die Möglichkeiten moderner Server-Sprachen und Programmiermethoden ausprobiere (in diesem Fall ASP.NET 2.0 und jQuery).

Entstanden ist es aus einem recht umfangreichen ASP-Skript, dass ich auf meiner Web-Site zerbit.de einsetze, um Zugriffe zu klassifizieren und so versuche mir den ein oder anderen Bot vom Leibe zu halten. Diese Klassifizierung hat zudem den schönen Nebeneffekt einer Zugriffsstatistik, um zum Beispiel zu ermitteln welcher Browser gerade in der Gunst der Anwender steigt oder fällt.

Die Datenbasis von Agentarius bilden die User-Agent-Strings, die ich über zerbit.de die letzen 2-3 Jahre gesammelt habe. Aufgrund der sich ständig ändernden Zugriffsmöglichkeiten und der steigenden Zahl von Bots und Browser-Versionen wird es zunehmend schwieriger selbst die teilautomatisierte Klassifizierung zu bewältigen.

Agentarius soll nun dazu dienen zum einen andere Web-Master an meinen Daten teilhaben zu lassen und zum anderen natürlich auszubauen.

Dieser erste Wurf der Web-Site ist mitnichten der Weisheit letzter Schluß. Ideen zur Verbesserungen sind herzlich willkommen. So versuche ich gerade eine Mustererkennung zu entwickeln, die leicht abweichende User-Agent-Strings eindeutig automatisch zuordnen kann. Wer sich da einbringen möchte, ist eingeladen mit mir Kontakt aufzunehmen.

Kristof Zerbe