Documents
Resources
Learning Center
Upload
Plans & pricing Sign in
Sign Out

Projet JAVA

VIEWS: 116 PAGES: 3

  • pg 1
									Administrateur Réseaux & BDD

Projet JAVA Utilitaire d’indexation et de Recherche Web

Objectif : Savoir concevoir et implanter une application en JAVA en mettant à profit son expérience d’administration et ses connaissances en système réseaux et base de données Aspects matériels : les PC ont été installés sous Linux avec tous les services dont vous aurez besoin. Il est possible que vous serez emmenés à installer un JDK ou des bibliothèques JAVA ou un environnement de développement. Un accès Internet permet de vous aider à la réalisation de ce Projet. Aspects organisationnels : Ce TP sera effectué par groupe de 4. Chaque étape doit être validée par l’enseignant. Un compte-rendu par groupe doit être rendu en fin de stage. Enfin, une présentation de 10 à 15 mn doit être préparée. Notation : Ce Projet sera sanctionné par une note individuelle tenant compte de votre participation au groupe, votre rapport et votre présentation (contenu et soin de la présentation manuscrite), votre intérêt, la pertinence de vos questions, le professionnalisme de votre approche.

Ahmed Jebali

page 1

13/10/2005

Administrateur Réseaux & BDD

1. Introduction au sujet
La quantité d’information sur Internet s’agrandit de jour en jour. On estime ainsi à 5 milliards le nombre de pages Web. Cette progression n’est pas prête de s’arrêter vu le nombre de sites qui apparaissent sur le Web et la démocratisation de l’Internet pour un large publique. D’autre part, il y a une très grande diversité des sujets abordés dans les pages Web. Un utilisateur ne savant où chercher une information précise se trouve incapable devant le large choix des pages accessibles. Dans ce cas on a recours à des outils « d’aide » qui sont les moteurs de recherche. D'une façon générale, on pourrait décrire les moteurs de recherche comme d'énormes archives de données contenant des informations détaillées sur un grand nombre de pages Web. Nous précisons un aspect important : dans les moteurs de recherche sont mémorisés individuellement plusieurs documents composant un site Web, il est ainsi possible qu'un site soit mentionné plusieurs fois selon le nombre de pages dont il est constitué. L’objectif de ce projet est de concevoir et de programmer un moteur de recherche de pages Web qui sont accessibles sur un seul site donné. Nous définissons un moteur de recherche comme étant composé de programmes séparés chacun effectuant une tâche particulière. Ces parties sont : 1-Chargeur de pages Web : charge une page Web sur la machine exécutant le moteur. 2-Analyseur des liens : analyse les pages chargées pour en extraire des liens vers d’autres pages à télécharger 3-Indexeur (BDD) : prend en entrée une URL, cherche le titre de la page HTML et stocke sur une base de données la correspondance URL-titre 4-Serveur Web de recherche : serveur Web cherchant toutes les URL de la base correspondant à un mots clés. 5-Optimiseur (threading) : Optimisation par des thread de l’analyseur et du chargeur de page Web

2. Procédures d’installation et de configuration
Durant ce travail vous auriez besoin d’installer des serveurs Http et Mysql. Reportez-vous au cours ou aux documentations Linux pour les procédures d’installation.

3. Développement des différentes parties
1. Chargeur de pages Web : Le chargement prend en paramètre une URL et charge la page Web qui lui correspond. Le chargement de la page peut se faire en mémoire comme sur le disque dans ce deuxième cas attention à effacer la page après la fin du traitements. Servez vous de la classe java.net.URL

Ahmed Jebali

page 2

13/10/2005

Administrateur Réseaux & BDD 2. Analyseur des liens : analyse les pages chargées pour en extraire des liens vers d’autre pages à télécharger. Cet analyseur cherche les tag <a href url> dans la page HTML et extrait l’URL. L’analyseur stocke ensuite cette url dans une liste d’url à télécharger par le Chargeur (étape1). 3. Indexeur (BDD) : prend en entrée une URL, cherche le titre de la page HTML et stocke sur une base de données la correspondance URL-titre. Utiliser pour ceci un connecteur JDBC à votre base de données mysql. Les tables de la bases devraient être déjà définies. L’Indexeur fait seulement un « insert » dans la base. 4. Serveur Web de recherche : serveur Web cherchant toutes les URL de la base correspondant à un mots clés. La recherche se fait avec un formulaire en php. Ce formulaire exécute une commande « select » sur la base de données. N’oublier pas de faire la connexion à la base avant de lancer la commande sql. 5. Optimiseur (threading) : Optimisation par des threads de l’analyseur et du chargeur de page Web. Ces deux parties du programme sont les plus gourmandes en temps de processeur et en mémoire. Au lieu de faire le traitement de façon séquentielle on va le « paralléliser » avec des threads. C’est à dire que le chargeur et l’analyseur ne s’exécuteront pas comme des processus mais chacun sera une collection de plusieurs threads.

Ahmed Jebali

page 3

13/10/2005


								
To top