Stage développeur chez ipernity


  • Share on Pinterest

Je suis étudiant en dernière année à Polytech’Nice-Sophia (école d’ingénieur en sciences informatiques) comme vous le savez peut-être. Comme tout étudiant de l’école, je devais effectuer un stage de 2 à 3 mois en entreprise en tant que développeur l’été dernier.

Pour réaliser ce stage, qui était mon premier dans le monde de l’informatique, je voulais faire ce que j’aime, du web. J’ai donc chercher des entreprises, principalement des startups, dans ce domaine. Après avoir postulé auprès de nombreuses entreprises, j’ai accepté l’offre d’une startup de la région, ipernity.

logo ipernityCette petite entreprise réalise un site web 2.0 (au sens où le contenu est généré par les utilisateurs (user-generated content)) dont la devise est « Partager ce que l’on veut, avec qui l’on veut ». Effectivement, au lieu de se spécialiser sur un type précis de données comme le font Youtube et Flickr, par exemple, ipernity a choisi de proposer l’hébergement de tout type de documents, quitte à apporter un peu moins de valeur ajoutée que les concurrents.

Grâce à eux, j’ai pu découvrir le monde des startups qui m’attire depuis longtemps, le fonctionnement au quotidien d’une entreprise dynamique qui se doit de toujours rapidement répondre aux attentes de ses clients et aussi, la difficulté et les risques que représente sa gestion.

Mon sujet de stage était le suivant :

Indexation du texte brut de nombreux formats de documents contenant du texte, et leurs métadonnées

Nous le sentons bien, l’année 2007 sera l’année de l’indexation intelligente de tous vos fichiers.
Entre Google Desktop Search, Microsoft avec Vista et Spotlight d’Apple, jamais autant d’applications se sont proposées d’analyser le contenu des fichiers de votre ordinateur.

ipernity.com, dans son approche d’organisation et d’archivage de vos fichiers en ligne, se doit de proposer une fonction de recherche (et/ou de prévisualisation) de nombreux formats de fichiers.
Nous supportons actuellement tous les formats d’image, de vidéo et les fichiers audio (avec id3).

L’objectif du stage est d’implémenter un moteur d’indexation capable d’analyser le contenu de fichiers PDF, PS, WORD, EXCEL, RTF, POWERPOINT, … ainsi que le plus grand nombre de formats de fichiers contenant du texte, ou d’autres indications susceptibles d’être indexées (dates de création, de modification, auteurs, révisions,…).

Dans un environnement essentiellement constitué de logiciels libres (LINUX/PHP/MYSQL) l’étudiant devra réaliser un moteur d’indexation aux meilleures performances possibles (qualité de l’indexation / temps CPU). Les données d’indexation seront stockées en base MySQL, la recherche sera faite au moyen de scripts PHP.

Connaissances particulières requises : PHP, PYTHON, PERL, SQL mais aussi C, C++, algorithmique, lucene

Voici le rapport de stage final :

Rapport de stage @ ipernity (pdf)