L'hebdomadaire Le Point du vendredi 1er août 2003, Nº 1611, publie un article qui a pour titre :
Informatique. Le sexe des auteurs, signé E. F.
Le voici en entier :
"Pouvez-vous deviner, en lisant ces lignes, si je suis une femme ou un homme ? Moshe Koppel, lui, le peut. Le professeur et ses collègues du département informatique de l'université Bar-Ilan, en Israël, ont mis au point un programme permettant d'établir à partir d'un texte le sexe de son auteur. Testé et corrigé sur un corpus de 600 textes, du manuel d'histoire au roman policier, le programme relève dans chaque écrit les occurrences de 566 mots clés - en anglais - pour en déduire le sexe de son auteur. Car voilà le mystère enfin levé grâce à l'informatique et au professeur Koppel : les hommes emploient davantage de termes qui catégorisent et quantifient, tandis que les femmes préfèrent les mots qui impliquent une relation et une personnalisation. De la raison d'un côté, de la bluette de l'autre... Accusé de sexisme, Moshe Koppel argue que son approche reste empirique. L'informaticien universitaire poursuit ses recherches. Il entend utiliser son programme pour reconnaître l'âge, le milieu social, le niveau d'éducation d'un auteur, mais également son style. Uniquement en anglais, pour l'instant. Et sans grande poésie."
Version papier, cet article apparaît signé EF. Version électronique, on apprend que EF, c'est Elsa Fayner. © Le point 01/08/03 - N°1611 - Page 15 - 188 mots
Merci donc, Madame Fayne ! Dommage que vous nous laissiez un peu sur notre faim après avoir si bien allumé notre intérêt !
.
Ce serait bien si dans un prochain article [J'ai déjà commencé à rédiger une lettre pour le lui demander, mais je crains que ce sera en vain] vous nous souffliez quelques-uns de ces 566 mots clés qui apparemment conforment cette liste sexo-discriminatoire, histoire de comprendre un peu mieux comment ça marche. Je me demande comment on rédige ce genre d'articles : est-ce à partir d'une interwiev avec le chercheur ou à partir de la lecture d'un magazine spécilisé ? Pourquoi privilégier le côté "guerre des sexes" et non pas le côté techno-linguistique ?
L'article nous a amenés à dépoussiérer le concordancier Concordancer 3.0 que nous avons installé dans notre PC il y a quelques mois (c'est mon ami Juan del Rey qui m'en avait parlé et qui m'avait envoyé l'adresse de téléchargement), mais que je n'avais utilisé que pour voir comment ça marchait ...
Après avoir lu cet article du Point, il m'est venu à la tête ce que j'avais un instant imaginé et que j'avais déjà oublié : qu'ayant un peu de "foi" et beaucoup de courage, et à l'aide de toute une série de lociciels destinés à l'indexation et à l'analyse textuelle, nous aussi, nous pourrions jouer les "chercheurs" sans pour autant concurrencer M. Koppel et son équipe.
Connaissez-vous ces logiciels ? Voici un petit perçu de ce que j'ai trouvé :
Option amateur ou débutant : Concordancer 3.0 (freeware)
"Concordancer for Windows. Version 3.0
Concordancer for Windows enables one to search for words in text files and display them in the form of concordances. Concordances can be used for text analysis including the investigation of style, grammar usage, vocabulary usage and teaching.
Authors
The program was developed by Zdenek Martinek from the University of West Bohemia, Pilsen, Czech Republic, in close collaboration with Les Siegrist, Technische Hochschule Darmstadt, Germany".
A partir d'un texte ou d'un corpus de textes nécessairement en format .txt (contraintes du freeware), ce logiciel permet d'établir une liste de tous les mots présents dans le corpus, ainsi qu'une statistique de fréquence d'apparition, plus une liste de contextes dans lesquels tel ou tel mot (choisi parmi ceux de la liste) apparaît. Enfin, on a la possibilité de sauver ces phrases-contextes dans un fichier texte. Génial, n'est-ce pas ?
Seul problème majeur : le logiciel était téléchargeable à l'adresse
http://www linglit tu-darmstadt de/wconcord htm
MAIS (Lois de Murphy aidant) il n'est plus disponible en ligne. Il faut s'adresser aux auteurs:
martinek@top.cz
Zdenek Martinek
Masarykova 4
312 19 Plzen
Czech Republic
siegrist@linglit.tu-darmstadt.de
Prof. Dr. Leslie Siegrist
TU Darmstadt
FB2
Institut für Sprach- und Literaturwissenschaft
Hochschulstr. 1
64289 Darmstadt
Germany
Ou en demander une copie aux heureux qui, lorsqu'il était encore en ligne, avaient résussi à le télécharger. Une fois n'est pas coutume, j'en ai une copie ;-)
Bien sûr, il existe aussi d'autres concordanciers bien plus puissants que Concordancer 3.0...
"Generally, the more expensive the item, the more functions it will have", nous prévient-on en anglais :-) On s'en doutait, n'est-ce pas ...?
Voici ce qu'on trouve à l'adresse suivante :
http://www.nsknet.or.jp/~peterr-s/concordancing/specs.html
1. Cobuild Direct Collins Cobuild English Collocations on CD-ROM Word Smith Ultra Find Mono Conc Conc Conc 1.80 Concordance
Cobuild Direct (The Bank of English)
Cost - for a single user: 500 UK pounds a year, 300 UK pounds for 6 months
Download site / Information web site: http://titania.cobuild.collins.co.uk/direct_info.html
Minimum System requirements: any computer with an internet connection. Telnet, and FTP software (e.g. fetch)
Corpus: about 50 million words
Hard disk requirements: Telnet and Fetch require about 1MB of hard disk space
Memory requirements: just enough to access the internet
Speed: quite Fast
Strong points: very large and broad corpus, powerful search possibilities
Weak points: expensive
Example output: some screen shots, more screen shots can be seen at: http://titania.cobuild.collins.co.uk/collscd.html
Is there a printable / hardcopy manual? Yes, sent via post on registration, about 50 pages
Is there online help? - i.e. a help option within the program: There is a help function but it is a little cumbersome.
2. WordSmith v3.0
Cost - for a single user: 51.95 UK pounds (excl VAT), for people not living in the UK 61.04 UK pounds (incl UK VAT) (the free demo is fully fuctional, but only gives a maximum 20 item output)
Download site / Information web site: http://www.liv.ac.uk/~ms2928/ http://www1.oup.co.uk/elt/catalogu/multimed/4589846/4589846.html
Minimum System requirements: IBM or compatible PC with 80386 (or faster) microprocessor. Windows 3.1 or newer. Also runs on 'Soft Windows 95'
Corpus: user provided
Hard disk requirements: at least 5MB of hard disk
Memory requirements: at least 4MB RAM (8 in Windows 95)
Speed: quick
Strong points: this is not just a concordancer; it has a number of other useful tools
Weak points: a little tricky to use. Certainly not recommended for L2 learners unless very computer literate, and/or advanced learners
Example output: some screen shots, more screen shots can be sen at: http://www.liv.ac.uk/~ms2928/wordsmith/screenshots/index.htm
Is there a printable / hardcopy manual? Yes. A very comprehensive 149 page manual which comes as a MS Word doc, so can be read by Mac machines as well. Worth reading even if you dn't plan to use the software
Is there online help? - i.e. a help option within the program: Yes, very comprehensive and relevant. The content is much the same as the above manual.
3. Mono-Conc Pro and MonoConc 1.5
Cost - for a single user: windows version MonoConc 1.5 is $69, MonoConc Pro is $95
Download site / Information web site: http://www.athel.com/mono.html
Minimum System requirements: Windows 3.1 + for MonoConc 1.5, Windows 95 for MonoConc Pro (works on Soft Windows 95)
Corpus: User provided
Hard disk requirements: about 1 MB of hard disk space
Memory requirements: 16 MB of RAM recommended
Speed: quite fast
Strong points: MonoConc Pro is simpler to use that WordSmith and has some powerful search options
Weak points: given its relatively limited functions it is rather expensive. Although it's possible to download a demo, you have to get the fully working version sent via snail mail
Example output: some screen shots
Is there a printable / hardcopy manual? yes, a very useful 32 page booklet
Is there online help? - i.e. a help option within the program: yes
4. Concordance
Cost - for a single user: $89, or 55 UK pounds
Download site / Information web site: http://www.rjcw.freeserve.co.uk/
Minimum System requirements: Windows 95 + (works on Soft Windows 95)
Corpus: user supplied
Hard disk requirements: about 3 MB or hard disk space
Speed: a little slow
Strong points: this software will convert concordances into html files - a 'web concordance'
Weak points: rather slow, and only able to work on one file at any one time
Example output: some screen shots
Is there a printable / hardcopy manual? no
Is there online help? - i.e. a help option within the program: yes
5. Collins Cobuild English Collocations on CD-ROM (The Bank of English)
Cost - for a single user: 40 UK pounds
Download site / Information web site: http://titania.cobuild.collins.co.uk/collscd.html
Minimum System requirements: IBM or compatible PC with 80386 (or faster) microprocessor. Windows 3.1 or newer. Also runs on 'Soft Windows 3.1 and 95'
Corpus: 10,000 headwords. 2,600,000 authentic examples (i.e. concordances) taken from The Bank of English. Up to 20 collocates per headword
Hard disk requirements: installation to hard disk of 'CD-ROM driver' requires 521Kb
Memory requirements: minimum 2Mb RAM. (4Mb recommended)
Speed: fast
Strong points: simple to install and use. Quick and simple to copy concordances into a word processor.
Weak points: can't search for 'clusters' of words.
Example output: some screen shots
Is there a printable / hardcopy manual? Yes, a small but informative booklet that comes with the CD-ROM.
Is there online help? - i.e. a help option within the program: Yes, but minimal. The limited functions of this item do not require much assistance.
6. Ultra Find
Cost - for a single user: 39.95 US Dollars (demo works, but user must register and pay after a month)
Download site / Information web site: http://www.ultradesign.com/
Minimum System requirements: any Macintosh or PowerPC running system 7.x.x or system 8.x.x (also seems to work on system 9)
Corpus: User provided
Hard disk requirements: 1 MB of HD
Memory requirements: at least 1 MB
Speed: extremely fast
Strong points: UltraFind was not designed to be a 'concordancer'. It is first and foremost a search tool - it is very fast
Weak points: becuase it was not designed to be a concordancer it has none of the functions that you would expect even a simple concordancer to have
Example output: some screen shots
Is there a printable / hardcopy manual? Yes. A short 2 page 'Quick Tour'.
Is there online help? - i.e. a help option within the program: Yes. An extensive help option.
7. MonoConc (for Mac)
Cost - for a single user: freeware
Download site / Information web site: Used to be downloadable form the Rice University web site: http://www.ruf.rice.edu/, see my comments
Minimum System requirements: MAC OS
Corpus: user provided
Hard disk requirements: about 850 Kb on HD
Memory requirements: at least 1 MB
Speed: slow
Strong points: free. Very simple to use. L2 learners could use this.
Weak points: not good with even moderately large corpora
Example output: some screen shots
Is there a printable / hardcopy manual? yes. A 6 page MS word document.
Is there online help? - i.e. a help option within the program: no
8. Conc 1.80
Cost - for a single user: free
Download site / Information web site: http://www.sil.org/computing/conc/
Minimum System requirements: MAC OS, 68K and Power PC versions
Corpus: user provided
Hard disk requirements: about 750 Kb of HD
Memory requirements: at least 2 MB
Speed: quite Fast
Strong points: free. Quite simple to use, and quite fast. L2 learners could probably use this.
Weak points: not so good with large corpora since it can only work with texts that fit entirely in memory. This includes the resulting concordance.
Example output: some screen shots
Is there a printable / hardcopy manual? yes. A 74 page PDF document.
Is there online help? - i.e. a help option within the program: No
Et puis, voilà encore ce qu'on lit à l'adresse suivante :
http://www.teaching-english-in-japan.net/directory/cat/86
1. edict Word Frequency Text Profiler
An on-line resource from edic.com's Virtual Language Centre. "Word frequency text profiling can be used in many ways to support teaching, learning and research. The Word Profiler compares all the words in a text with two word frequency lists, it provides a visual profile of the distribution of these words in a text by printing the different frequency bands in different colours. Words which are contained in the first list of most frequent words are left in the default text colour. Words which are found in the second word list (see below) are printed in red and words which are not in either of the lists are printed in blue. The off-list words are listed separately, and this list will contain new or unfamiliar words, as well as genre-specific words. "
http://www edict com hk/textanalyser/ (264 hits since 2002-03-07)
2. MonoConc Pro
Lexical analysis software featuring full regular expression searches and context searches, KWIC (keywords in context) displays and frequency information. Reviews of MonoConc Pro praise its ease of use. Downloadable demo version is fully functional but only displays 20 hits for each search.
http://www athel com/ (146 hits since 2002-02-25)
3. WordSmith Tools
WordSmith Tools v. 3 is a suite of lexical analysis software programs for data-driven learning and research. Concord generates concordances showing a search-word in context, collocates, common word clusters. WordList generates alphabetical and frequency-order lists. KeyWords compares the frequency of words in a text with a reference corpus and identifies key words in the text. There are several other utilitity programs included. Mike Scott's web site includes screenshots, links for downloading from his website or from Oxford University Press and links to extras (such as word lists and lemma lists). WordSmith Tools v. 4 is under development and will eventually handle Unicode (double-byte) encoded text for Windows 95 and better.
http://www lexically net/wordsmith/version3/ (359 hits since 2002-02-23)
Pendant un mois nous avons essayé le Concordance v.3.0 , disponible à l'adresse http://www.rjcw.freeserve.co.uk/
Celui-ci, permet, par exemple, de travailler sur des corpus en format html, ajoute nombre d'options supplémentaires... et permet d'éditer ses recherches à un niveau professionnel ou presque.
Si on n'est pas dans la recherche universitaire, un joujou comme celui-ci peut faire parfaitement l'affaire, et à un prix raisonnable.
Pour les options vraiment Pro, là, je crois qu'il faut s'adresser directement aux services de renseignement genre Echelon, CIA, TIA, MI6, DGST et compagnie....
Eux, en plus de travailler avec les plus puissants logiciels, encore une fois -"Generally, the more expensive the item, the more functions it will have" - ils ont l'appanage exclusif de disposer de tooouuus les corpus.
Je serais prêt à payer un fortune ( si j'en avais une... mais j'usis pauvre) pour pouvoir visiter leurs usines, voir un peu comment fonctionnent leurs appareils et jeter un coup d'oeil aux résultats qu'ils en obtiennent.
Un rêve ... Mais ça, c'est une autre histoire ... ;-)
20 août 2003
____________________
J'ajoute ceci , tant que j'y pense :
Concordancier en français : http://www.lextutor.ca/concordancers/concord_f.html
Concordancier en anglais : http://www.lextutor.ca/concordancers/concord_e.html