Wikizionario:Importazione dizionari PD

Da Wikizionario, il dizionario a contenuto aperto.

Qui si discute e lavora su creazione o ampliamento [semi]automatici di lemmi del Wikizionario mediante importazione di dizionari ormai tornati nel pubblico dominio.

Wikimedia Italia ha deciso di finanziare il progetto per coprire alcune spese; il responsabile del "progetto Wikizionario", per quanto riguarda WMI, è Nemo. Al momento si sta lavorando sullo Zingarelli del 1922 (vedi https://archive.org/details/VocabolarioDellaLinguaItaliana2 ) e si punta al Vocabolario della Crusca del 1923.

Dizionari individuati[modifica]

Questioni da sciogliere[modifica]

  • Se il dizionario ha un valore storico (come ad esempio quello della Crusca), potrebbe essere opportuno metterlo in Wikisource, "pulire" il testo lì e poi estrarre i dati da importare nel Wikizionario (anche se la pulizia fosse ridotta al minimo indispensabile per l'importazione, a Wikisource resterebbe qualcosa di utile, anche se completato).
  • Se si riesce a fare un bot abbastanza intelligente, gli si può dare in pasto testi abbastanza sporchi (senza preoccuparsi della formattazione, ma solo degli errori di OCR del testo vero e proprio dei lemmi) e fargli creare lemmi accettabili in Wikizionario.
  • La "pulizia": meglio in locale o collaborativamente nelle pagine di Wikizionario?

Tabella di marcia[modifica]

Le singole tappe del processo e, come sottopunti, lo stato relativo e/o i sotto-compiti necessari e chi se ne occupa. I file di prova si possono caricare e trovare preferibilmente in Biblioteca (vari formati, fino a 64 MB) o in altri luoghi ivi indicati.

  1. Ottenere una scansione dello Zingarelli (✔ Fatto) e/o fare un accordo con la Crusca per avere i loro dati sul vocabolario del 1923.
  2. Produrre degli OCR decenti e se possibile creare un DjVu utile per Wikisource (vedi punto 1 di #Questioni da sciogliere). In corso... (vedi discussione).
    • IA: http://www.archive.org/details/VocabolarioDellaLinguaItaliana con DjVu (molto compresso) a due pagine, leggibile ma con OCR pessimo
    • Prove di spezzamento pagine con unpaper(Discussioni_Wikizionario:Importazione_dizionari_PD#Spezzamento_e_raddrizzamento_delle_pagine)
    • Aubrey: due DjVu da 90 MB (in Dropbox), utili per la lettura fine a sé stesso, da caricare nell'IA; OCR pessimo ma buona mappatura (forse utile in futuro se falliamo altrove)✔ Fatto
    • Alex: OCR e prima elaborazione automatici completati (vedi zip caricati nell'IA):
      • rifinire OCR:
          • avere un'idea preliminarissima di quanto è complesso (✔ Fatto: troppo difficile, Alex passa),
          • approfondire (in corso, ci prova Nemo),
          • una volta capito cosa bisogna fare, trovare qualcuno che lo faccia;
        1. altra via, Terese (autore contattato);
      • ottenere un buon rtf;
      • poi esportare in DjVu;
      • poi sistemare il DjVu.
    • Altro tentativo: ottenere una nuova scansione a risoluzione maggiore e più pulita. ✔ Fatto
    • Altra prova: ripulire le immagini disponibili. ✔ Fatto Tentativo a w:it:Progetto:Laboratorio_grafico/Immagini_da_migliorare#wikt:Wikizionario:Importazione_dizionari_PD, riprovare anche unpaper. Laurentius ha ripulito le immagini; ha usato scan tailor, suggeritoci da LA2, in modalità automatica (con aggiustamenti globali alla configurazione, perché quelli per pagina non servono comunque a nulla). Nell'IA ci sono immagini, pdf, DjVu e testo semplice. L'OCR è migliore dei precedenti ma non un granché.
      • La nuova scansione è stata fatta a 400 dpi non compressi su una copia dell'unibo (grazie a FollowTheMedia e Giac), a dicembre 2011. Le immagini hanno dovuto essere ritagliate da Laurentius nel marzo 2012 ma sono di buona qualità. Riducendo la risoluzione di un quarto abbiamo ottenuto un DjVu con OCR dall'IA. Tutto il materiale è in http://www.archive.org/details/VocabolarioDellaLinguaItaliana2
      • L'OCR è guardabile ma certo non usabile direttamente. Laurentius ha ritagliato anche queste immagini ed è migliorato un po' ma non molto. Nemo sta ora contattando i nostri esperti di Wikisource e altre persone per capire come migliorarlo ed eventualmente avere preventivi. In corso...
        • Stiamo valutando due preventivi.
        • Alternativa, provare con FineReader 11, ma bisogna trovare qualcuno che possa e voglia (probabilmente all'estero?).
    • Per confronto, Nemo ha comprato un altro vocabolario: lo ha sfascicolato/tagliato/rifilato senza pietà e ha tentato di fare una scansione a colori, 600 dpi, sfruttando una fotocopiatrice unimi che però si inceppa perché le pagine sono troppo sottili; si sta valutando l'acquisto di uno scansionatore per documenti (comunque piú economico di una scansione tradizionale), che però non si inceppi.[1] HP, Canon, Epson, Plustek, Xerox non sembrano avere nulla di adeguato, Fujitsu solo alta gamma, Kodak sui 900 € [2], Panasonic dubbio sui 700 [3], Avision sui 500 [4] [5]. ✘ Non fatto
  3. Cominciare a pulire un po' qualche pagina dello Zingarelli e della Crusca e vedere come creare/integrare i lemmi in automatico, per poi vedere qual è il sistema migliore per procedere con tutto il resto del dizionario.
    • Analisi dell'OCR in formato testo, una volta pronto un OCR decente (verifica della codifica caratteri, della strutturazione mantenuta): già arruolato un responsabile
    • Analisi dell'rtf di cui sopra (quanto è strutturato e come si riesce a lavorarci per estrarne i dati che ci servono): già trovata una possibile cavia
    • Approfondimento Crusca (che cosa aspettarsi?)
  4. Stabilire qual è il dizionario migliore con cui procedere.
  5. Definire la tabella di conversione dei dati (dai simboli e abbreviazioni del dizionario cartaceo alle sezioni e template del Wikizionario), scrivere il programmino/script.
  6. Pulire quanto basta il testo nelle modalità stabilite.
  7. Importare i dati.
  8. Correggere i lemmi creati per quanto possibile in automatico secondo le solite modalità, lasciare che il resto venga corretto man mano dai nuovi lettori/utenti che l'aumento delle informazioni dovrebbe attirare.

Compiti correlati[modifica]

Compiti correlati già più o meno impostati in cerca di qualcuno che se ne prenda carico. Se volete aiutarci ma non avete voglia di occuparvi di tutta la questione generale qui compariranno cose da fare per voi!

  1. Caricare in Commons tutte le illustrazioni: vedi Discussioni_Wikizionario:Importazione_dizionari_PD#Illustrazioni; se ne occupa BasilicoFresco (ma serve prima rifinire l'OCR...)
  2. ...

Trucchi, promemoria, altre esperienze[modifica]

  • Verificare quanti dei lemmi da importare dal dizionario sono già stati creati in Wikizionario.
  • Escludere i transfen dai precedenti: cancellare in automatico quelli presenti per sostituirli coi lemmi importati, invece di integrarli (più complicato e inutile).
  • Altri Wikizionari:
    • In en.wikt hanno importato una vecchia edizione del Merriam-Webster: vedere come hanno fatto.
    • In fr.wikt dai grafici sembra che abbiano creato molti lemmi in automatico, approfondire.
    • In ru.wikt TrudoBot (traduzione: sorgenti disponibili!) ha creato moltissimi lemmi: capire meglio che cosa ha fatto e come (qui si parla di perdita di credibilità, qui qualche accenno di statistiche (traduzione).
    • Millosh dice che sta lavorando su questo: Nemo vede di contattarlo
  • pt.source: s:pt:Categoria:Candido de Figueiredo 1913, 64 000 lemmi in pagine distinte caricati in automatico.

Collegamenti esterni[modifica]

  • L'associazione Senso Comune ha pubblicato in cc-by-sa i 2075 lemmi fondamentali del vocabolario De Mauro, per cui ha costruito una piattaforma semantica e collaborativa, ma è ancora in trattativa per i diritti sul resto del vocabolario.