Wikizionario:Importazione dizionari PD

Qui si discute e lavora su creazione o ampliamento [semi]automatici di lemmi del Wikizionario mediante importazione di dizionari ormai tornati nel pubblico dominio.

Wikimedia Italia ha deciso di finanziare il progetto per coprire alcune spese; il responsabile del "progetto Wikizionario", per quanto riguarda WMI, è Nemo. Al momento si sta lavorando sullo Zingarelli del 1922 (vedi https://archive.org/details/VocabolarioDellaLinguaItaliana2 ) e si punta al Vocabolario della Crusca del 1923.

Dizionari individuati[modifica]

Rigutini, 1893: completo, relativamente moderno.
- File:Vocabolario italiano della lingua parlata, 1893.djvu
- Qualche pagina di esempio, per prove di pulizia ecc.
Zingarelli, 1917: disponibili solo i primi 4 fascicoli, più moderno. Apparentemente disponibile alla BCB e anche alla BNCF, ma in quest'ultima solo i primi 5 fascicoli.
- File:Zingarelli, Vocabolario della lingua italiana, 1917, vol 1.djvu
- Qualche pagina di esempi, per prove di pulizia ecc.
Zingarelli, 1922 (ultima edizione di dominio pubblico): disponibile in alcune biblioteche. Ricercato alla Sormani, perduto alla Braidense, esistente ma danneggiato alla BNCF, disponibile a unibo; in corso di caricamento ed elaborazione nell'IA (vedi anche immagini singole).
- File:Vocabolario della lingua italiana, 1922.djvu
- In pubblico dominio perché: è stato pubblicato nel 1922 (prima del 1923), è un'opera collettiva e comunque Nicola Zingarelli è morto nel 1935 (oltre 70 anni fa). Cfr. s:en:Help:Public_domain#Published_outside_the_United_States, s:Aiuto:Copyright.
- L'esemplare della BNCF manca di alcune pagine, ne ha altre strappate, è stato soggetto ad alluvione e restauro ed è velinato.
Zambaldi, vocabolario etimologico, 1889: utile per integrare le informazioni etimologiche (priorità inferiore), OCR eccellente.
- File:Zambaldi, Vocabolario etimologico italiano, 1889.djvu
- Qualche pagina di esempio, per prove di pulizia ecc.
Pianigiani, vocabolario etimologico, 1907: la stessa edizione presente su etimo.it, forse il migliore etimologico PD in circolazione.
- File:Pianigiani, Vocabolario etimologico della lingua italiana, 1907.djvu
Tommaseo, nuovo dizionario dei sinonimi e dei contrari: tuttora molto utile per le sottigliezze lessicali, i suoi lemmi si possono anche usare come definizioni; ci sono diverse edizioni e scansioni, non di tutte è disponibile il djvu e soprattutto l'OCR. (Il vocabolario invece non è probabilmente adatto, anche le riedizioni degli anni dieci o venti sono probabilmente troppo puriste. C'è un'edizione del 1917.)
- Edizione 1850:
  - Google-IA (volume unico, "a colori", riveduta e corretta da Rigutini).
- Edizione 1858 (quarta edizione milanese):
  - Google-IA (primo volume, bianco e nero).
- Edizione 1886 (nuova edizione napoletana sulla quinta milanese):
  - unipd.
- Edizione 1905 (nuova edizione napoletana sull'ultima milanese):
  - ristampa anastatica 1990 (unibo),
  - ristampa anastatica 1957 (42 €).
De Mauro Paravia: non PD, recentissimo ma abbandonato dalla casa editrice, che si pensava avrebbe potuto essere interessata a farlo proseguire a noi (discussioni: uno, due), ma sicuramente non può dato che è stata costretta a ritirarlo dal mercato proprio per beghe di diritti d'autore e consimili.
Vocabolario degli accademici della Crusca, 1923: non in PD, storico ma recente, da digitalizzare (discussione).

Questioni da sciogliere[modifica]

Se il dizionario ha un valore storico (come ad esempio quello della Crusca), potrebbe essere opportuno metterlo in Wikisource, "pulire" il testo lì e poi estrarre i dati da importare nel Wikizionario (anche se la pulizia fosse ridotta al minimo indispensabile per l'importazione, a Wikisource resterebbe qualcosa di utile, anche se completato).
Se si riesce a fare un bot abbastanza intelligente, gli si può dare in pasto testi abbastanza sporchi (senza preoccuparsi della formattazione, ma solo degli errori di OCR del testo vero e proprio dei lemmi) e fargli creare lemmi accettabili in Wikizionario.
La "pulizia": meglio in locale o collaborativamente nelle pagine di Wikizionario?

Tabella di marcia[modifica]

Le singole tappe del processo e, come sottopunti, lo stato relativo e/o i sotto-compiti necessari e chi se ne occupa. I file di prova si possono caricare e trovare preferibilmente in Biblioteca (vari formati, fino a 64 MB) o in altri luoghi ivi indicati.

Ottenere una scansione dello Zingarelli ( Fatto) e/o fare un accordo con la Crusca per avere i loro dati sul vocabolario del 1923.
Produrre degli OCR decenti e se possibile creare un DjVu utile per Wikisource (vedi punto 1 di #Questioni da sciogliere). In corso... (vedi discussione).
- IA: http://www.archive.org/details/VocabolarioDellaLinguaItaliana con DjVu (molto compresso) a due pagine, leggibile ma con OCR pessimo
- Prove di spezzamento pagine con unpaper(Discussioni_Wikizionario:Importazione_dizionari_PD#Spezzamento_e_raddrizzamento_delle_pagine)
  - Nemo: http://www.archive.org/details/VocabolarioDellaLinguaItaliana2p , DjVu pronto ma quasi inutile (vedi Prove/unpaper/Nemo 1 e discussione)
  - Laurentius: da rifinire, al momento sospeso
- Aubrey: due DjVu da 90 MB (in Dropbox), utili per la lettura fine a sé stesso, da caricare nell'IA; OCR pessimo ma buona mappatura (forse utile in futuro se falliamo altrove) Fatto
- Alex: OCR e prima elaborazione automatici completati (vedi zip caricati nell'IA):
  - rifinire OCR:
    1. - avere un'idea preliminarissima di quanto è complesso ( Fatto: troppo difficile, Alex passa),
      - approfondire (in corso, ci prova Nemo),
      - una volta capito cosa bisogna fare, trovare qualcuno che lo faccia;
    2. altra via, Terese (autore contattato);
  - ottenere un buon rtf;
  - poi esportare in DjVu;
  - poi sistemare il DjVu.
- Altro tentativo: ottenere una nuova scansione a risoluzione maggiore e più pulita. Fatto
- Altra prova: ripulire le immagini disponibili. Fatto ~~Tentativo a w:it:Progetto:Laboratorio_grafico/Immagini_da_migliorare#wikt:Wikizionario:Importazione_dizionari_PD, riprovare anche unpaper.~~ Laurentius ha ripulito le immagini; ha usato scan tailor, suggeritoci da LA2, in modalità automatica (con aggiustamenti globali alla configurazione, perché quelli per pagina non servono comunque a nulla). Nell'IA ci sono immagini, pdf, DjVu e testo semplice. L'OCR è migliore dei precedenti ma non un granché.
  - La nuova scansione è stata fatta a 400 dpi non compressi su una copia dell'unibo (grazie a FollowTheMedia e Giac), a dicembre 2011. Le immagini hanno dovuto essere ritagliate da Laurentius nel marzo 2012 ma sono di buona qualità. Riducendo la risoluzione di un quarto abbiamo ottenuto un DjVu con OCR dall'IA. Tutto il materiale è in http://www.archive.org/details/VocabolarioDellaLinguaItaliana2
  - L'OCR è guardabile ma certo non usabile direttamente. Laurentius ha ritagliato anche queste immagini ed è migliorato un po' ma non molto. Nemo sta ora contattando i nostri esperti di Wikisource e altre persone per capire come migliorarlo ed eventualmente avere preventivi. In corso...
    - Stiamo valutando due preventivi.
    - Alternativa, provare con FineReader 11, ma bisogna trovare qualcuno che possa e voglia (probabilmente all'estero?).
- Per confronto, Nemo ha comprato un altro vocabolario: lo ha sfascicolato/tagliato/rifilato senza pietà e ha tentato di fare una scansione a colori, 600 dpi, sfruttando una fotocopiatrice unimi che però si inceppa perché le pagine sono troppo sottili; si sta valutando l'acquisto di uno scansionatore per documenti (comunque piú economico di una scansione tradizionale), che però non si inceppi.[1] HP, Canon, Epson, Plustek, Xerox non sembrano avere nulla di adeguato, Fujitsu solo alta gamma, Kodak sui 900 € [2], Panasonic dubbio sui 700 [3], Avision sui 500 [4] [5]. Non fatto
Cominciare a pulire un po' qualche pagina dello Zingarelli e della Crusca e vedere come creare/integrare i lemmi in automatico, per poi vedere qual è il sistema migliore per procedere con tutto il resto del dizionario.
- Analisi dell'OCR in formato testo, una volta pronto un OCR decente (verifica della codifica caratteri, della strutturazione mantenuta): già arruolato un responsabile
- Analisi dell'rtf di cui sopra (quanto è strutturato e come si riesce a lavorarci per estrarne i dati che ci servono): già trovata una possibile cavia
- Approfondimento Crusca (che cosa aspettarsi?)
Stabilire qual è il dizionario migliore con cui procedere.
Definire la tabella di conversione dei dati (dai simboli e abbreviazioni del dizionario cartaceo alle sezioni e template del Wikizionario), scrivere il programmino/script.
Pulire quanto basta il testo nelle modalità stabilite.
Importare i dati.
Correggere i lemmi creati per quanto possibile in automatico secondo le solite modalità, lasciare che il resto venga corretto man mano dai nuovi lettori/utenti che l'aumento delle informazioni dovrebbe attirare.

Compiti correlati[modifica]

Compiti correlati già più o meno impostati in cerca di qualcuno che se ne prenda carico. Se volete aiutarci ma non avete voglia di occuparvi di tutta la questione generale qui compariranno cose da fare per voi!

Caricare in Commons tutte le illustrazioni: vedi Discussioni_Wikizionario:Importazione_dizionari_PD#Illustrazioni; se ne occupa BasilicoFresco (ma serve prima rifinire l'OCR...)
...

Trucchi, promemoria, altre esperienze[modifica]

Verificare quanti dei lemmi da importare dal dizionario sono già stati creati in Wikizionario.
Escludere i transfen dai precedenti: cancellare in automatico quelli presenti per sostituirli coi lemmi importati, invece di integrarli (più complicato e inutile).
Altri Wikizionari:
- In en.wikt hanno importato una vecchia edizione del Merriam-Webster: vedere come hanno fatto.
- In fr.wikt dai grafici sembra che abbiano creato molti lemmi in automatico, approfondire.
- In ru.wikt TrudoBot (traduzione: sorgenti disponibili!) ha creato moltissimi lemmi: capire meglio che cosa ha fatto e come (qui si parla di perdita di credibilità, qui qualche accenno di statistiche (traduzione).
- Millosh dice che sta lavorando su questo: Nemo vede di contattarlo
pt.source: s:pt:Categoria:Candido de Figueiredo 1913, 64 000 lemmi in pagine distinte caricati in automatico.

Collegamenti esterni[modifica]

L'associazione Senso Comune ha pubblicato in cc-by-sa i 2075 lemmi fondamentali del vocabolario De Mauro, per cui ha costruito una piattaforma semantica e collaborativa, ma è ancora in trattativa per i diritti sul resto del vocabolario.