Digido testunau a llyfrau sain Cymraeg

Rhifyn cyntaf Eco’r Wyddfa – Chwefror 1976 Tynnwyd fy sylw’n ddiweddar at archif arlein o Eco’r Wyddfa. Ffeiliau PDF – sganiau o hen gopïau print, gyda phob tudalen yn llun. Y peth sy’n anffodus gyda ffeiliau yn y fformat hwn yw’r anallu i chwilio drwyddynt. Nid oes modd agor y ffeil a gwasgu ‘Ctrl + F’, ac nid yw Google yn gallu ei ychwanegu i’w fynegai chwaith. Cafodd gopïau gwreiddiol o Eco’r Wyddfa eu sganio. I’r rheiny wnaeth brynu sganiwr blynyddoedd yn ôl, bosib i chi gofio defnyddio cyfleuster ‘Scan to Text’. Sganio dogfen gyda thestun arni, ac yn lle bod y testun yn rhan annatod o’r ddelwedd, ei bod yn destun a all gael ei olygu mewn meddalwedd fel Word. Yr enw ar y gallu hwn yw Optical Character Recognition (OCR) / Adnabod Llythyren Optegol (ALlO). Doedd y dechnoleg ddim yn llwyddiannus iawn ar y pryd, ac yr oedd hi’n aml yn gyflymach teipio’r testun o’r newydd yn lle cywiro’r holl wallau! Gyda sganwyr Hewlett Packard (HP), yr oedd eu meddalwedd ‘Scan to Text’ wedi ei adeiladu ar graidd Tesseract. Rhyddhaodd HP Tesseract o dan drwydded agored yn 2005, ac ers hynny mae Google a chyfranwyr eraill wedi ei ddatblygu ym mhellach gyda chynnydd mawr. Nid Tesseract yw’r unig feddalwedd sydd ar gael – mae eraill fel ABBYY – ond mae’n agored, am ddim, ac yn cefnogi’r Gymraeg. Gall Tesseract wneud dau beth: adnabod unrhyw destun mae’n synhwyro a’i roi mewn ffeil destun, neu greu ffeil PDF gyda llun o’r sgan fel cefndir a haen gyda thestun chwiladwy ar ei ben. Mae Llyfrgell Genedlaethol Cymru wedi bod yn defnyddio meddalwedd ALlO ers blynyddoedd i greu adnoddau gwych fel Cylchgronau Cymru. Ond ni allem ddisgwyl i’r Llyfrgell Genedlaethol wneud popeth. Wedi sôn am Eco’r Wyddfa, dyma brofi sut i adnabod y testun mewn sganiau o bapur bro’r Wyddgrug, Papur Fama, a chreu PDF. (Yr oedd copïau yn y garej.) Cam pwysig iawn i wneud yn siŵr bod y testun yn cael ei adnabod yn gywir, yw bod gan y sgan cydraniad uchel (300 dpi yn lle 72 dpi mwy cyffredin), a chyferbyniad amlwg rhwng y cefndir a’r testun; cefndir gwyn, a thestun du – lefelau tonyddol y golau. Bydd hyn yn arwain at ffeiliau gyda meintiau mawr. Dyma fy nghamau: Cafodd y lefelau tonyddol eu gosod gyda fy meddalwedd sganio, ond mae’n bosib ei wneud gyda phecyn fel Photoshop, GIMP, ImageMagick etc. Fesul un sganio pob tudalen a chreu ffeil llun. Creu ffeil efo cyfeiriad i bob ffeil fesul llinell newydd Rhedeg Tesseract. tesseract rhestr_lluniau.txt ffeil_1 -l cym+eng PDF Rhedeg Tesseract, nodi pa ffeiliau i’w defnyddio, nodi enw’r ffeil allbwn, nodi geiriau pa ieithoedd i geisio’u hadnabod, nodi fy mod eisiau ffeil PDF. Ar ôl creu pob PDF, fe wnes i eu golygu i leihau maint y lluniau. Yr oedd eu hangen yn fawr i gychwyn, fel bod modd eu darllen gan y cyfrifiadur. Bellach, mae’r testun wedi ei hadnabod a maint y ffeil yn fawr iawn. Dyma ddau rifyn o Papur Fama – Mai 1991 a Rhagfyr 1992. Papur Fama Mai 1991 Papur Fama Rhagfyr 1992 Mewn darllenydd PDF, os bwyswch ‘Ctrl + A’ gallwch weld y testun sydd wedi ei adnabod o fewn y sgan, ac sydd bellach mewn haen ar wahân yn y ffeil; sylwch nad yw’r testunau mewn bocsiau llwyd wedi eu hadnabod. Gallwch chwilio trwy’r ddogfen rŵan hefyd gyda ‘Ctrl + F’. Llwyddiant! Ffordd dda o geisio rhoi mwy o’r Gymraeg ar y we!   Cam dau Un gwefan dwi’n mwynhau ei ddarllen yw un Lowri Haf Cooke. Yn aml mae hi’n cyfrannu i gyhoeddiadau print, gyda hi’n rhoi llun o’r cyhoeddiad ar ei gwefan. Fel uchod, nid yw hi’n bosib chwilio’r geiriau. Ni fydd y testun mewn llun o erthygl yn Y Dinesydd yn ymddangos mewn chwiliadau Google. Felly dyma roi’r llun o erthygl Bwytai Merch y Ddinas – Hoffi Coffi trwy Tesseract. Yr unig wahaniaeth y tro hwn yw peidio nodi fy mod eisiau ffeil PDF. Bydd yn creu ffeil destun gyda’r ysgrifen a adnabyddir. Erthygl Lowri Haf Cooke yn Y Dinesydd   Nid dyna, bob tro, oedd fy mhrofiad rai blynyddoedd yn ôl, wrth ymchwilio ì nghyfrol cyntaf, Canllaw Bach Caerdydd. Mae ‘na un caffi amlwg ger llyn y Rhath sy’n dal i ‘nghorddi pan lonciaf heibio iddo. Lleoliad gorau’r ddinas, ond gweledigaeth ddi-fflach, syn crynhoi diffyg uchelgais y ddinas (tan yn ddiweddar) i’r dim. Cofiaf sgwrsio â pherchennog tŷ te Gerddi Waterloo – oedd newydd agor ar y pryd — oedd yn dyheu am Dolen at y ffeil llawn. Un o’r problemau a welwn yma yw, er mor dda yw Tesseract am adnabod colofnau a darnau o destun wedi eu gosod yma ac acw, mae’n adnabod y testun yn union. Hynny yw, mae’n hollti pob llinell fel y mae heb allu deall mai’r un frawddeg sy’n llifo. Ond petai’r testun a echdynnir yn cael ei roi ochr yn ochr â’r llun gwreiddiol, bydd dal modd canfod y dudalen gyda chwiliadau Google…   Cam tri Gyda’r Eisteddfod Genedlaethol wythnos nesaf, un o’r digwyddiadau a drefnwyd gan Comisiynydd Cenedlaethau’r Dyfodol Cymru yw “A ddylai robotiaid siarad Cymraeg?” Be am drio? Gwasanaethau yn y cwmwl yw’r cyfle i bobl a busnesau cyffredin fanteisio ar isadeiledd cyfrifiadurol enfawr cwmnïoedd fel Salesforce, Google, Amazon, Microsoft etc. Maent oll yn ceisio datblygu technolegau deallusrwydd artiffisial, gydag un ohonynt yn wasanaeth trosi testun i sain. Enw’r gwasanaeth mae Amazon (AWS) yn ei gynnig yw Polly. Mae’n cefnogi sawl iaith gyda lleisiau dyn neu wraig, gan gynnwys y Gymraeg. Dyma fwydo rhan o’r testun a echdynnwyd o erthygl Y Dinesydd uchod, a chreu’r clip sain isod. Gwyneth AWS sy’n ei llefaru. Safon ddealladwy a digon derbyniol, ond mae’n amlwg na chyfrifiadur sydd wedi creu’r sain. http://www.newyddsbon.com/wp-content/uploads/2018/07/lhc_hoffi_coddi_polly.mp3   Mae’r uchod yn dangos sut gall y Gymraeg gael ei ddigido a’i ledaenu. Ysgrifen safonol a diddorol sy’n sownd mewn print, gyda’r gallu i ffeindio’i ffordd i’r we ac yn chwiliadwy i bawb. I’r rheiny sydd heb amser, cyfle i wrando ar gynnwys Cymraeg, neu adnoddau defnyddiol iawn i ddysgwyr. I gloi, dyma tair brawddeg cyntaf y llyfr Ymarfer Ysgrifennu gan Gwyn Thomas: Y mae cywirdeb iaith yn hollbwysig. Cwynir yn gyffredinol heddiw fod safon Cymraeg ysgrifenedig wedi dirywio’n enbyd. Ymddengys fod ein Cymraeg llyfr, yn ogystal â’n Cymraeg llafar, yn frith o idiomau Seisnig, diffyg treigladau, cystrawennau chwithig a chamgymeriadau sillafu.   http://www.newyddsbon.com/wp-content/uploads/2018/07/ymarfer_ysgrifennu.mp3   (Gallwch gael cipolwg ar sut mae Tesseract yn gweithio yn y papur adolygiadol hwn.)
Cafodd y cofnod ei gyhoeddi yn Heb Gategori. Gosod Nod Tudalen i'r ddolen barhaol.

Digido testunau a llyfrau sain Cymraeg

Rhifyn cyntaf Eco’r Wyddfa – Chwefror 1976 Tynnwyd fy sylw’n ddiweddar at archif arlein o Eco’r Wyddfa. Ffeiliau PDF – sganiau o hen gopïau print, gyda phob tudalen yn llun. Y peth sy’n anffodus gyda ffeiliau yn y fformat hwn yw’r anallu i chwilio drwyddynt. Nid oes modd agor y ffeil a gwasgu ‘Ctrl + F’, ac nid yw Google yn gallu ei ychwanegu i’w fynegai chwaith. Cafodd gopïau gwreiddiol o Eco’r Wyddfa eu sganio. I’r rheiny wnaeth brynu sganiwr blynyddoedd yn ôl, bosib i chi gofio defnyddio cyfleuster ‘Scan to Text’. Sganio dogfen gyda thestun arni, ac yn lle bod y testun yn rhan annatod o’r ddelwedd, ei bod yn destun a all gael ei olygu mewn meddalwedd fel Word. Yr enw ar y gallu hwn yw Optical Character Recognition (OCR) / Adnabod Llythyren Optegol (ALlO). Doedd y dechnoleg ddim yn llwyddiannus iawn ar y pryd, ac yr oedd hi’n aml yn gyflymach teipio’r testun o’r newydd yn lle cywiro’r holl wallau! Gyda sganwyr Hewlett Packard (HP), yr oedd eu meddalwedd ‘Scan to Text’ wedi ei adeiladu ar graidd Tesseract. Rhyddhaodd HP Tesseract o dan drwydded agored yn 2005, ac ers hynny mae Google a chyfranwyr eraill wedi ei ddatblygu ym mhellach gyda chynnydd mawr. Nid Tesseract yw’r unig feddalwedd sydd ar gael – mae eraill fel ABBYY – ond mae’n agored, am ddim, ac yn cefnogi’r Gymraeg. Gall Tesseract wneud dau beth: adnabod unrhyw destun mae’n synhwyro a’i roi mewn ffeil destun, neu greu ffeil PDF gyda llun o’r sgan fel cefndir a haen gyda thestun chwiladwy ar ei ben. Mae Llyfrgell Genedlaethol Cymru wedi bod yn defnyddio meddalwedd ALlO ers blynyddoedd i greu adnoddau gwych fel Cylchgronau Cymru. Ond ni allem ddisgwyl i’r Llyfrgell Genedlaethol wneud popeth. Wedi sôn am Eco’r Wyddfa, dyma brofi sut i adnabod y testun mewn sganiau o bapur bro’r Wyddgrug, Papur Fama, a chreu PDF. (Yr oedd copïau yn y garej.) Cam pwysig iawn i wneud yn siŵr bod y testun yn cael ei adnabod yn gywir, yw bod gan y sgan cydraniad uchel (300 dpi yn lle 72 dpi mwy cyffredin), a chyferbyniad amlwg rhwng y cefndir a’r testun; cefndir gwyn, a thestun du – lefelau tonyddol y golau. Bydd hyn yn arwain at ffeiliau gyda meintiau mawr. Dyma fy nghamau: Cafodd y lefelau tonyddol eu gosod gyda fy meddalwedd sganio, ond mae’n bosib ei wneud gyda phecyn fel Photoshop, GIMP, ImageMagick etc. Fesul un sganio pob tudalen a chreu ffeil llun. Creu ffeil efo cyfeiriad i bob ffeil fesul llinell newydd Rhedeg Tesseract. tesseract rhestr_lluniau.txt ffeil_1 -l cym+eng PDF Rhedeg Tesseract, nodi pa ffeiliau i’w defnyddio, nodi enw’r ffeil allbwn, nodi geiriau pa ieithoedd i geisio’u hadnabod, nodi fy mod eisiau ffeil PDF. Ar ôl creu pob PDF, fe wnes i eu golygu i leihau maint y lluniau. Yr oedd eu hangen yn fawr i gychwyn, fel bod modd eu darllen gan y cyfrifiadur. Bellach, mae’r testun wedi ei hadnabod a maint y ffeil yn fawr iawn. Dyma ddau rifyn o Papur Fama – Mai 1991 a Rhagfyr 1992. Papur Fama Mai 1991 Papur Fama Rhagfyr 1992 Mewn darllenydd PDF, os bwyswch ‘Ctrl + A’ gallwch weld y testun sydd wedi ei adnabod o fewn y sgan, ac sydd bellach mewn haen ar wahân yn y ffeil; sylwch nad yw’r testunau mewn bocsiau llwyd wedi eu hadnabod. Gallwch chwilio trwy’r ddogfen rŵan hefyd gyda ‘Ctrl + F’. Llwyddiant! Ffordd dda o geisio rhoi mwy o’r Gymraeg ar y we!   Cam dau Un gwefan dwi’n mwynhau ei ddarllen yw un Lowri Haf Cooke. Yn aml mae hi’n cyfrannu i gyhoeddiadau print, gyda hi’n rhoi llun o’r cyhoeddiad ar ei gwefan. Fel uchod, nid yw hi’n bosib chwilio’r geiriau. Ni fydd y testun mewn llun o erthygl yn Y Dinesydd yn ymddangos mewn chwiliadau Google. Felly dyma roi’r llun o erthygl Bwytai Merch y Ddinas – Hoffi Coffi trwy Tesseract. Yr unig wahaniaeth y tro hwn yw peidio nodi fy mod eisiau ffeil PDF. Bydd yn creu ffeil destun gyda’r ysgrifen a adnabyddir. Erthygl Lowri Haf Cooke yn Y Dinesydd   Nid dyna, bob tro, oedd fy mhrofiad rai blynyddoedd yn ôl, wrth ymchwilio ì nghyfrol cyntaf, Canllaw Bach Caerdydd. Mae ‘na un caffi amlwg ger llyn y Rhath sy’n dal i ‘nghorddi pan lonciaf heibio iddo. Lleoliad gorau’r ddinas, ond gweledigaeth ddi-fflach, syn crynhoi diffyg uchelgais y ddinas (tan yn ddiweddar) i’r dim. Cofiaf sgwrsio â pherchennog tŷ te Gerddi Waterloo – oedd newydd agor ar y pryd — oedd yn dyheu am Dolen at y ffeil llawn. Un o’r problemau a welwn yma yw, er mor dda yw Tesseract am adnabod colofnau a darnau o destun wedi eu gosod yma ac acw, mae’n adnabod y testun yn union. Hynny yw, mae’n hollti pob llinell fel y mae heb allu deall mai’r un frawddeg sy’n llifo. Ond petai’r testun a echdynnir yn cael ei roi ochr yn ochr â’r llun gwreiddiol, bydd dal modd canfod y dudalen gyda chwiliadau Google…   Cam tri Gyda’r Eisteddfod Genedlaethol wythnos nesaf, un o’r digwyddiadau a drefnwyd gan Comisiynydd Cenedlaethau’r Dyfodol Cymru yw “A ddylai robotiaid siarad Cymraeg?” Be am drio? Gwasanaethau yn y cwmwl yw’r cyfle i bobl a busnesau cyffredin fanteisio ar isadeiledd cyfrifiadurol enfawr cwmnïoedd fel Salesforce, Google, Amazon, Microsoft etc. Maent oll yn ceisio datblygu technolegau deallusrwydd artiffisial, gydag un ohonynt yn wasanaeth trosi testun i sain. Enw’r gwasanaeth mae Amazon (AWS) yn ei gynnig yw Polly. Mae’n cefnogi sawl iaith gyda lleisiau dyn neu wraig, gan gynnwys y Gymraeg. Dyma fwydo rhan o’r testun a echdynnwyd o erthygl Y Dinesydd uchod, a chreu’r clip sain isod. Gwyneth AWS sy’n ei llefaru. Safon ddealladwy a digon derbyniol, ond mae’n amlwg na chyfrifiadur sydd wedi creu’r sain. http://www.newyddsbon.com/wp-content/uploads/2018/07/lhc_hoffi_coddi_polly.mp3   Mae’r uchod yn dangos sut gall y Gymraeg gael ei ddigido a’i ledaenu. Ysgrifen safonol a diddorol sy’n sownd mewn print, gyda’r gallu i ffeindio’i ffordd i’r we ac yn chwiliadwy i bawb. I’r rheiny sydd heb amser, cyfle i wrando ar gynnwys Cymraeg, neu adnoddau defnyddiol iawn i ddysgwyr. I gloi, dyma tair brawddeg cyntaf y llyfr Ymarfer Ysgrifennu gan Gwyn Thomas: Y mae cywirdeb iaith yn hollbwysig. Cwynir yn gyffredinol heddiw fod safon Cymraeg ysgrifenedig wedi dirywio’n enbyd. Ymddengys fod ein Cymraeg llyfr, yn ogystal â’n Cymraeg llafar, yn frith o idiomau Seisnig, diffyg treigladau, cystrawennau chwithig a chamgymeriadau sillafu.   http://www.newyddsbon.com/wp-content/uploads/2018/07/ymarfer_ysgrifennu.mp3   (Gallwch gael cipolwg ar sut mae Tesseract yn gweithio yn y papur adolygiadol hwn.)
Cafodd y cofnod ei gyhoeddi yn Uncategorized. Gosod Nod Tudalen i'r ddolen barhaol.