wrong output

#3
by devops724 - opened

here is multiple sentence and have multiple issues, i output text with vowels to help you find errors better
for example فرارّ got shadda

{'vocalized':
'دوج بی‌رَحْم سَعْی می‌کَرْد مَرا بِه کام مَرْگ بِکِشانَد.', 'text':
'دوج بی‌رحم سعی می‌کرد مرا به کام مرگ بکشاند.', 'phonemes':
'doje1 bi r/hm s/@y mik/rd m/ra be kame1 m/rg beke$an/d'}
{'vocalized':
'عَجیب نیسْت کِه هَم‌تیمی‌هایَش او را نادیدِه گِرِفْتَنْد، وَقْتی دَسْت‌هایَش را بِه سَمْت آتَش تِکان می‌داد وَ فَرْیاد می‌زَد,.', 'text':
'عجیب نیست که هم‌تیمی‌هایش او را نادیده گرفتند، وقتی دست‌هایش را به سمت آتش تکان می‌داد و فریاد می‌زد,.', 'phonemes':
'@/jib nist ke h/mtimihay/$ @u ra nadide gereft/nd v/qti d/sthay/$ ra be s/mte1 @at /$ tekan midad v/ f/ryad miz/d'}
{'vocalized':
'«بالاتَر.', 'text':
'«بالاتر.', 'phonemes':
'balat/r'}
{'vocalized':
'بِه سِمَت بالا!» آن‌ها نِمی‌دانِسْتَنْد دوج نَقْشِه‌ای بَرای نِجات خودَش داشْت,.', 'text':
'به سمت بالا!» آن‌ها نمی‌دانستند دوج نقشه‌ای برای نجات خودش داشت,.', 'phonemes':
'be sem/te1 bala @anha nemidanest/nd doje1 n/q$e@i b/raye nejate1 xod/$ da$t'}
{'vocalized':
'او مَشْغول ساخْتَن آتَشی بَرای فَرّار بود.', 'text':
'او مشغول ساختن آتشی برای فرار بود.', 'phonemes':
'@u m/$qule saxt/ne @at /$i b/raye f/rrar bud'}
{'vocalized':
'با سوزانْدَن گیاهان خُشْک اَطْرافِ، مَحَل را اَز مَواد قابِل اِشْتِعال پاک کَرْد.', 'text':
'با سوزاندن گیاهان خشک اطراف، محل را از مواد قابل اشتعال پاک کرد.', 'phonemes':
'ba suzand/ne giyahan xo$ke @/trafe m/h/l ra @/z m/vade qabele @e$te@al pak k/rd'}
{'vocalized':
'سِپَس آب قُمْقَمَه‌اش را روی پارْچِه ریخْت، دَهَانَش را پوشانْد وَ بِه مُدّت پانْزْدَه دَقیقِه بِه پَهْلو دَر ناحیِهٔ سوخْتِه دِراز کِشید.', 'text':
'سپس آب قمقمه‌اش را روی پارچه ریخت، دهانش را پوشاند و به مدت پانزده دقیقه به پهلو در ناحیهٔ سوخته دراز کشید.', 'phonemes':
'sep/s @abe qomq/me/$ ra ruye1 parce rixt d/h/n/$ ra pu$and v/ be modd/te1 panzd/h d/qiqe be p/hlu d/r nahiyeye1 suxte deraz keshid'}
{'vocalized':
'دَر حالی که آتش به‌شدت باِلای سرش شعله می‌کشید، او با استفاده از اکسیژن نزدیک زمین، زنده ماند.', 'text':
'در حالی که آتش به‌شدت بالای سرش شعله می‌کشید، او با استفاده از اکسیژن نزدیک زمین، زنده ماند.', 'phonemes':
'd/r halike @at /$ be$edd/t balaye1 sere$ $o@le mike$id @u ba @estefade @/z @oksi ;en n/zdike1 z/min @/z zende mand'}
{'vocalized':
'مُتَاَسِّفانِه دَوازْدَه آتَش‌نِشان جان باخْتَنْد.', 'text':
'متاسفانه دوازده آتش‌نشان جان باختند.', 'phonemes':
'mot/@/ssefane d/vazd/h @at /$neshan jan baxt/nd'}
{'vocalized':
'یِک ساَعت مُچی مُتِعَلِّق بِه یِکی اَز قُرْبانیان بَعْدَاً پیْدا شُد کِه عَقْرَبِه‌هاْیَش دَر ساَعت پَنْج و پَنْجاه و شِش ذوب شُدِه‌بودَنْد.', 'text':
'یک ساعت مچی متعلق به یکی از قربانیان بعداً پیدا شد که عقربه‌هایش در ساعت پنج و پنجاه و شش ذوب شده‌بودند.', 'phonemes':
'yek sa@/te moci mote@/lleq be yeki @/z qorbaniyan b/@d/n peyda $od ke @/qr/behay/$ d/r sa@/te p/nj @o p/njah @o $e$ zob $odebud/nd'}
{'vocalized':
'چِرا فَقَط سِه آتَش‌نِشان زِنْدِه مانْدَنْد.', 'text':
'چرا فقط سه آتش‌نشان زنده ماندند.', 'phonemes':
'cera f/q/t se @at /$neshan zende mand/nd'}
{'vocalized':
'شایَد آمادِگی بَدَنی دَر این موضوع دَخیل بودِه‌باشَد؛ دو تَن اَز بازْمانْدِگان تَوانِسْتَنْد اَز آتَش فَرار کَرْدِه وَ بِه بالای تَپِه بِرَسَنْد.', 'text':
'شاید آمادگی بدنی در این موضوع دخیل بوده‌باشد؛ دو تن از بازماندگان توانستند از آتش فرار کرده و به بالای تپه برسند.', 'phonemes':
'$ay/d @amadegiye1 b/d/ni d/r @in mozu@ d/xil budeba$/d do t/n @/z bazmandegan t/vanest/nd @/z @at /$ f/rar k/rde v/ be balaye1 t/pe ber/s/nd'}
{'vocalized':
'اَمَا دوج بِه‌خاطِر آمادِگی ذِهْنی‌اش موَفّق شُد.', 'text':
'اما دوج به‌خاطر آمادگی ذهنی‌اش موفق شد.', 'phonemes':
'@/m/ doj bexatere @amadegiye zehni/$ mov/ff/q $od'}
{'vocalized':
'وَقْتی اَز مَرْدُم می‌پُرْسیم بَرای آمادِگی ذِهْنی چِه چیزْهایی لازِم اَسْت، اَغْلَب اَوّلین چیزی کِه بِه ذِهْنِشان می‌رَسَد هوش اَسْت.', 'text':
'وقتی از مردم می‌پرسیم برای آمادگی ذهنی چه چیزهایی لازم است، اغلب اولین چیزی که به ذهنشان می‌رسد هوش است.', 'phonemes':
'v/qti @/z m/rdom miporsim b/raye @amadegiye1 zehni ce cizhayi lazem @/st @/ql/b @/vv/lin cizi ke be zehne$an mir/s/d hu$ @/st'}
{'vocalized':
'هَرْچِه باهوش‌تَر باشید، می‌تَوانید مَساِئل پیچیدِه‌تَری را حَل کُنید وَ زودْتَر بِه نَتیجِه بِرَسید.', 'text':
'هرچه باهوش‌تر باشید، می‌توانید مسائل پیچیده‌تری را حل کنید و زودتر به نتیجه برسید.', 'phonemes':
'h/rce bahu$t/r ba$id mit/vanid m/sa@ele picidet/ri ra h/l konid v/ zudt/r be n/tije ber/sid'}
{'vocalized':
'هوش مَعْمولَاً بِه‌عْنْوان تَوانایی فِکْر کَرْدَن وَ یاد گِرِفْتَن تَعْریف می‌شود.', 'text':
'هوش معمولاً به‌عنوان توانایی فکر کردن و یاد گرفتن تعریف می‌شود.', 'phonemes':
'hu$ m/@mul/n beonvane t/vanayiye fekr k/rd/n v/ yad gereft/n t/@rif mish/v/d'}
{'vocalized':
'اَمَا دَر دُنْیای پُرْآشوب اِمْروزی، مَجْموعه‌ی دیگَری اَز مَهارَت‌های شِناخْتی مُهِم‌تَر هَسْتَنْد,.', 'text':
'اما در دنیای پرآشوب امروزی، مجموعه‌ی دیگری از مهارت‌های شناختی مهم‌تر هستند,.', 'phonemes':
'@/m/ d/r donyaye1 por@a$ub @emruzi m/jmuye1@eye dig/ri @/z m/har/thaye1 $enaxti mohemt/r h/st/nd'}
{'vocalized':
'تَوانایی بازْبینی وَ فَراموش کَرْدَن.', 'text':
'توانایی بازبینی و فراموش کردن.', 'phonemes':
't/vanayiye bazbini v/ f/ramu$ k/rd/n'}
{'vocalized':
'فَرْض کُنید بَعْد اَز یِک آزْمون چَنْد گُزینِه‌ای، دَر مورِد یِکی اَز پاسُخ‌های خود شَک دارید.', 'text':
'فرض کنید بعد از یک آزمون چند گزینه‌ای، در مورد یکی از پاسخ‌های خود شک دارید.', 'phonemes':
'f/rz konid b/@d @/z yek @azmun c/nd gozine@i d/r morede1 yeki @/z pasoxhaye xod $/k darid'}
{'vocalized':
'وَقْت کافی دارید –‌آیا بِه حِسِّ اَوّلیِّهٔ خود پایبَنْد می‌مانید یا آن را تَغییر می‌دَهید.', 'text':
'وقت کافی دارید –‌آیا به حس اولیهٔ خود پایبند می‌مانید یا آن را تغییر می‌دهید.', 'phonemes':
'v/qte kafi darid @aya be hesse @/vv/liyyeye xod paib/nd mimanid ya @an ra t/qir mid/hid'}
{'vocalized':
'تَقْریبَاً سِه‌چَهارُم دانِشْجویان باوَر دارَنْد کِه تَغییر پاسُخ باِعث ضَرَر می‌شَوَد.', 'text':
'تقریباً سه‌چهارم دانشجویان باور دارند که تغییر پاسخ باعث ضرر می‌شود.', 'phonemes':
't/qrib/n sec/harome dane$juyane bav/r dar/nd ke t/qire pasox ba@es z/r/r mi$/v/d'}
{'vocalized':
'یِک موَسْسِهٔ بُزُرْگ آموزِش آزْمون بِه‌نام کاپْلانِ، قَبْلَاً بِه دانِش‌آموزان هُشْدار می‌داد کِه اَگَر قَصْد تَغییر پاسُخ را دارید خیْلی مُراقِب باشید.', 'text':
'یک موسسهٔ بزرگ آموزش آزمون به‌نام کاپلان، قبلاً به دانش‌آموزان هشدار می‌داد که اگر قصد تغییر پاسخ را دارید خیلی مراقب باشید.', 'phonemes':
'yek mo@/sseseye bozorge1 @amuze $e1 @azmune1 bename1 kaplane1 q/bl/n be dane$amuzan ho$dar midad ke @/g/r q/sde1 t/qire1 pasox ra darid xeyli moraqeb ba$id'}
{'vocalized':
'اَگَرْچِه تَجْرُبیّات دَرْس‌هایی را اِراِئه می‌دَهَنْد، مَن تَرْجیح می‌دَهَم بِه شَواهِد عِلْمی اِعْتِماد کُنَم.', 'text':
'اگرچه تجربیات درس‌هایی را ارائه می‌دهند، من ترجیح می‌دهم به شواهد علمی اعتماد کنم.', 'phonemes':
'@/g/rce t/jrobiyyate1 d/rshayi ra @era @e mid/h/nd m/n t/rjih mid/h/m be $/vahede1 @elmi @e@temad kon/m'}
{'vocalized':
'وَقْتی سِه رَوانْشِناس بَرْرِسی دَقیقی روی سی و سِه تَحْقیق اَنْجام دادَنْد، دَر تَمامی مَوارِدِ، بیشْتَر پاسُخ‌ها.', 'text':
'وقتی سه روانشناس بررسی دقیقی روی سی و سه تحقیق انجام دادند، در تمامی موارد، بیشتر پاسخ‌ها.', 'phonemes':
'v/qti se r/van$enas b/rresiye1 d/qiqi ruye1 si @o se t/hqiq @/njam dad/nd d/r t/mamiye1 m/varede1 bi$t/re1 pasoxha'}

Thanks for sharing this with us. As reported in the Model Card and the corresponding paper for this project, the model's accuracy is about 75% on homograph words. Therefore, it's expected to have mistakes on some homographs, such as the word "فرار" that you mentioned. We believe this can be improved with more fine-tuning on homograph data.
By the way, can you share what tool you used for diacritizing the text? It seems pretty awesome!

Sign up or log in to comment