Skip to main content

रि-क्याप्चाको रोचक पक्ष [Use reCAPTCHA - Help Digitize Books]

क्याप्चा

“क्याप्चा”को बारेमा प्राय सबैले सुनेको हुनुपर्छ, धेरैपटक क्याप्चा “टाइप” पनि गर्नु भएकोहोला ! प्राय प्रयोगकर्तालाई क्याप्चा “टाइप” गर्न गाह्रो र झन्झटिलो लाग्छ । प्रयोगकर्तालाई झन्झटिलो लागेपनि सम्भावित ‘स्पाम’ प्रतिक्रिया, अपडेट आदिबाट बच्नको लागि साइट/ब्लगमा “क्याप्चा” प्रयोग गर्ने गरिन्छ । विकीपेडियाका अनुसार क्याप्चाले प्रयोगकर्ता मानव हो कि कम्प्युटर हो भनेर बताउँछ (A CAPTCHA is a program that can tell whether its user is a human or a computer) । क्याप्चामा लेखिएको अक्षर कम्प्युटर/रोबटले बुझ्न सक्दैन, क्याप्चामा लेखिएको अक्षर मानिसले मात्र पढ्नसक्छ !

RecaptchaLogo

रिक्याप्चा

“रिक्याप्चा” पनि क्याप्चा नै हो । क्याप्चाले जस्तै “रिक्याप्चा”ले पनि स्पामरहरुबाट साइटलाई जोगाउन सहयोग गर्छ । यसका अतिरिक्त “रिक्याप्चा”को माध्यमबाट इन्टरनेटमा साधारण तर ठूलो काम भइरहेको छ । सायद धेरैलाई थाहा नहुनसक्छ, रिक्याप्चाको माध्यमबाट हामीहरु विश्वका पुराना पत्रिका तथा कितावहरुलाई “डिजिटाइज” (डिजिटल बनाउनु) गरिरहेकाछौँ ।

रिक्याप्चाले साइटलाई “स्पाम”बाट जोगाउनुको साथै बर्षौँ पुराना किताब र पत्रिकाहरुलाई इन्टरनेटमा “डिजिटाइज” गर्न सहयोग गरिरहेकोछ । सन् २००९ मा गुगलले किनेको “रिक्याप्चा” सर्भिसले हाललाई विश्वको चर्चित अखबर न्युयोर्क टाइम्सका पुराना अंकहरु र गुगल बुक्सका किताबहरुलाई “डिजिटाइज” गरिरहेकोछ । रिक्याप्चाको रोचक पक्ष यो छ कि, विश्वभरी रहेका हामी प्रयोगकर्ताहरुले नजानिकनै वा भनौँ अन्जानमै न्युयोर्क टाइम्सको वर्षौँ पुराना अंकहरुलाई र गुगलबुक्सका कितावहरुलाई डिजिटाइज गरिरहेका छौँ ।

क्याप्चामा प्राय: एउटा शब्द राखिएको हुन्छ, कुनै साइटले आफ्नै क्याप्चा बनाउँछन् त कसैले अरुको क्याप्चा सर्भिस प्रयोग गर्छन् र यो पूर्णत साइटलाई “स्पामर”हरुबाट जोगाउनको लागि राखिन्छ ! तर रिक्याप्चामा भने दुईवटा शब्द हुन्छ, जसमा एउटा शब्द पुराना पुस्तकहरु र पत्रिकाहरुलाई ‘स्क्यान” गरेर लिइएको हुन्छ, जसको प्रमुख उद्देश्य हुन्छ साइटलाई स्पामरहरुबाट जोगाउनु अनि वर्षौँ पुराना किताबहरुलाई डिजिटाइज गरेर अनलाइनमा राख्नु । र एउटा शब्द चाँही क्याप्चाले आफ्नै “डाटावेस”बाट राख्नेगर्छ ।

reCAPTCHA helps digitize books

स्क्यान गरेका किताब र पत्रिकाहरुलाई “अप्टिकल क्यारेटक्टर रिकग्निसन” (Optical Character Recognition – OCR) प्रविधिमार्फत शब्दमा परिणत गरिन्छन् ! तर सबै शब्दहरु OCR प्रविधीबाट पढ्न सकिँदैनन् अनि कम्प्युटरले पढ्न नसक्ने शब्दहरु या भनौँ त्यो शब्द जसलाई OCR प्रविधीमार्फत पढ्न सकिँदैन, ती शब्दहरुलाई तस्विरको रुपमा क्याप्चामा राखिन्छ । ओसीआर (OCR) प्रविधीमार्फत पढ्न नसकिएका शब्दहरु कम्प्युटरले स्वत थाहा पाउने भएका कारण, ती पढ्न गाह्रो भएका शब्दहरु स्वत “रिक्याप्चा”मा राखिन्छन् । सायद याद गर्नुभएको होला, फेसबुक, ट्विटर, वर्डप्रेस वा अन्य साइट जहाँ “रिक्याप्चा”को प्रयोग भएकोछ त्यहाँ देखिने शब्दहरु प्रस्ट हुँदैनन्,  कहिलेकाँही रिक्याप्चा भर्नको लागि तपाईले सोचेरै टाइप गर्नुपर्ने अवस्था पनि आउँछ।

रिक्याप्चामा किताब तथा पत्रिकाबाट राखिएको शब्दहरु, प्रयोगकर्ताले ठिकसँग भरेका छन् कि छैनन् भन्ने काम चाँही रिक्याप्चामा भएको अर्को शब्दबाट छड्के चेकजाँच गर्ने गरिन्छ । मैले माथि नै भनिसकेँ रिक्याप्चामा दुईवटा शब्द हुन्छ, एउटा शब्द आफ्नै “डाटावेस”बाट राखिएको हुन्छ भने अर्को शब्द OCR प्रविधीमार्फत पढ्न नसकिएका शब्दहरु राखिएको हुन्छ । स्क्यान गरेर शब्दहरु राखिने कारण कहिलेकाँही रिक्याप्चामा चाइनिज/जापानिज शब्दहरु देखिन्छन् र हामी “रिक्याप्चा फेल” भनेर खुब हल्लाखल्ला गर्ने गर्छौँ ।

reCAPTCHAप्रयोगकर्ताहरुले रिक्याप्चामा भएका दुईवटै शब्द भर्नुपर्ने हुन्छ । कहिलेकाँही एउटा शब्दमात्रै ठिक लेखेपनि काम बन्ने गरेको देख्नुभएको होला, यसको मुलकारण भनेको रिक्याप्चालाई पहिले नै थाहा भएको शब्द हामीले सहीसँग टाइप गरेका हुन्छौँ, तर OCR बाट निकालिएको शब्दमा रहेको “अक्षर”बारे रिक्याप्चालाई ज्ञान हुँदैन । प्रयोगकर्ताले टाइप गरेको र रिक्याप्चालाई पहिले नै थाहा भएको शब्द मिलेपछि, रिक्याप्चाले अटोमेटिक रुपमा दोश्रो शब्द पनि सही रुपमा टाइप भएको होला भन्ने अनुमान गर्छ । तर धेरै प्रयोकर्ताहरुबाट आएको जवाफलाई मात्र रिक्याप्चाले सही मान्ने गर्छ, यसको अर्थ हुन्छ एउटै शब्दलाई धेरै प्रयोगकर्ताहरुले टाइप गर्ने गर्छन्, यदि सबै प्रयोगकर्ताहरुले रिक्याप्चाले दिएको शब्दमा अर्को शब्द पनि एउटै टाइप गरेका रहेछन् भने रिक्याप्चाले “शब्द” सही रहेछ भनेर निर्क्यौल गर्छ ।

(Here's how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct. ~ Via Google Recaptha)

रिक्याप्चाले कसरी किताब र पत्रिकाहरुलाई डिजिटाइज गर्न सहयोग गरिरहेको छ, रिक्याप्चाले कसरी यो शब्द सही हो भनेर थाहा पाउँछ, भनेर मैल माथि लेखेका कुराहरु सायद बुझ्न अप्ठ्यारो लागिरहेको होला । तल हामीले टेडको एउटा भिडियो राखेका छौँ, यसबारे अधिक जानकारी राख्न चाहनुहुन्छ भने भिडियो हेर्नुहोस् !

Luis von Ahn: Massive-scale online collaboration










Further Reading:

reCAPTCHA: Stop Spam, Read Books

reCaptcha – Wikipedia

Anti-Spam Turing Test Is Really Global Human-Powered OCR System

Spam weapon helps preserve books

Comments

  1. interesting...तर हाम्रो श्रम शोषन पो भै रा रहेछ डिजीटाइज गर्न   

    ReplyDelete
  2. Wow!!! This is an amazingly new piece of information for me. However, wikipedia definitions should be improved as "A CAPTCHA is a program that TRIES TO tell whether its user is a human or a computer". Its good to know that reCaptcha is helping digitize the books. Thanks for this awesome piece of information. Loved it.

    ReplyDelete
  3. nice.. didn't know about it.. thanks for sharing.. :) 

    ReplyDelete
  4. Really amazing story of recaptca n the Duolingo. Thanx for sharing it Aakar. n one question, is Nepali wikipedia also being built with the same technique?

    ReplyDelete
  5. रमाइलो पो रहेछ 'रि-क्याप्चा' पछाडिका कथा !

    ReplyDelete

Post a Comment

Popular posts from this blog

Romanized Nepali Unicode

Download and Install Nepali Unicode Romanised to write in Nepali all over the web. First of all, you have to Download and Run the Program on your computer. Then, you have to do some settings on your computer to use Nepali Unicode Romanized. You can download Nepali Unicode Romanized from the Madan Puraskar Pustakalaya website for free. Install Nepali Unicode Romanized in Windows XP: Install: Run setup file; Go to control Panel; Open Language and Regional settings; Open Regional Language Options; Go to Language Options & tick on check box (install files..... Thai, instal....east Asian...languages): Click apply-it might ask for windows CD: Insert CD or you can directly copy "i386" files too; And install all: then you have done; Click for details; Then click add a tab; A new popup will appear: Select "Sanskrit" in the first box; Select "Nepali unicode (romanized)" in second box; Click "ok"; You have successfully installed it; P...

Radha : Shruti Sambeg [Review and Download]

Radha by Krishna Dharabasi is wonderful novel based on traditional era of Lord Krishna and Radha. The traditional plot of the story makes the readers/listeners feel that Dharabasi is narrating us the same old story of love of Radha and Krishna. However , the story based on the traditional plot it portrays the modern era in a dramatic way such that it speaks of so many hidden things that we will be amazed while ending it up. Radha and Krishna are the eternal lovers. Lord Krishna and Radha are together since childhood. But in teenage they are separated (as in the traditional story) and Lord Krishna has to go away leaving Vindraban for fulfilling the task for which he has taken birth.This brings tragedy to Radha and all the people in Vindraban. Radha waits for Krishna to arrive but he seldom does. She is stubborn to go meet Krishna. Later she sets out as a Yogini in a long voyage to search self, leaving her parents. She is accompanied by her friend Bisakha everywhere she went. Radha faces...

Shirish Ko Phool : Review & Download

One of the finest book ever written in Nepali literature....Shirish Ko Phool and one of my personal favorite. I have read this novel over four times or say five times..and each time I finish the novel I feel pang and it hangs on my head for so many days. Why guilt is so painful that made such a strong woman called Sakambari to suicide..or die…?? The novel has a wonderful language..the simplest of all. When I had read it for the first time..to tell the truth that I hadn’t really understood the novel, I felt the love story in it and I could not understand the passion in the novel.. But this day I may say I am able to figure out the passion and the feelings of the author.. I really appreciate the wonderful story, the plot the real setting, the real characters…and the situation of the novel till it ends. The pain of running away from the feelings and passion. When the Suyogbir says.."Ma glass ma bhagchu” ( I forgot the line exactly…). The feeling is that we run away from pai...

फेसबुक न्युजफिड अपडेट - पेजलाई झनै गाह्रो

अमेरिकामा भएको पछिल्लो राष्ट्रपति निर्वाचनको परिणाम सार्वजनिक भएसँगै फेसबुक लगायत विभिन्न सोसल मिडिया साइटहरुको उपयोगिताबारे व्यापक बहस सुरु भएको थियो । "फेक न्युज"को बिगबिगीले गर्दा फेसबुक, एकहिसाबमा फेकबुकमा परिणत भयो । प्राय: फेक न्युजहरु नै धेरै सेयर हुने र भाइरल हुन थाले । धेरै सेयर हुँदा, स्वाभावत: "फेक न्युज" पनि साँच्चै हो भन्न थालियो । कहिँकति अनुसन्धान छैन, फलानोले एकथरि पेजबाट समाचार सेयर गर्छ, अर्कोले सेयर गर्छ, अर्कोले गर्छ, असत्य तथा काल्पनिक समाचारहरु कै बोलबाला देखियो । नेपालमा भएको पछिल्लो निर्वाचनमा पनि प्रचारवाजी शैलीका मनगढन्ते तथा काल्पनिक समाचारहरु भाइरल भए । फलाना र चिलाना पार्टि, मान्छे पिच्छेका अनलाइन समाचार पोर्टल, फेसबुकको न्युजफिड हेर्न नै दिक्क लाग्ने किसिमको थियो । सबैभन्दा अनौठो लाग्ने चाँहि, मान्छेहरु फेसबुकमा फलाना समाचार पोर्टलले लेखेको भन्दै सेयर गरिरहेका भेटिन्थे । अझ के भने, नेपालका ठूला प्रकाशनहरु सँग ठ्याक्कै मिल्ने नामहरु राखेर काल्पनिक समाचारको व्यापार गर्ने समूहहरु नै छन् । उदाहरणको लागि, कान्तिपुरले यस्तो उस्तो लेख्यो ...

कुन च्याट एप्स चलाउने?

फेसबुकको मेसेन्जरमा स्टोरीज आएपछि वाक्क, दिक्क नै भइयो । त्यसको विकल्प खोज्ने क्रममा पहिले त फेसबुक र मेसेन्जर एप दुवै मोबाइलबाट हटाएर ब्राउजरमा चलाउन थालेँ । त्यसको केही दिनपछि फेसबुक लाइट र मेसेन्जर लाइट चलाउन पुगेँ । फेसबुक लाइटको 'एप एक्सपिरियन्स' खासै गतिलो लागेन र फेरि केही हप्ता पछि फेसबुक एपमा सरेँ तर फेसबुक मेसेन्जर चाँहि मेसेन्जर लाइट नै मनपर्‍यो । गज्जब, च्याट गर्न मात्र मिल्ने । त्यसो त मोबाइलमा करिब आधा दर्जन च्याट एप्स छन्, सबै एप सँधै चलाइँदैन । अर्को कुरा, च्याटको लागि प्रयोग नगरिने एप्‌मा पनि च्याट गर्ने फिचर छ या भनौँ "प्राइभेट मेसेज" गर्ने सुबिधा छ । उदाहरणको लागि इन्स्टाग्राम फोटो सेयर गर्ने एप हो, तर यहाँ साथीहरुलाई सिधै मेसेज पनि गर्न मिल्छ, दोहोरो च्याट गर्न मिल्छ । हिजोआज म पनि प्राय: ट्विटरको 'डाइरेक्ट मेसेज' धेरै प्रयोग गरिरहेको हुन्छु, साथीहरुसँग कुरा गर्न । एक समय यस्तो थियो, म गुगल टक या भनौँ जिमेल च्याट मात्रै प्रयोग गर्थेँ । कसैले केही म्यासेज मलाई पठाउनु छ भने, कि त ईमेल गर्थे वा गुगल टकमा कुरा गर्थे, हैन भने फोन र एसएम...

पाँच करोड फेसबुक प्रयोगकर्ताको तथ्यांक दुरुपयोग

५ करोड फेसबुक प्रयोगकर्ताको तथ्यांक चोरी भएको खबर केही दिन पहिले गार्डियन तथा न्युयोर्क टाइम्स ले प्रकाशित गरेको थियो । प्रयोगकर्ताको जानकारी विना फेसबुकबाट लिइएको उक्त तथ्यांकलाई क्याम्ब्रिज एनालिटिका भन्ने कम्पनीले अनधिकृत रुपमा प्रयोग गरेको दावी गर्दै, क्याम्ब्रिज एनालिटिका’का भूतपूर्व इन्जिनियर क्रिस्टोफर वाइलीले गार्डियनलाई अन्तरवार्ता दिएर यी कुराहरु मिडियामा सार्वजनिक गरेका थिए । क्रिस्टोफरका अनुसार क्याम्ब्रिज एनालिटिकाले २०१४ मा एउटा एप मार्फत करिब ५ करोड फेसबुक प्रयोगकर्ताहरुको तथ्यांक चोरी गरेको थियो । क्याम्ब्रिज एनालिटिका र फेसबुककै विषयमा गार्डियनले पहिले नै २०१५ मा समाचार प्रकाशित गरेको थियो । उक्त समाचार पछि फेसबुकले क्याम्ब्रिज एनालिटिकालाई तथ्यांक मेटाउन भनेको र एनालिटिकाले तथ्यांक मेटाएको जानकारी फेसबुकलाई गराएको थियो । तर दुबै कम्पनीले यो कुरालाई गुपचुप राखेका थिए, अझ उल्टै फेसबुकले जथाभावी समाचार लेखेको भन्दै गार्डियनलाई मुद्दा हाल्ने धम्कि दिएको थियो भने क्याम्ब्रिज एनालिटिकाले तथ्यांक सुरक्षित नै राखेको थियो । त्यही चोरी गरिएको प्रयोगकर्ताहरुको तथ्यांकलाई ...

Subscribe to Aakar Post