Regular Expressions
UTF-8 माचिस: पत्र, निशान, विराम चिह्न आदि।
खोज…
विभिन्न वर्णमाला में अक्षरों का मिलान
नीचे दिए गए उदाहरण रूबी में दिए गए हैं, लेकिन समान मिलान किसी भी आधुनिक भाषा में उपलब्ध होने चाहिए।
मान लीजिए कि हमारे पास "AℵNaïve"
आर्टिफिशियल इंटेलिजेंस द्वारा निर्मित "AℵNaïve"
स्ट्रिंग है। इसमें अक्षर शामिल हैं, लेकिन जेनेरिक \w
मिलान अधिक मेल नहीं खाएगा:
▶ "AℵNaïve"[/\w+/]
#⇒ "A"
संयोजन कोड के साथ यूनिकोड पत्र का मिलान करने का सही तरीका एक अंगूर समूह को निर्दिष्ट करने के लिए \X
का उपयोग करना है। हालांकि रूबी के लिए एक चेतावनी है। रूबी के लिए रेगीक्स इंजन ओनिग्मो, अभी भी एक अंगूर क्लस्टर की पुरानी परिभाषा का उपयोग करता है । यह अभी तक विस्तारित ग्रेपम क्लस्टर में अपडेट नहीं किया गया है जैसा कि यूनिकोड स्टैंडर्ड एनेक्स 29 में परिभाषित किया गया है।
इसलिए, रूबी के लिए हमारे पास एक वर्कअराउंड हो सकता है: \p{L}
लगभग ठीक कर देगा, इसे बचाने के लिए i
पर संयुक्त विशिष्ट उच्चारण पर विफल रहता है:
▶ "AℵNaïve"[/\p{L}+/]
#⇒ "AℵNai"
अभिव्यक्ति में "मार्क प्रतीकों" को जोड़कर, हम अंत में सब कुछ मेल कर सकते हैं:
▶ "AℵNaïve"[/[\p{L}\p{M}]+/]
#⇒ "AℵNaïve"