Haskell Language
टैगिंग-लेंस और लेंस के साथ HTML को पार्स करना
खोज…
एक विशेष आईडी के साथ एक div से पाठ सामग्री निकालें
Taggy- लेंस हमें HTML दस्तावेज़ों को पार्स और निरीक्षण करने के लिए लेंस का उपयोग करने की अनुमति देता है।
#!/usr/bin/env stack
-- stack --resolver lts-7.0 --install-ghc runghc --package text --package lens --package taggy-lens
{-# LANGUAGE OverloadedStrings #-}
import qualified Data.Text.Lazy as TL
import qualified Data.Text.IO as T
import Text.Taggy.Lens
import Control.Lens
someHtml :: TL.Text
someHtml =
"\
\<!doctype html><html><body>\
\<div>first div</div>\
\<div id=\"thediv\">second div</div>\
\<div id=\"not-thediv\">third div</div>"
main :: IO ()
main = do
T.putStrLn
(someHtml ^. html . allAttributed (ix "id" . only "thediv") . contents)
पेड़ से तत्वों को छानना
id="article"
साथ div खोजें और सभी आंतरिक स्क्रिप्ट टैग्स को हटा दें।
#!/usr/bin/env stack
-- stack --resolver lts-7.1 --install-ghc runghc --package text --package lens --package taggy-lens --package string-class --package classy-prelude
{-# LANGUAGE NoImplicitPrelude #-}
{-# LANGUAGE OverloadedStrings #-}
import ClassyPrelude
import Control.Lens hiding (children, element)
import Data.String.Class (toText, fromText, toString)
import Data.Text (Text)
import Text.Taggy.Lens
import qualified Text.Taggy.Lens as Taggy
import qualified Text.Taggy.Renderer as Renderer
somehtmlSmall :: Text
somehtmlSmall =
"<!doctype html><html><body>\
\<div id=\"article\"><div>first</div><div>second</div><script>this should be removed</script><div>third</div></div>\
\</body></html>"
renderWithoutScriptTag :: Text
renderWithoutScriptTag =
let mArticle :: Maybe Taggy.Element
mArticle =
(fromText somehtmlSmall) ^? html .
allAttributed (ix "id" . only "article")
mArticleFiltered =
fmap
(transform
(children %~
filter (\n -> n ^? element . name /= Just "script")))
mArticle
in maybe "" (toText . Renderer.render) mArticleFiltered
main :: IO ()
main = print renderWithoutScriptTag
-- outputs:
-- "<div id=\"article\"><div>first</div><div>second</div><div>third</div></div>"
@ Duplode's SO उत्तर के आधार पर योगदान
Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow