Regex om anchors naar markdown te converteren
Geplaatst: 18 apr 2020, 22:59
Hoi,
Ik heb m'n bestaande blog omgezet naar static site via Jekyll, en ben nu bezig met de content wat op te schonen. Ook alle html eruit te halen en te converteren naar markdown.
Ik zit nu te vechten met een sed-regex om overal de anchors te converteren naar markdown... en ik krijg het maar niet goed.
Practisch voorbeeld:
Wat ik zou willen is dat die alles dropt wat niet in de href staat, en ook meerdere op een lijn meepakt. Voor een of andere bizarre reden krijg ik enkel de laatste gematched, en dan nog foutief.
Had al wat zitten zoeken oa ook via Regex101 - en volgens mij klopt het wel, maar toch doet sed er iets raars mee.
Anyone a clue?
Ik heb m'n bestaande blog omgezet naar static site via Jekyll, en ben nu bezig met de content wat op te schonen. Ook alle html eruit te halen en te converteren naar markdown.
Ik zit nu te vechten met een sed-regex om overal de anchors te converteren naar markdown... en ik krijg het maar niet goed.
Practisch voorbeeld:
Code: Selecteer alles
$ cat /tmp/test
on <a href="https://www.reddit.com/" target="_blank" rel="noopener">reddit</a> or <a href="https://lifehacker.com/" target="_blank" rel="noopener">Lifehacker</a>
Code: Selecteer alles
$ sed -r 's/<a.*?href="(.*?)".*?>(.*?)<\/a>/[\2](\1)/g' /tmp/test
on [Lifehacker](https://lifehacker.com/" target="_blank" rel="noopener)
Had al wat zitten zoeken oa ook via Regex101 - en volgens mij klopt het wel, maar toch doet sed er iets raars mee.
Anyone a clue?