Python 新轮子 Tomd: HTML 转 Markdown 工具库.

2017-05-26 19:36:22 +08:00
 prasanta

Markdown 转 HTML 的轮子很多, HTML 转 Markdown 的工具却不多.

用途: 爬虫爬文章保存到本地为 Markdown 格式

Github 地址: https://github.com/gaojiuli/tomd

tomd

Convert HTML to Markdown.

安装

pip install tomd

开始

输入

from tomd import Tomd

Tomd("<h1>h1</h1>").markdown

输出

# h1

用法

from tomd import Tomd


html="""
<h1>h1</h1>
<h2>h2</h2>
<h3>h3</h3>
<h4>h4</h4>
<h5>h5</h5>
<h6>h6</h6>
<p>paragraph
<a href="https://github.com">link</a>
<img src="https://github.com" class="dsad">img</img>
</p>
<ul>
<li>1</li>
<li>2</li>
<li>3</li>
</ul>
<ol>
<li>1</li>
<li>2</li>
<li>3</li>
</ol>
<blockquote>blockquote</blockquote>
<p><code>inline code</code></p>
<pre><code>block code</code></pre>
<p>
<b>bold</b>
<i>italic</i>
<b><i>bold italic</i></b>

</p>
"""


Tomd(html).markdown

结果

# h1

## h2

### h3

#### h4

##### h5

###### h6

paragraph
[link]( https://github.com)
![img]( https://github.com)


- 1
- 2
- 3

1. 1
1. 2
1. 3

> blockquote

`inline code`

**bold**
*italic*
***bold italic***

接收各种 issue 与 pull request, 代码量少容易理解, 大家可以一起参与进来

Github 地址: https://github.com/gaojiuli/tomd

4116 次点击
所在节点    Python
8 条回复
mingyun
2017-05-26 23:09:14 +08:00
star + 1
lch277
2017-05-26 23:57:37 +08:00
已 star,建议提供一个命令行工具,使用起来更方便
lanpong
2017-05-27 00:16:41 +08:00
标记,已 star
4linuxfun
2017-05-27 08:46:37 +08:00
标记,已 star
prasanta
2017-05-27 09:01:22 +08:00
@lch277 好主意
oska874
2017-05-27 10:00:44 +08:00
https://github.com/LCTT/LCTT-Helper/
推荐这个 html 转 md 的工具,我们一直在用
prasanta
2017-05-27 10:03:04 +08:00
@oska874 我做这个主要是用于我自己的爬虫
lerry
2017-05-27 18:27:34 +08:00
我的爬虫也正需要一个这样的库,最后还是找了个 js 的,用 pyexecjs 调用 js 的函数去做的,哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/364078

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX