JD Blog

A thousand-li journey is started by taking the first step.

tesserocr

tesserocr是Python的一个OCR识别库,其实就是对tesseract做了一层Python API的封装。本质还是使用tesseract。 因此,要想使用tesserocr,就需要先安装tesseract。 tesseract的下载地址为https://digi.bib.uni-mannheim.de/tesseract/ 本次下载的是tesseract-ocr-w64-se...

Googletrans

谷歌翻译库API,官网在此 安装googletrans pip install googletrans 引用googletrans from googletrans import Translator 设置service_url可以选择不同翻译服务的url。service_url是列表,那程序会随机选取一个来使用。 googletrans.Translator(service...

Python爬虫之新天龙八部

背景 新天龙八部已经是十二年的老游戏,但我对它的热情不减当年。不过,游戏内的人已经走了一批又一批,游戏账号在一批批人的打造中加强了许多。这里主要是爬取全部服务器排行前50的角色装备评分,并做一个简单的分析。 排行榜 它的排行榜页面也比较特别。可以看它源代码。 但是渲染后,可以看到 这说明,它是异步的,我们需要找到传输给前端的选项文件。 依旧是打开Chrome,进入排行榜页...

Python爬虫之腾讯漫画

简述 这是个爬虫的实战,爬取的是腾讯漫画。 爬取的内容有全部腾讯漫画的信息,主要以下三点 漫画基本信息,包括作者、人气、封面地址、收藏数、是否连载、漫画简述等 漫画章节名称 漫画章节的全部图片 我的Python版本是Python 3.7.3,主要使用的Python库为requests和BeautifulSoup。 漫画信息 打开腾讯漫画的目录,发现每页有12部漫画...

Python玩转爬虫(1)

Request Request是一个优雅而简单的Python的HTTP库。我们可以使用它来爬取大部分网站的数据。 先导入Requests模块 import requests 获取网页,以百度(https://www.baidu.com/)为例 url = 'https://www.baidu.com/' #r = requests.request('GET', url) r = ...

数据库之Microsoft SQL Server

数据库基本信息 Microsoft SQL Server是Microsoft公司推出的关系型数据库管理系统,可以与Windows NT完全集成,利用了NT的许多功能。并且具有良好的伸缩性,目前在用SQL Server 2008作为我们项目的数据库。 在项目的驱动下,需要用python脚本来操作数据库。包括了基本的增删改查,也包括调用存储过程等。方法有很多,鉴于MS有专门提供python接...

XAMPP & Oracle

Linux下安装XAMPP 环境及软件版本 服务器系统(cat /etc/issue) Red Hat Enterprise Linux Server release 6.5 (Santiago) XAMPP软件 xampp-linux-x64-7.2.10-0-installer.run Oracle服务端 Oracle Database 11g Enterprise E...

Matplotlib & Visualization

Python的matplotlib可以满足我们大部分可视化需求。年纪越来越大,记忆力不如以前了,记录下常用的一些操作。 Simple plot Using defaults 全部采取默认,不设置其他参数。 import numpy as np import matplotlib.pyplot as plt X=np.arange(-np.pi,np.pi,0.01) C,S=np....

Alert

脚本出现Error需要第一时间发出警告。记录下我所使用的方法。 Email 邮件方式方便简单,可以使用python中的smtplib和email。 smtplib主要是负责发送邮件,常使用connect、login和sendemail,分别是连接邮件服务器、登录账号和发送邮件。 email主要是负责构建邮件,常使用email.header和email.mime.text.MINETe...

Kernel Function

最近面试碰到了以前未关注过的知识点,恶补下。 核函数(Kernel Function)是我在使用SVM的时候get到的新知识,当然它还可以应用在很多其他的机器学习算法。 这里主要是介绍sklearn.svm中常用的核函数。 Linear kernel \[k(x,y)=x^Ty\] 线性核函数是最简单的核函数,主要用于线性可分,它在原始空间中寻找最优线性分类器,具有参数少速度快...