WayneShao 的博客

记录精彩的程序人生

查看当前 IP 和归属地的方法

可以通过 http 协议进行 get 请求来获得当前 IP 及归属地信息。ip138Xpath 获取文字信息//centerwhatismyipXpath 获取信息:IP 地址//body/span[1]来源地区//body/span[2]优劣二者网页大小差不多,均为 300+KB。ip138 为国内服务商,对国内 IP 地址可以精确到市级,并且会包含运营商信息,不过信息包含在一个标签中,需要获取之后自行截取。whatism

关于. Net 调用广州医保 HG_Interface.dll 调用的一些总结(外部组件异常)

开始做的时候也遇到了奇葩的情况、创智提供的 dll 只能在有 UI 的 Winform、WPF 上使用,WebForm、WPF、WebService 完全没办法使用,Console 在加上了[STAThread]的线程 Attribute 之后也可以成功调用,推测和 dll 使用 MFC 编写有关、但是各种引入 MFC 的 dll 均无果,一筹莫展之际把问题提到了交流群里,吾乐吧的牛总给出了可行的解决方案----使用 WCF 来调用。有了

redhat7.3 配置 163 yum 源

redhat 的更新包只对注册的用户生效,所以我们需要自己手动更改成 CentOS 的更新包,CentOS 几乎和 redhat 是一样的,所以无需担心软件包是否可安装,安装之后是否有问题。删除 redhat 原有的 yum 首先删除 redhat 原有的 yum,因为 redhat 原本的 yum 没有注册为 redhat 用户是用不了的。rpm-aq|grepyum|xargsrpm-e--nodepsrpm-aq|greppyth

【爬虫学习笔记】基于 Bloom Filter 的 url 去重模块 UrlSeen

UrlSeen 用来做 url 去重。对于一个大的爬虫系统,它可能已经有百亿或者千亿的 url,新来一个 url 如何能快速的判断 url 是否已经出现过非常关键。因为大的爬虫系统可能一秒钟就会下载几千个网页,一个网页一般能够抽取出几十个 url,而每个 url 都需要执行去重操作,可想每秒需要执行大量的去重操作。因此 UrlSeen 是整个爬虫系统中非常有技术含量的一个部分。为了提高过滤的效率,我们使用有极低误判率但是效率

【爬虫学习笔记】Url 过滤模块 UrlFilter

UrlFilter 则是对提取出来的 URL 再进行一次筛选。不同的应用筛选的标准是不一样的,比如对于 baidu/google 的搜索,一般不进行筛选,但是对于垂直搜索或者定向抓取的应用,那么它可能只需要满足某个条件的 url,比如不需要图片的 url,比如只需要某个特定网站的 url 等等。UrlFilter 是一个和应用密切相关的模块。usingSystem;usingSystem.Collections.Gen

【爬虫学习笔记】用于提取网页中所有链接的 Extractor 模块

Extractor 的工作是从下载的网页中将它包含的所有 URL 提取出来。这是个细致的工作,你需要考虑到所有可能的 url 的样式,比如网页中常常会包含相对路径的 url,提取的时候需要将它转换成绝对路径。这里我们选择使用正则表达式来完成链接的提取。html 标签中的链接地址通常会出现在 href 属性或者 src 属性中,所以我们采用两个正则表达式来匹配网页中的所有链接地址。网页链接提取器 Extractor 类:usi

MVC 学习笔记索引帖

MVC 学习笔记索引帖【MVC 学习笔记】1.项目结构搭建及单个类在各个层次中的实现【MVC 学习笔记】2.使用 T4 模板生成其他类的具体实现【MVC 学习笔记】3.使用 Spring.Net 应用 IOC(依赖倒置)【MVC 学习笔记】4.使用 Log4Net 来进行错误日志的记录【MVC 学习笔记】5.使用 Controller 来代替 Filter 完成登录验证(Session 校验)【MVC 学习笔记】6.使用 Memcache

安装 DotNetCore.1.0.1-VS2015Tools.Preview2.0.2 出现 0x80072f8a 未指定的错误

最近 DotNetCore 更新到了 1.0.1,Azuretools 也更新到了 2.9.5,尝试更新时发现,DotNetCore 更新失败,提示:0x80072f8a 未指定的错误,而 AzureTools 中也包含了 DotNetCore 的更新,0x80072f8a 问题,导致两个软件都不能成功地完成更新。研究安装的错误日志后才发现,原来使因为证书过期导致的无法下载微软在线资源,所以无法成功安装,解决证书问题之后就

【迷宫中的算法实践】迷宫生成算法——Prim 算法

普里姆算法(Prim 算法),图论中的一种算法,可在加权连通图里搜索最小生成树。意即由此算法搜索到的边子集所构成的树中,不但包括了连通图里的所有顶点(英语:Vertex(graphtheory)),且其所有边的权值之和亦为最小。该算法于 1930 年由捷克数学家沃伊捷赫·亚尔尼克(英语:VojtěchJarník)发现;并在 1957 年由美国计算机科学家罗伯特·普里姆(英语:RobertC.Prim)独立发

【MVC 学习笔记】7. 使用极验验证来制作更高逼格的验证码

在之前的项目中,如果有需要使用验证码,基本都是自己用 GDI+ 画图出来,简单好用,但是却也存在了一些小问题,首先若较少干扰线,则安全性不是很高,验证码容易被机器识别,若多画太多干扰线条,机器人识别率下降的同时,人眼的识别率也同步下降(震惊哭)。更为重要的是,GDI+ 绘制的验证码一般来说也不会很美观,如果做一个炫酷的登陆界面却配了这样一个验证码,画风诡异,丑到极致。再后来浏览网页的过程中,发现很多很多网