Natural Language Processing

哥德尔, 语法, 和潜意识(下)

作者: Bill Wadge 译者: Mr.Kua / 2017.Jun.01 有删改 上次我们聊了很多哥德尔,却没有聊语法和围棋,这次是来填坑的。 上次,我们提到了,哥德尔的工作证明了有限事实和规则的集合是无法构成完备的数学体系的,根据经验而得来的知识是非常有用的,数学到最后其实就是一门实验科学。 那语法呢?对于自然语言来说,其实是一样的。先抛开语义不谈,单单就说英语这样的自然语言,其句法构成就已经无限丰富了,无法用有限的集合来描述。这同样对围棋也成立,要想掌握这些技能,你需要判断和经验。 哥德尔,语法,和意识(下) 是不是这意味着事实(

SOP

漫谈同源策略攻防

𒁷 如今的WEB标准纷繁复杂,在浏览稍大一些的网站时,细心的人会发现网页上呈现的内容并不仅限于网站自身提供的内容,而是来自一堆五花八门的网站的内容的集合。但有谁会想到同源策略在保护着网民们的安全呢? 了解同源策略是十分有必要的,要深入掌握XSS / CSRF等WEB安全漏洞,不了解同源策略就如同盲人摸象一般,无法说出全貌,更无法应用其进行打击。另外,无论是网银盗号,还是隐私泄露,理解了同源策略,就有助于理解自己面临着什么样的威胁。 0x00 什么是源和同源策略 源就是主机,协议,端口名的一个三元组。 同源策略(Same Origin Policy, SOP)是Web应用程序的一种安全模型,它控制了网页中DOM之间的访问。重要的事情说三遍,它只是个模型,而不是标准(哪怕标准在实现的时候也会千差万别)。同源策略被广泛地应用在处理WEB内容的各种客户端上,

Enterprise Securty

打造免费企业安全:便宜没好货吗?(三)

(写在前面:虽然是2016年的帖子系列,但译者相信这里面还是有一些细节值得借鉴。) 在我们前面的帖子中,我们重点讨论了使用“便宜货”在网络中收集和分析信息。然而,除了网络之外,还有另一片天地。实际上,一系列更加丰富的信息蕴含在你所在企业的主机和服务器上。这包括运行着的进程,活动的网络连接,监听着的端口,文件系统上的artifact,用户日志,启动项等等。唯一困难的点可能就在于从何下手了。一旦你确定了需要关心的目标,你可以收集数据,寻找可疑的离群点,进行高阶的分析。在这一篇终章中,我们会给出一些在主机上寻找线索的建议。这些技巧是一些指引,来帮助你寻找主机/服务器上潜在的恶意行为的证据,在这个过程当中,我们不一定会用到IOC(入侵标志)和文件签名。重要的是,

Enterprise Securty

打造免费企业安全:便宜没好货吗?(二)

在上一节,我们讨论了工具箱里有被动DNS的重要性,并描述了一个组织如何设置传感器来收集被动DNS数据,有了这些基础之后,下一步就是分析收集到的数据,寻找恶意行为的蛛丝马迹,在较低的误报率的前提下,为防御者们提供深挖未知威胁的新起点。关注这些外点和模式是很重要的,因为对手可以很容易的更换他们的攻击基础设施,而原有的IOC将快速失效。 在第二篇中,我会讲解一些信号,并且讨论如何将这些信号应用到被动DNS数据上来追踪网络中的潜在对手。 Fast Flux (DNS速涌) 速涌是一种最早在僵尸网络中被用到的技术。在正常情况下,一个FQDN在很长一段时间内解析到同一个地址,而开启了速涌之后,被用做控制中心C&C的一个FQDN在一段时间内以极高的频率解析到不同的IP,这主要是为了针对基于IP地址的屏蔽列表,然而,这项技术本身并不一定是恶意的,一个有着巨大访问量的域名同样可以应用该技巧解析到大量不同的IP上。不过我们可以观察到善意的速涌会解析到同质的IP空间(比如IP拥有者/地址块/地理位置趋同)。恶意的域名往往解析到更大量在上述属性上都各异的地址空间。

Enterprise Securty

打造免费企业安全:便宜没好货吗?(一)

(写在前面:本文原文发于ENDGAME BLOG, 虽然是2016年的帖子系列,但译者相信这里面还是有一些细节值得借鉴。) 当依赖于已知IOC的安全实践逐渐开始失效,业界开始流行使用的词语开始变成”就当做已经被攻破“。太多的时候,直到第三方发现入侵并通知相关方,大多数入侵都从眼皮底下溜过。除了使用基于标志的解决方案或者等到令人尴尬的第三方告知,网络安全保卫者们需要”把自己的系统当做已被攻破“,并且,当针对性的APT攻击越来越流行,保卫者们必须超越搜索已知IOC的做法,开始在网络中对那些未知的入侵进行搜寻。 追踪未知威胁是非常具有挑战的,身为一种新的名词,它代表的事物也许下一秒就变化了。也许有人会觉得这种搜寻已经超出了他们的人手和资源能力范围。所以,防御者需要强大的工具从堆积如山的数据中筛选,快速侦测出安全事件。那些强大的商业安全产品无疑让那些有机会使用他们的人如虎添翼,但是信息安全预算是有限的,再重视信息安全的公司,也不会无限制的购买所有看起来很美的安全产品。那么这就到了我们这次要说的重点,如何在成本和安全中寻找到折衷的解决方法:便宜也是有好货的! IOC搜索的弊端

PhantomJS

Selenium+PhantomJS的爬虫那些事儿

0x00 最近写爬虫分析灰色网站,要使用无头浏览器动态加载网页,使用selenium+PhantomJS, 自己研究的时候遇到了一些比较有意思的坑,和大家分享一下。 0x01 先说一下架构,在大规模爬取网页内容的时候,为了提高性能,降低存储和计算开销,单个PhantomJS进程往往需要连续处理大量的URL,那么针对单个PhantomJS进程在连续处理不同URL的时候,往往会出现一些意想不到的问题。 例如,由于我们需要通过 from selenium import webdriver d = webdriver.PhantomJS() d.set_page_load_timeout('10') d.implicitly_wait(

Internet

散步者之死

Palo Alto,加利福尼亚 某天,我在翻寻一堆关于internet的未来的文章时,一篇晦涩的小文引起了我的注意,文章内容赞赏了一种被称为"Cyberflâneur"的行为,绘制了一幅光明的图画,在这样的愿景里充满了欢愉,不可思议和令人脑洞大开的事,在这幅图画里,就像城市和街道是Flâneur的世界一样,互联网和互联网信息高速公路也成了Cyberflâneur的乐园。 好奇的我径直开始阅读后面的部分,文尾那些同时代人的评论无一不笃信flânerie会随着时间推移在互联网生活方式中繁荣起来,可与现在世界上的情况相比,这简直错的不能再错。Cyberflâneur就像珍稀动物一般稀有,Cyberflâneur的行为方式也和如今社交媒体定义的行为方式格格不入。究竟什么不对? 也许了解一点flânerie的历史有助于解答这些疑问。德国文化评论者,哲学家瓦尔特·本雅明从夏尔·皮埃尔·波德莱尔的诗中汲取了灵感,将flâneur的行为定义成了现代主义中标志般的存在。flâneur的形象已经和19世纪的巴黎牢牢联系在了一起,这样一个男人,

competition

有效的竞争

(节选自《Feature Extraction, Foundations and Applications》,2006) 竞争带来进步,50年前,100米蝶泳世界纪录比今天慢22%,36年前的马拉松冠军比现今的冠军跑的慢26%. 试想如果图灵在1950年开设了一项机器学习的比赛,也许我们今天所用的机器学习算法不会这么糟糕! 但是,有效的竞赛的要素是什么?美国国标研究所NIST在1988年起就开办了关于语音识别的竞赛,错误率今天已经比当年下降了三倍,但比赛带来的进步远远没有人们希望的高。 信息检索领域知名的TREC竞赛,自1992年开展起稳步前进,其中的参与者早已在各个百亿美元级的搜索产业中大显身手;然而在机器人界,DARPA仅仅开展了两年Cyber Grand Challenge,就已经看到结果从彻底的失败转为了令人瞩目的成功(题外话:第二年的比赛比第一年容易许多)。 我认为有效的技术竞赛需要达到以下四个标准: 比赛的任务需要平民化。这样非专家也能参与到比赛里来,看到自身的水平并向那些水平更高的对手学习。 打分需要是渐进的。

ML

机器学习系列 -- 如何处理任意ML问题

原作者: Abhishek Thakur Senior Data Scientist @ Searchmetrics Inc. 一名数据科学家每天都要处理海量的数据,有的数据科学家表示每天60%-70%的时间都花在了清洗,鼓捣(误,原文为munging),和将数据准备上ML模型的餐桌,这篇博文主要关注的是第二个部分,i.e.应用机器学习模型(包括预处理的阶段)。本文里介绍的流程来自于作者上百场ML竞赛的经验,这些经验虽然非常的宽泛但也十分有用(其他的更复杂的方法是存在的)。 在这里,我们会使用Python来完成一系列任务。 处理数据 在应用ML模型之前,数据必须被转换成表格形式,这段过程往往是最耗时和困难的,如下图所示: 表格数据是机器学习或数据挖掘中最常见的数据呈现形式。这里我们得到了一张表,

equality

大数据,正在侵蚀这个社会

当晦涩难懂的学科领域中悄悄出现一些无良的行为,往往只有靠“告密者”,这些行为才能被公诸于众。这正是前量化交易员Cathy O'Neil在发现大数据行业中的问题后所做的。Cathy O'Neil,一位哈佛毕业的数学家,花费了数年时间在Barnard教书,在DE Shaw(世界顶尖对冲基金之一)工作,并开了一间个性化广告投放的创业公司。 不像那些在伊拉克想发现却从未发现过的大杀器,数据驱动的算法正包围着我们。我们的领导们用它们为我们的表现打分,我们孩子的老师的任职与解雇由它们决定,它们还决定着谁拿学分,谁要付更高的保险金,谁会收到奢侈手提袋的广告,谁会被针对性的投放野鸡大学的广告。 事实上,正是那最后一个案例促使了O'Neil,“占领运动”的成员,写这本书:有一次在公司里听报告的时候,一位投资人对公司的技术让他从此不用再看到凤凰城大学的广告而是只收到诸如去阿鲁巴度假和摩托冲浪的广告啧啧称赞,这让她意识到,这门技术带来的不是善意,而是将人们关入各种不同的牢笼,

Methodology

如何思考

去年(2015),在Facebook的一场内部演讲中我幸运的见到了John Carmack//约翰·卡马克解释他的想法生成机制,一开始我以为他会花好几个小时不停的说关于编程语言,游戏开发,大规模软件工程和其他技术话题,可是出乎我意料的是,他开场就谈到了“有一个好的想法对于成功带来的作用被夸大了,执行才是一切”这样的硅谷陈词滥调,然而,他提到一个叫做“反脆弱性”的概念。 脆弱的反位面?         作为一种描述脆弱的反面的现象,我们目前并没有现成的词可以形容,你或许会指出“健壮”,“柔韧”,“坚强”是它的反义词,不过这些词语都描述的是一种在压力下不会崩溃的系统,有什么词能用来描述从压力中得到裨益的系统? 这个问题虽然简单,但让我惊讶的是直到今天我才开始主动思考这个存在潜意识里许久的问题。 以下是《Antifragile》的序: